用深度学习模拟记忆过程
1234567英文名称: A generative model of memory construction and consolidation中文名称: 记忆构建和巩固的生成模型文章: https://www.nature.com/articles/s41562-023-01799-z代码: https://github.com/ellie-as/generative-memory作者: Eleanor Spens, Neil Burgess,机构: 伦敦大学认知神经科学研究所,伦敦大学皇后广场神经病学研究所日期: 2024-01-19
1 读后感
作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human
behaviour,收稿日期(Received)2023.5.30,发表日期是
2024.01.29。可能因为审稿时间太长,AI
领域这两年又发展太快,技术栈看起来并不是很新,如果现在做,可能有更好的方法。不过还好这是一般偏认识的论文,两位作者是认知科学和神经病学的科学家。
从技术角度看,主要使用了现代霍普菲尔德网络(MHN),变分自编码器
VAE,生成网络, ...
Science重磅_让大模型像婴儿一样学习语言
123456英文名称: Grounded language acquisition through the eyes and ears of a single child中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言文章: https://www.science.org/doi/10.1126/science.adi1374代码: https://github.com/wkvong/multimodalbaby作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University日期: 2024-02-02
1 读后感
这是一篇 2024 年 2 月发表在 Science
上的论文,是跨信息科学和认知科学的研究,来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。
看到图
-3,模型通过学习把具象扩展到抽象的时候,真的挺激动的,会有一种:在这伟大的时代,看着人们正在创造历史的感觉。这需要有多模态技术的加持,还需要一个老实孩子。
这篇文章的结构不太像医学 ...
跨品牌智能家居控制_从原理到实现_HomeAssistant
项目地址:https://github.com/home-assistant/core
Star:67 K
1 引言
最近去南方玩,住了一些智能酒店,自动开关电视、窗帘、灯、空调,还挺好用的,尤其喜欢关灯这功能。先不说它的理解能力(对同一命令的不同描述),单讲控制能力,还比较粗糙。比如:无法细化具体开关哪个灯;有的只能控制部分电器;有的只是把语音控制转换成遥控器按键,完成一个功能需要多个步骤……
更喜欢住智能酒店的原因主要是:这些酒店多是这两年建的,比较新、比较干净。
对智能家居产生了一点兴趣。现在的智能家居用品真的不贵,比如小米的产品,就想要不也把自己家改造一下。刚好在
github 的趋势榜 top15 中看到了智能家居工具 Home
Assistant,下面就一起来了解一下智能家居系统。
Home Assistant(后简称 HA)诞生于 2013 年,是一款基于 Python
的智能家居开源系统,它的主要功能是将不同品牌的智能家居设备连接起来互联互通,并将本地控制和隐私放在首位。
2 背景知识
2.1 使用方法
|500
一般的操作流程是:用户通过语音与智能助理进行交互 ...
头悬梁锥刺股?没必要:复盘如何用工具提升效率
流量池
从 2017 年 10
月,我开始写公众号,一直以来都是零零散散地写,读者也只是随随便便地看。而今年在连续日更了
10 天后,我获得了今年的第一次流量池推荐。
尽管和别人动辄十万百万的阅读量没法比。但是,考虑到我的文章大量涉及代码、命令和公式,有时候我自己都觉得很枯燥,这样的小众领域这个量已经可以了。
思考能进池的原因,保证质量的日更可能是最重要的。除了好友的打气鼓励和最近有较多时间以外,新工具的应用也是保证日更的关键。通过使用这些新工具,不仅能够节省时间,减少频繁切换工作流的困扰,使自己更加轻松。
优化工作流
以论文解读的文章为例,我的初始目标是自我积累和让生涩的文章变得易于理解,希望读者至少能够理解原理并知道如何应用。
一般来说,消化一篇论文的过程如下:收集相关信息、阅读、翻译、划重点,并将其转化为中文记在笔记中,最后进行整理和重构。需要在
Google 学术、arxiv、zotero、gpt、obsidian
等各种工具之间来回切换。整个过程非常耗费精力,很难在保证质量的前提下每天都能更新。这样坚持下去确实是一件非常痛苦的事情,甚至会怀疑这样做是否值得:不仅花费时间,还 ...
论文阅读_语音识别_Wisper
123456789英文名称: Robust Speech Recognition via Large-Scale Weak Supervision中文名称: 通过大规模弱监督实现鲁棒语音识别链接: https://proceedings.mlr.press/v202/radford23a.html代码: https://github.com/openai/whisper作者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever机构: OpenAI日期: 2022-12-06引用次数: 1032
1 读后感
语音识别不仅用于语音输入、语音聊天,生成字幕,还在语音合成,视频分析等等领域作为工具使用,一方面需要识别不同语音,不同发音人的音频特征,还需要生成合理通顺的文本(选择多音字,标点)等等。
Whisper 是 OPENAI 提供的语音转文字的引擎,它是一个开源工具,在自己的
GPU 机器上也能搭建。Wisper
是一个多语音识别引擎,简单用过,感觉对中文识别还是很好 ...
论文阅读_语音合成_VITS
123456英文名称: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech中文名称: 基于条件变分自编码器和对抗学习的端到端文本到语音链接: http://arxiv.org/abs/2106.06103v1代码: https://github.com/jaywalnut310/vits作者: Jaehyeon Kim, Jungil Kong, Juhee Son日期: 2021-06-11
1 读后感
简单地说,在训练过程中将语音数据和相应的文本输入模型,让模型学习这两者之间的关系。整个逻辑结构是一个大的变分自编码器,具体细节请参考方法的
VAE 部分。
如图所示,在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text
Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear
Sepctrogram)是从用于训练的音频中提取的 wav
文件的音频特征。这些特征通过后 ...
语音方向精典论文品读_HuBERT
12345678英文名称: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units中文名称: HuBERT:通过隐藏单元的屏蔽预测进行自监督语音表示学习链接: http://arxiv.org/abs/2106.07447v1代码: https:// github.com/pytorch/fairseq/tree/master/examples/hubert作者: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed机构: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed日期: 2021-06-14引用次数: 1518
| ...
论文阅读_语音转换_SoftVC
12345678英文名称: A COMPARISON OF DISCRETE AND SOFT SPEECH UNITS FOR IMPROVED VOICE CONVERSION中文名称: 离散和软语音单元的比较,以改善语音转换链接: http://dx.doi.org/10.1109/icassp43922.2022.9746484代码: https://github.com/bshall/hubert作者: Benjamin van Niekerk, Marc-Andr´e Carbonneau, Julian Za¨ıdi, Matthew Baas, Hugo Seut´e, Herman Kamper机构: 育碧拉福奇(Ubisoft La Forge),蒙特利尔,加拿大,E&E工程,斯泰伦博斯大学,南非日期: 2021-11-03
1 读后感
语音转换的目标是在不改变内容的前提下,将任意说话人的声音转换为目标说话人的声音,论文的目标是通过自监督方法来实现这一功能。
在这个任务中,无监督学习通常会比有监督学习产生更好的效果。以前的无监督学习方法通常是提取音频特征,对 ...
目前见过效果最好的中文语音合成工具
1 引言
与大型语言模型(LLM)相比,语音模型相对较小,只需要本地有 GPU
的机器就可以进行训练。我的机器是很久以前购买的 1080Ti,10G
的显存,就可以正常训练。它在中文声音模拟方面的效果也相当不错。我下载了一段十几分钟评书音频,用这个模型进行训练只需
5
分钟就能完成。我觉得它模拟的音色和抑扬顿挫的效果都相当不错,虽然不能完全模拟真人的声音,但已经是我目前使用过的最好效果了。
此外,作者评测显示用 1 分钟语音与 30
分钟的效果相似。该项目目前只发布了 TTS 工具,变声工具还在开发中。
2 安装
2.1 环境
建议在 docker
环境下的安装。这样既可以与其他工具共存,也不会破坏宿主机当前环境。我下载了与
install.sh 中指定的底层软件版本最相近的版本。基础镜像
7.2G,全部安装完 10.5G,另外下载的模型和源码也在 5G 以内。
12$ docker pull pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime$ nvidia-docker run --network host --rm -v /exports ...
Wechatsync插件介绍
1 使用场景
最近文章更新比较频繁,基本是日更。因此花费了相当多的时间在不同平台之间同步。时间主要消耗在:需要大致浏览一遍文章内容,另外某些平台需要手动上传图片,有时还需要调整排版。
为了解决这个问题,我选择了以一个平台为中心,比如微信公众号,将文章精心排版后,再同步到其他平台。
在 VSCode 中有插件可以实现这个功能(Markdown publisher for
csdn…),在 Chrome
浏览器中也有类似的插件。虽然不能说完美,但能提高效率。
试用了几个,觉得这个最好用,本文将介绍 Chrome 插件 Wechatsync
的使用方法,并分享一些实用体验。
2 项目介绍
项目名称:Wechatsync
项目地址:https://github.com/wechatsync/Wechatsync
Star:2.7K
功能:一键同步文章到多个内容平台,支持今日头条、WordPress、知乎、简书、掘金、CSDN、typecho
等主要平台,实现一次发布,多平台同步发布,提高个人生产力。
代码:项目主要使用 JavaScript 实现。
安装:从 Chrome 插件商店直接安装 ...