avatar
Articles
878
Tags
282
Categories
185

Yan 的杂物志_个人主页分享
Search
用深度学习模拟记忆过程
Created2024-02-15|2_Note3_Paper0_AI语言模型
1234567英文名称: A generative model of memory construction and consolidation中文名称: 记忆构建和巩固的生成模型文章: https://www.nature.com/articles/s41562-023-01799-z代码: https://github.com/ellie-as/generative-memory作者: Eleanor Spens, Neil Burgess,机构: 伦敦大学认知神经科学研究所,伦敦大学皇后广场神经病学研究所日期: 2024-01-19 1 读后感 作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human behaviour,收稿日期(Received)2023.5.30,发表日期是 2024.01.29。可能因为审稿时间太长,AI 领域这两年又发展太快,技术栈看起来并不是很新,如果现在做,可能有更好的方法。不过还好这是一般偏认识的论文,两位作者是认知科学和神经病学的科学家。 从技术角度看,主要使用了现代霍普菲尔德网络(MHN),变分自编码器 VAE,生成网络, ...
Science重磅_让大模型像婴儿一样学习语言
Created2024-02-13|2_Note3_Paper0_AI语言模型
123456英文名称: Grounded language acquisition through the eyes and ears of a single child中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言文章: https://www.science.org/doi/10.1126/science.adi1374代码: https://github.com/wkvong/multimodalbaby作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University日期: 2024-02-02 1 读后感 这是一篇 2024 年 2 月发表在 Science 上的论文,是跨信息科学和认知科学的研究,来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。 看到图 -3,模型通过学习把具象扩展到抽象的时候,真的挺激动的,会有一种:在这伟大的时代,看着人们正在创造历史的感觉。这需要有多模态技术的加持,还需要一个老实孩子。 这篇文章的结构不太像医学 ...
跨品牌智能家居控制_从原理到实现_HomeAssistant
Created2024-02-08|2_Note0_Technic11_应用智能家居
项目地址:https://github.com/home-assistant/core Star:67 K 1 引言 最近去南方玩,住了一些智能酒店,自动开关电视、窗帘、灯、空调,还挺好用的,尤其喜欢关灯这功能。先不说它的理解能力(对同一命令的不同描述),单讲控制能力,还比较粗糙。比如:无法细化具体开关哪个灯;有的只能控制部分电器;有的只是把语音控制转换成遥控器按键,完成一个功能需要多个步骤…… 更喜欢住智能酒店的原因主要是:这些酒店多是这两年建的,比较新、比较干净。 对智能家居产生了一点兴趣。现在的智能家居用品真的不贵,比如小米的产品,就想要不也把自己家改造一下。刚好在 github 的趋势榜 top15 中看到了智能家居工具 Home Assistant,下面就一起来了解一下智能家居系统。 Home Assistant(后简称 HA)诞生于 2013 年,是一款基于 Python 的智能家居开源系统,它的主要功能是将不同品牌的智能家居设备连接起来互联互通,并将本地控制和隐私放在首位。 2 背景知识 2.1 使用方法 |500 一般的操作流程是:用户通过语音与智能助理进行交互 ...
头悬梁锥刺股?没必要:复盘如何用工具提升效率
Created2024-01-26|2_Note0_Technic0_工具其它
流量池 从 2017 年 10 月,我开始写公众号,一直以来都是零零散散地写,读者也只是随随便便地看。而今年在连续日更了 10 天后,我获得了今年的第一次流量池推荐。 尽管和别人动辄十万百万的阅读量没法比。但是,考虑到我的文章大量涉及代码、命令和公式,有时候我自己都觉得很枯燥,这样的小众领域这个量已经可以了。 思考能进池的原因,保证质量的日更可能是最重要的。除了好友的打气鼓励和最近有较多时间以外,新工具的应用也是保证日更的关键。通过使用这些新工具,不仅能够节省时间,减少频繁切换工作流的困扰,使自己更加轻松。 优化工作流 以论文解读的文章为例,我的初始目标是自我积累和让生涩的文章变得易于理解,希望读者至少能够理解原理并知道如何应用。 一般来说,消化一篇论文的过程如下:收集相关信息、阅读、翻译、划重点,并将其转化为中文记在笔记中,最后进行整理和重构。需要在 Google 学术、arxiv、zotero、gpt、obsidian 等各种工具之间来回切换。整个过程非常耗费精力,很难在保证质量的前提下每天都能更新。这样坚持下去确实是一件非常痛苦的事情,甚至会怀疑这样做是否值得:不仅花费时间,还 ...
论文阅读_语音识别_Wisper
Created2024-01-24|2_Note0_Technic2_算法1_音频
123456789英文名称: Robust Speech Recognition via Large-Scale Weak Supervision中文名称: 通过大规模弱监督实现鲁棒语音识别链接: https://proceedings.mlr.press/v202/radford23a.html代码: https://github.com/openai/whisper作者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever机构: OpenAI日期: 2022-12-06引用次数: 1032 1 读后感 语音识别不仅用于语音输入、语音聊天,生成字幕,还在语音合成,视频分析等等领域作为工具使用,一方面需要识别不同语音,不同发音人的音频特征,还需要生成合理通顺的文本(选择多音字,标点)等等。 Whisper 是 OPENAI 提供的语音转文字的引擎,它是一个开源工具,在自己的 GPU 机器上也能搭建。Wisper 是一个多语音识别引擎,简单用过,感觉对中文识别还是很好 ...
论文阅读_语音合成_VITS
Created2024-01-24|2_Note3_Paper0_AI语音
123456英文名称: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech中文名称: 基于条件变分自编码器和对抗学习的端到端文本到语音链接: http://arxiv.org/abs/2106.06103v1代码: https://github.com/jaywalnut310/vits作者: Jaehyeon Kim, Jungil Kong, Juhee Son日期: 2021-06-11 1 读后感 简单地说,在训练过程中将语音数据和相应的文本输入模型,让模型学习这两者之间的关系。整个逻辑结构是一个大的变分自编码器,具体细节请参考方法的 VAE 部分。 如图所示,在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear Sepctrogram)是从用于训练的音频中提取的 wav 文件的音频特征。这些特征通过后 ...
语音方向精典论文品读_HuBERT
Created2024-01-24|2_Note3_Paper0_AI语音
12345678英文名称: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units中文名称: HuBERT:通过隐藏单元的屏蔽预测进行自监督语音表示学习链接: http://arxiv.org/abs/2106.07447v1代码: https:// github.com/pytorch/fairseq/tree/master/examples/hubert作者: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed机构: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed日期: 2021-06-14引用次数: 1518 | ...
论文阅读_语音转换_SoftVC
Created2024-01-24|2_Note3_Paper0_AI语音
12345678英文名称: A COMPARISON OF DISCRETE AND SOFT SPEECH UNITS FOR IMPROVED VOICE CONVERSION中文名称: 离散和软语音单元的比较,以改善语音转换链接: http://dx.doi.org/10.1109/icassp43922.2022.9746484代码: https://github.com/bshall/hubert作者: Benjamin van Niekerk, Marc-Andr´e Carbonneau, Julian Za¨ıdi, Matthew Baas, Hugo Seut´e, Herman Kamper机构: 育碧拉福奇(Ubisoft La Forge),蒙特利尔,加拿大,E&E工程,斯泰伦博斯大学,南非日期: 2021-11-03 1 读后感 语音转换的目标是在不改变内容的前提下,将任意说话人的声音转换为目标说话人的声音,论文的目标是通过自监督方法来实现这一功能。 在这个任务中,无监督学习通常会比有监督学习产生更好的效果。以前的无监督学习方法通常是提取音频特征,对 ...
目前见过效果最好的中文语音合成工具
Created2024-01-23|2_Note0_Technic11_应用语音
1 引言 与大型语言模型(LLM)相比,语音模型相对较小,只需要本地有 GPU 的机器就可以进行训练。我的机器是很久以前购买的 1080Ti,10G 的显存,就可以正常训练。它在中文声音模拟方面的效果也相当不错。我下载了一段十几分钟评书音频,用这个模型进行训练只需 5 分钟就能完成。我觉得它模拟的音色和抑扬顿挫的效果都相当不错,虽然不能完全模拟真人的声音,但已经是我目前使用过的最好效果了。 此外,作者评测显示用 1 分钟语音与 30 分钟的效果相似。该项目目前只发布了 TTS 工具,变声工具还在开发中。 2 安装 2.1 环境 建议在 docker 环境下的安装。这样既可以与其他工具共存,也不会破坏宿主机当前环境。我下载了与 install.sh 中指定的底层软件版本最相近的版本。基础镜像 7.2G,全部安装完 10.5G,另外下载的模型和源码也在 5G 以内。 12$ docker pull pytorch/pytorch:2.1.1-cuda12.1-cudnn8-runtime$ nvidia-docker run --network host --rm -v /exports ...
Wechatsync插件介绍
Created2024-01-20|2_Note0_Technic0_工具浏览器工具
1 使用场景 最近文章更新比较频繁,基本是日更。因此花费了相当多的时间在不同平台之间同步。时间主要消耗在:需要大致浏览一遍文章内容,另外某些平台需要手动上传图片,有时还需要调整排版。 为了解决这个问题,我选择了以一个平台为中心,比如微信公众号,将文章精心排版后,再同步到其他平台。 在 VSCode 中有插件可以实现这个功能(Markdown publisher for csdn…),在 Chrome 浏览器中也有类似的插件。虽然不能说完美,但能提高效率。 试用了几个,觉得这个最好用,本文将介绍 Chrome 插件 Wechatsync 的使用方法,并分享一些实用体验。 2 项目介绍 项目名称:Wechatsync 项目地址:https://github.com/wechatsync/Wechatsync Star:2.7K 功能:一键同步文章到多个内容平台,支持今日头条、WordPress、知乎、简书、掘金、CSDN、typecho 等主要平台,实现一次发布,多平台同步发布,提高个人生产力。 代码:项目主要使用 JavaScript 实现。 安装:从 Chrome 插件商店直接安装 ...
1…282930…88
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
878
Tags
282
Categories
185
Follow Me
Announcement
This is my Blog
Recent Post
什么情况下使用强化学习2025-10-11
围棋经典算法与股票市场预测2025-10-11
强化学习工具及优化方法2025-10-11
强化学习的核心概念与实践应用2025-10-11
金融相关的强化学习工具2025-10-11
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
系统优化 加密货币 版本管理 情绪机制 心理调节 GitHub Actions 深度学习/模型结构 效率 主观能动性 语音 基金 方法论 远视镜 关系反转 量化交易 程序员 菜谱 数据存储/MYSQL 自我表达 对谈 投资 机器学习 卷积神经网络 数据存储/ES 模型转换 锂 数据库 知识图/知识图谱 自动驾驶 Django 人工智能 Python/少儿编程 开源项目 角色扮演 金融工具 笔记工具 工作思考 AI功能 数据安全 生物医学/重症
Archives
  • October 202515
  • September 20256
  • August 202518
  • July 202538
  • June 202537
  • May 202529
  • April 202516
  • March 20258
Info
Article :
878
Total Count :
1228.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database