avatar
Articles
829
Tags
252
Categories
168

Yan 的杂物志_个人主页分享
Search
论文阅读_音频压缩_SoundStream
Created2023-05-01|2_Note0_Technic2_算法1_音频
name_ch: SoundStream:一种端到端的神经音频编解码器 name_en: SoundStream:An End-to-End Neural Audio Codec paper_addr: http://arxiv.org/abs/2107.03312 date_publish: 2021-07-07 1 读后感 高效压缩语音、音乐和一般音频。模型由编码器,量化器,解码器组成,主要使用了卷积技术。 2 摘要 基于神经网络的音频编码器,可高效生成文本,音乐。模型结构由全卷积编码器/解码器网络和残差矢量量化器组成。它结合了对抗和重建损失技术,可将量化的嵌入作为输入,生成高质量音频。 单模型生成 3kbps~18kpbs 的音频。该模型适用于低延迟实现,支持流式推理,并可在智能手机 CPU 上实时运行。通过主观质量证明,SoundStream 输出音频高于之前模型。 3 介绍 主要贡献: 提出音频编码器 SoundStream,由编码、解码、量化器组成;通过重建和对抗损失训练模型,实现高品质音频生成。 提出新的残差量化器,平衡速率/失真/复杂度;提出 quantizer d ...
论文阅读_音频压缩_Encodec
Created2023-04-27|2_Note0_Technic2_算法1_音频
name_ch: 高保真神经音频压缩 name_en: High Fidelity Neural Audio Compression date_publish: 2022-10-24 paper_addr: http://arxiv.org/abs/2210.13438 code: github.com/facebookresearch/encodec 1 读后感 方法与 SoundStream 相似,模型主要使用了卷积,LSTM,还加入 Transformer 优化量化单元,以减少带宽。 2 摘要 Encodec 也是一个音频编码器 audio codec,包括编码器 - 解码器架构、量化方法和感知损失等要素。EnCodec 在多个音频压缩比和采样率条件下,在语音和音乐的压缩中均达到了最先进的质量水平。 文章还讨论了神经网络压缩模型的两个问题:如何表示噪音和如何高效地压缩,作者通过构建大而多元化的训练集和引入辨别器网络,解决了第一个问题,而通过引入熵编码和实时模式流的控制来解决第二个问题。 检验了 EnCodec 的运算速度、实时和压缩效果,得到了较好的实验效果。 3 方法 模型由 ...
论文阅读_音频表示_wav2vec_2
Created2023-04-27|2_Note0_Technic2_算法1_音频
12345中文名: wav2vec 2.0:语音表示自监督学习框架英文名: wav2vec 2.0:A Framework for Self-Supervised Learning of Speech Representations地址: http://arxiv.org/abs/2006.11477代码: https://github.com/pytorch/fairseq时间: 2020-10-22 1 读后感 模型用于语音识别,模型结构结合了 CNN 和 Transformer。文章言简意赅,结构非常舒服。 2 摘要 先从未标注语音中学习音频的表示,然后通过少量标注数据精调,得到模型优于用大量标注数据训练的模型,且其原理非常简单。 仅使用十分钟的标记数据和 53k 小时的未标记数据的预训练,可达到 4.8/8.2 WER。这证明了使用有限数量的标记数据进行语音识别的可行性。 3 介绍 语音识别系统一般需要成千上万小时的转录语音(语音 + 对应文本)才能达到可接受的性能,而对于全球近 7,000 种语言中的大多数来说,并没有这么多标注数据。 神经网络受益于大量无标记训练数据。自监督 ...
论文阅读_语音合成_Spear-TTS
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: 说话、阅读和提示:少量监督实现高保真文本转语音 name_en: Speak, Read and Prompt:High-Fidelity Text-to-Speech with Minimal Supervision paper_addr: http://arxiv.org/abs/2302.03540 code: https://google-research.github.io/seanet/speartts/examples/ date_publish: 2023-02-07 1 读后感 这是一个完整的 TTS 系统,可视为 AudioLM 的延展。 2 摘要 多语言的语音合成系统,使用大量无监督数据,少量有监督数据训练,结合了两种类型的离散语音表示,解耦了:从文本生成语义标记(读),由语义标记再生成声音标记(说)两部分,用大量纯音频数据训练“说模块”,减少“读模块”对并行数据(并行数据指:文本语音数据对)的需求。 为控制说话人,使用提示方法,只需要 3 秒音频即可合成在训练集中未见过的说话人的语音。 实验表明,SPEAR-TTS 仅使用 15 分钟的并行数据 ...
论文阅读_语音合成_VALLE-X
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: 用你自己的声音说外语:跨语言神经编解码器语言建模 name_en: Speak Foreign Languages with Your Own Voice:Cross-Lingual Neural Codec Language Modeling paper_addr: http://arxiv.org/abs/2303.03926 date_publish: 2023-03-07 1 读后感 对 VALL-E 的扩展,以源语言语音和目标语言文本为提示,预测目标语言语音的声学标记序列,可用于从语音到语音的翻译任务。它可以生成目标语言的高质量语音,同时保留看不见的说话者的声音、情感和声学环境。有效缓解了外国口音问题,可以通过语言 ID 来控制。 以从源文本和目标文本中导出的音素序列,以及从音频编解码器模型中导出的源声学标记作为提示,生成目标语音。 2 介绍 主要贡献 • 提出 VALL-E X 条件跨语言语言模型,以源语言语音和目标语言文本为提示,预测目标语言声学标记。 • 多语言上下文学习框架,能保持看不见的说话者的声音、情感和语音背景,仅依赖源语言中的一个句子提示 ...
论文阅读_语音合成_VALL-E
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: 神经网络编解码器语言模型实现零样本 TTS name_en: Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers date_publish: 2023-01-05 paper_addr: http://arxiv.org/abs/2301.02111 code: https://github.com/microsoft/unilm/tree/master/valle 1 读后感 语音合成模型,输入是待合成的文本,3 秒的录音,输出为与录音一致的合成后的语音内容。 2 与传统 TTS 的差异 之前的语音模型是:音素 ->梅尔倒谱 ->音频;VALL-E 是:音素 ->离散编码 ->音频。 3 主要贡献 • 我们提出了 VALL-E,有效使用上下文学习能力的 TTS 框架,音频编解码器代码作为中间表示,以取代传统的梅尔声谱图。 • 通过利用大量的半监督数据在说话者维度构建了一个通用的 TTS 系统。 • VALL-E 能够以相同的输入文本提供不同的输出,并 ...
论文阅读_音频生成_AudioLM
Created2023-04-25|2_Note0_Technic2_算法1_音频
name_ch: AudioLM:一种音频生成的语言建模方法 name_en: AudioLM:a Language Modeling Approach to Audio Generation date_publish: 2022-09-07 paper_addr: http://arxiv.org/abs/2209.03143 1 读后感 主要解决生成语音的两个问题:一致性和高质量。 2 摘要 这是一个利用长期一致性生成高质量音频的框架,它先将音频输入转成一系列离散的 token,然后将生成音频作为表示空间的语言建模。提出了一种混合的分词方案来平衡重建质量和长依赖的结构。 使用Mask 方法捕获长距离的关系,最终使用离散编码生成高品质的合成效果。它可以通过简短的提示,来生成自然连贯延续语音。利用大量无监督数据训练,在没有任何文字标注或注释的情况下,AudioLM 会生成句法和语义上合理的语音延续,同时还保持说话人身份和不可见的说话人的韵律。另外,还可以生成钢琴音乐。 3 介绍 在数据都是无监督的情况下,基于 Transformer 架构。具体使用的技术包括:对抗性神经音频压缩,自监督 ...
论文阅读_MAE
Created2023-04-18|2_Note0_Technic2_算法8_图形图像图像表示与检索
123456name_ch: 带遮蔽的自编码器是大规模的视觉学习者name_en: Masked Autoencoders Are Scalable Vision Learnersothers: MAE 论文逐段精读 https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.337.search-card.all.click&vd_source=eef058f284e51ad4598d556801a9fc84paper_addr: https://ieeexplore.ieee.org/document/9879206/journal: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)date_publish: 2022-06-01 1 读后感 图像领域的无监督学习,延续 ViT 使用 Transformer 结构 论文阅读_ViT,学习 BERT 遮蔽图片块,然后预测被遮蔽的块实现自我学习 autoencoder。 ...
医学论文_ICU_强化学习_SEPSIS
Created2023-04-15|2_Note0_Technic1_医学其它
读后感 一般跨领域论文,方法优点在于在 RL 应用于 ICU,缺点在于 RL 方法比较老,处理不了连续数据,所以试了很多离散方法,我觉得用深度学习可能就解决了,另外,奖励只使用了患者是否死亡,比较粗。 目标 其目的不是进行脓毒症诊断,而是利用分布式 RL 学习和评估治疗策略。 算法为每个状态 - 动作对的奖励分布建模,而不仅仅是期望值。 还设计了一种新的脓毒症模拟器 (见 2.4 节),该模拟器可以近似模拟患者在 ICU 接受治疗时的脓毒症过程。分成两部分数据,分别跑,然后对比其一致性。 数据 使用 MIMIC 数据,用 SEPSIS-3.0 标注 SEPSIS。使用 kNN 基于距离的方法进入数据插补(由于有些数据不测量可能是因为医学觉得不需要)。 方法 用聚类方式离散化数据,使用 Q-Learning 实现决策。 拆分训练和测试集,好像是用训练数据训练模型,然后用测试数据测试医生操作和模型决策。 定义行为:静脉输液量和血管升压药剂量表示。血管升压药包括血管加压素、多巴胺、肾上腺素、去甲肾上腺素和去氧肾上腺素,而静脉输液包括血液制品、晶体液、胶体液和团注液。 定义状态:对用53 个特 ...
论文阅读_模型鲁棒性的量化指标
Created2023-04-15|2_Note0_Technic2_算法11_优化模型优化
读后感 建立一个框架,用于计算和量化模型鲁棒性。使用者应根据情境,风险偏好,以及分布等角度选择不同的衡量方法。更抽象地讲,它是对不确定性的决策原则。选择不同鲁棒性评价方法会影响决策,尽量使用多个指标结合的方式。 介绍 根据经济学中的不确定型决策原则。在深度不确定性下,存在多种不确定因素共同影响决策的后果。在这样的系统中,系统性能通常使用鲁棒性指标来衡量。 具体方法介绍 Maximin 悲观原则:有若干种结果,选择每个系列中最坏结果中的最好结果 \[ Maximin = max(min_1, min_2, ..., min_n) \] ### Maximax 乐观原则:有若干种结果,选择每个系列中最好结果中的最好结果 \[ Maximax = max(max_1, max_2, ..., max_n) \] Hurwicz optimism-pessimism rule 折衷原则:按比例结合乐观和悲观原则 \[ HOR = αMaxmin + (1 − α)Maximax \] ### Laplace's principle of insufficient reason 不充分理由原则: ...
1…333435…83
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
829
Tags
252
Categories
168
Follow Me
Announcement
This is my Blog
Recent Post
对谈_250610_抑郁2_少年的困境2025-07-07
对谈_250610_抑郁3_边缘叛逃者2025-07-07
对谈_250616_抑郁4_不合适的目标2025-07-07
对谈_250618_抑郁5_反刍2025-07-07
对谈_250530_钻空子2025-07-07
Categories
  • 0_IMO76
    • 工作1
    • 说给一个人听75
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
        • 行动与进化12
      • 02_情绪心理16
Tags
旅游 情感分析 量化回测 自然语言处理/BERT 操作系统 Pytorch 认知提升 模型增强 概率分布 方法论 异常检测 深度学习 Android/theme 网络环境 #编程语言/前端 Android 数据存储/PGSQL 编程工具 讽刺 个人信息 嵌入表示 社交 Python/股票 笔记工具 编程语言/前端 LLM 数据管理 决策哲学 禅宗 知识图/图神经网络 目标管理 网络 艺术 模型优化 技巧 深度学习/工具 插件推荐 VPN 视频生成 心情
Archives
  • July 202520
  • June 202539
  • May 202530
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
Info
Article :
829
Total Count :
1147.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database