Yan 的杂物志_个人主页分享

Created2024-06-28|2_Note0_Technic2_算法16_视频生成

12345678英文名称: EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions中文名称: EMO：表情画像活跃 - 在弱条件下使用音频到视频扩散模型生成富有表现力的画像视频链接: https://arxiv.org/abs/2402.17485代码: https://github.com/HumanAIGC/EMO（不是源码，只有介绍）作者: Linrui Tian, Qi Wang, Bang Zhang, and Liefeng Bo机构: 阿里巴巴集团智能计算研究所日期: 2024-02-27引用次数: 18 读后感论文实现了使用扩散模型生成视频。输入是一张人像和音频文件，输出是音频对应的此人的说话视频。该功能已集成到通义千问中，输入“全民唱演/舞王”即可试用。除了真人动画，还能生成动画人物的视频。相较于之前的方法，它不仅能控制嘴部动作，还能控制头部和表情的微妙变化。其架构也相对简单，它再 ...

论文阅读_VLOGGER_图片+声音->生成视频

Created2024-06-28|2_Note0_Technic2_算法16_视频生成

1234567英文名称: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis中文名称: VLOGGER：多模态扩散用于具象化化身合成链接: http://arxiv.org/abs/2403.08764v1视频展示：https://enriccorona.github.io/vlogger/作者: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu机构: 谷歌研究日期: 2024-03-13 读后感这是 Google Research 3 月份的一篇论文，主题是条件化视频生成。文中提出了 VLOGGER 模型，一种从图像和音频生成可变长度视频的方法，支持头部运动、凝视、眨眼、嘴唇及手部运动。VLOGGER 基于生成扩散模型，不需要对每个人单独进行培训，也不依赖面部检测和裁剪，能够生成完整的图像（不仅仅是面部或嘴唇），并考虑了广泛的场景（例如可见的躯干 ...

论文阅读_视频编辑中基于音频的唇部同步技术

Created2024-06-28|2_Note0_Technic2_算法16_视频生成

12345678英文名称: VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild中文名称: 野外视频编辑中基于音频的唇部同步技术链接: http://arxiv.org/abs/2211.14758v1代码: https://github.com/OpenTalker/video-retalking作者: KUN CHENG, XIAODONG CUN, YONG ZHANG, MENGHAN XIA, FEI YIN, MINGRUI ZHU, XUAN WANG, JUE WANG, NANNAN WANG出处：SIGGRAPH Asia 2022 会议论文机构: 西安电子科技大学, 腾讯人工智能实验室, 清华大学日期: 2022-11-27 |200 读后感论文题目中的 in the wild 指的是非实验室的场景，应用在更为广泛的现实领域。这两年出了更好的模型，但都没有开源，只能试用或者看看展示视频。这个模型好在可以直接下载使用。 1234p ...

论文阅读_嵌入_中文嵌入资源

Created2024-06-28|2_Note0_Technic2_算法17_知识表示

1234567中文名：C-Pack：推进一般中文嵌入的打包资源英文名：C-Pack: Packaged Resources To Advance General Chinese Embedding最新版本：v4：12 May 2024资源下载：https://github.com/FlagOpen/FlagEmbedding，5.7k Star作者: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie机构出处：北京人工智能研究院，抱抱脸，中国人民大学，中国科技大学，蒙特利尔大学，智源正文：7 页读后感这篇论文的核心是：通用的中文文本嵌入。读完之后，会对中文嵌入的模型效果、模型架构、评测方法和训练数据有更直观的了解。文档风格简洁明了，行动导向。文中介绍的 BGE 模型是 Obsidian 插件 Smart Connection 的默认嵌入模型。我使用过，效果不错，速度也很。摘要目标: 介绍了 C-Pack，这是一个显著推进通用中文嵌入领域的资源包。方法: C-P ...

论文阅读_基本于文本嵌入的信息提取

Created2024-06-28|2_Note0_Technic2_算法17_知识表示

1234567英文名：Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data中文名：基于嵌入的检索，LLM 从非结构化数据中提取有效的农业信息地址: https://arxiv.org/abs/2308.03107时间：2023-08-06 (v1)作者：Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li机构：谢菲尔德大学正文：4 页半 1 读后感本文讨论了在将文本文件结构化过程中遇到的一类问题：如何规范化具有一定规律但又不完全符合定式的文档。这篇文章偏重应用，包含了大量具体的实验和设计过程，而不是纸上谈兵。文章内容巧妙结合了一些知识，同时保持了通用性。作者对相对通用的技术进行了限制优化，并应用于一个小的领域。此前需要复杂设计和编码才能完成的任务，现在全部由 LLM 实现。具体方法包括编写一些行业相关的提示词和后处理步骤，然后调用 LLM 将结构化文本转换为结构 ...

论文阅读_优化RAG系统的检索

Created2024-06-27|2_Note0_Technic2_算法17_知识表示

123456英文名称: The Power of Noise: Redefining Retrieval for RAG Systems中文名称: 噪声的力量：重新定义RAG系统的检索链接: https://arxiv.org/pdf/2401.14887.pdf作者: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri机构: 罗马大学, 以色列海法技术创新研究所, 比萨大学日期: 1 May 2024（v4） 1 读后感在 RAG 系统中，检索和生成是独立进行的，使用的模型也不相同，检索和生成中任意一个部分效果不好都会影响最终结果。在检索部分，不一定必须使用稠密模型，因此作者考虑了密集和稀疏的情况；在生成部分，实验使用的是本地部署的较轻量级模型如 llama2 等，这也部分影响了效果。作者的角度很有趣：查询所给出的答案可能是准确的、无关的或相关但 ...

使用OpenAI嵌入进行向量搜索：只需Lucene

Created2024-06-26|2_Note0_Technic2_算法17_知识表示

123456英文名称: Vector Search with OpenAI Embeddings: Lucene Is All You Need中文名称: 使用OpenAI嵌入进行向量搜索：只需Lucene链接: http://arxiv.org/abs/2308.14963v1作者: Jimmy Lin, Ronak Pradeep, Tommaso Teofili, Jasper Xian机构: 滑铁卢大学戴维·切里顿计算机科学学院, 罗马第三大学工程系日期: 2023-08-29 读后感嵌入领域新旧技术的最大不同点在于存储的是稠密向量（深度学习）还是稀疏向量（统计），对于稠密和稀疏的搜索和索引技术完全不同，所以继深度学习模型成为热点后，向量数据库也成为热点。作者认为，针对 Lucene 框架做少量调整，使其支持稠密向量，并不失为一种简单经济的解决方案。作者挑战了主流观点，通过实验证明，对于很多应用，使用 Lucene+HNSW 可以在不大改动 Lucene 的情况下，完美支持当前基于大模型的文本编码，无需附加的向量数据库。与当前主流方法相比，这种方法成本和复杂度更低。简单来说 ...

语言模型：文本表征&词嵌入技术调研

Created2024-06-23|2_Note0_Technic2_算法17_知识表示

1 文本表征文本表征是自然语言处理中的关键部分，尤其在当前大模型快速发展的背景下。由于大模型存在知识有限、处理文本长度有限、保密要求和大模型幻觉等问题，结合外部数据显得尤为重要。为了便于存储和检索，除了保存纯文本外，还需要将文本转换为数组形式，以实现模糊查找和上下文语义理解。这使得在不同应用场景下如何进行编码成为一个重要课题。我最近在优化本地知识存储，调研了一些文本表征方法，包括：文本表征发展过程、相关中文资源、检索增强生成的优化方法、词向量与早期文本数据库工具结合，以及在信息提取、社交网络和电子商务领域中词嵌入的优化方法。共八个部分，将在之后的 8 天内在公众号连载。本文作为开篇，先给出收获和总结。(下文中 Embedding 与嵌入同义) 关键字：embedding-based retrieval，RAG，Information Retrieval 2 问题与解答在调研之前，我一直有以下一些疑问。在研读过程中，我得到了答案和启发。以下是我目前的个人理解，可能并不完全正确。 2.1 问题一本地知识库是否必须使用深度学习表示？目前，知识表示的主要方法包括：基于规则的方法、统 ...

文本嵌入表示综述

Created2024-06-21|2_Note0_Technic2_算法17_知识表示

12345678英文名：A Survey of Text Representation and Embedding Techniques in NLP中文名：NLP 中文本表示和嵌入技术的调查地址: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10098736文章正文：24 页作者：RAJVARDHAN PATIL, SORIO BOIT, VENKAT GUDIVADA, JAGADEESH NANDIGAM机构：Grand Valley State University，East Carolina University出处：IEEE Access出版日期：网络出版日期 2023-02-22 读后感这是一篇针对文本表示的综述性论文。相比之下，这篇论文的深浅度刚刚好，逻辑完整，详略得当，新旧技术兼具。文中提供了例子、表格和公式，但都很简单。我觉得作者有意避免晦涩难懂，试图用简单的语言把问题讲清楚。调查涵盖了 1970 年代及以后的文本表示历史，从规则方法到统计方法，再到深度学习方法。列出了它们的表示形式、解决的问题、限制 ...

模型嵌入方法总结

Created2024-06-10|2_Note0_Technic2_算法6_自然语言Embedding

1 介绍模型 Embedding 是一种将高维数据转换为低维向量的技术，通常用于自然语言处理和机器学习领域。比如在自然语言处理中，就是把一句或一段话转成一个多维向量。它能捕捉词汇或数据之间的语义关系。在词嵌入中，类似意义的词会被映射到相近的向量空间中。 Embedding 常常用于信息检索、文本分类、语义匹配等场景中。比如建立本地知识库时，一般会先将文本切分，再进行 Embedding，然后将其存储在向量数据库中，以便后续查找和使用。 2 方法嵌入方法有很多种。比如，可以调用 OpenAI 提供的嵌入方法，这需要花钱；也可以使用 Ollama 方法调用本地嵌入模型，这需要在本地搭建 Ollama 服务；或者直接在程序中调用模型，无需依赖其它工具。 2.1 最简单的 Embedding 方法在程序中直接使用模型生成嵌入 1234from sentence_transformers import SentenceTransformermodel = SentenceTransformer('uer/sbert-base-chinese-nli')sentences ...