论文阅读_VLOGGER_图片+声音->生成视频
1234567英文名称: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis中文名称: VLOGGER:多模态扩散用于具象化化身合成链接: http://arxiv.org/abs/2403.08764v1视频展示:https://enriccorona.github.io/vlogger/作者: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu机构: 谷歌研究日期: 2024-03-13
读后感
这是 Google Research 3
月份的一篇论文,主题是条件化视频生成。文中提出了 VLOGGER
模型,一种从图像和音频生成可变长度视频的方法,支持头部运动、凝视、眨眼、嘴唇及手部运动。VLOGGER
基于生成扩散模型,不需要对每个人单独进行培训,也不依赖面部检测和裁剪,能够生成完整的图像(不仅仅是面部或嘴唇),并考虑了广泛的场景(例如可见的躯干 ...
论文阅读_视频编辑中基于音频的唇部同步技术
12345678英文名称: VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild中文名称: 野外视频编辑中基于音频的唇部同步技术链接: http://arxiv.org/abs/2211.14758v1代码: https://github.com/OpenTalker/video-retalking作者: KUN CHENG, XIAODONG CUN, YONG ZHANG, MENGHAN XIA, FEI YIN, MINGRUI ZHU, XUAN WANG, JUE WANG, NANNAN WANG出处:SIGGRAPH Asia 2022 会议论文机构: 西安电子科技大学, 腾讯人工智能实验室, 清华大学日期: 2022-11-27
|200
读后感
论文题目中的 in the wild
指的是非实验室的场景,应用在更为广泛的现实领域。
这两年出了更好的模型,但都没有开源,只能试用或者看看展示视频。这个模型好在可以直接下载使用。
1234p ...
论文阅读_嵌入_中文嵌入资源
1234567中文名:C-Pack:推进一般中文嵌入的打包资源英文名:C-Pack: Packaged Resources To Advance General Chinese Embedding最新版本:v4:12 May 2024资源下载:https://github.com/FlagOpen/FlagEmbedding,5.7k Star作者: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie机构出处:北京人工智能研究院,抱抱脸,中国人民大学,中国科技大学,蒙特利尔大学,智源正文:7 页
读后感
这篇论文的核心是:通用的中文文本嵌入。
读完之后,会对中文嵌入的模型效果、模型架构、评测方法和训练数据有更直观的了解。文档风格简洁明了,行动导向。
文中介绍的 BGE 模型是 Obsidian 插件 Smart Connection
的默认嵌入模型。我使用过,效果不错,速度也很。
摘要
目标: 介绍了
C-Pack,这是一个显著推进通用中文嵌入领域的资源包。
方法: C-P ...
论文阅读_基本于文本嵌入的信息提取
1234567英文名:Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data中文名:基于嵌入的检索,LLM 从非结构化数据中提取有效的农业信息地址: https://arxiv.org/abs/2308.03107时间:2023-08-06 (v1)作者:Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li机构:谢菲尔德大学正文:4 页半
1 读后感
本文讨论了在将文本文件结构化过程中遇到的一类问题:如何规范化具有一定规律但又不完全符合定式的文档。这篇文章偏重应用,包含了大量具体的实验和设计过程,而不是纸上谈兵。文章内容巧妙结合了一些知识,同时保持了通用性。
作者对相对通用的技术进行了限制优化,并应用于一个小的领域。此前需要复杂设计和编码才能完成的任务,现在全部由
LLM 实现。具体方法包括编写一些行业相关的提示词和后处理步骤,然后调用 LLM
将结构化文本转换为结构 ...
论文阅读_优化RAG系统的检索
123456英文名称: The Power of Noise: Redefining Retrieval for RAG Systems中文名称: 噪声的力量:重新定义RAG系统的检索链接: https://arxiv.org/pdf/2401.14887.pdf作者: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri机构: 罗马大学, 以色列海法技术创新研究所, 比萨大学日期: 1 May 2024(v4)
1 读后感
在 RAG
系统中,检索和生成是独立进行的,使用的模型也不相同,检索和生成中任意一个部分效果不好都会影响最终结果。在检索部分,不一定必须使用稠密模型,因此作者考虑了密集和稀疏的情况;在生成部分,实验使用的是本地部署的较轻量级模型如
llama2 等,这也部分影响了效果。
作者的角度很有趣:查询所给出的答案可能是准确的、无关的或相关但 ...
使用OpenAI嵌入进行向量搜索:只需Lucene
123456英文名称: Vector Search with OpenAI Embeddings: Lucene Is All You Need中文名称: 使用OpenAI嵌入进行向量搜索:只需Lucene链接: http://arxiv.org/abs/2308.14963v1作者: Jimmy Lin, Ronak Pradeep, Tommaso Teofili, Jasper Xian机构: 滑铁卢大学戴维·切里顿计算机科学学院, 罗马第三大学工程系日期: 2023-08-29
读后感
嵌入领域新旧技术的最大不同点在于存储的是稠密向量(深度学习)还是稀疏向量(统计),对于稠密和稀疏的搜索和索引技术完全不同,所以继深度学习模型成为热点后,向量数据库也成为热点。作者认为,针对
Lucene
框架做少量调整,使其支持稠密向量,并不失为一种简单经济的解决方案。
作者挑战了主流观点,通过实验证明,对于很多应用,使用 Lucene+HNSW
可以在不大改动 Lucene
的情况下,完美支持当前基于大模型的文本编码,无需附加的向量数据库。与当前主流方法相比,这种方法成本和复杂度更低。简单来说 ...
语言模型:文本表征&词嵌入技术调研
1 文本表征
文本表征是自然语言处理中的关键部分,尤其在当前大模型快速发展的背景下。由于大模型存在知识有限、处理文本长度有限、保密要求和大模型幻觉等问题,结合外部数据显得尤为重要。
为了便于存储和检索,除了保存纯文本外,还需要将文本转换为数组形式,以实现模糊查找和上下文语义理解。这使得在不同应用场景下如何进行编码成为一个重要课题。
我最近在优化本地知识存储,调研了一些文本表征方法,包括:文本表征发展过程、相关中文资源、检索增强生成的优化方法、词向量与早期文本数据库工具结合,以及在信息提取、社交网络和电子商务领域中词嵌入的优化方法。共八个部分,将在之后的
8 天内在公众号连载。本文作为开篇,先给出收获和总结。(下文中 Embedding
与嵌入同义)
关键字:embedding-based retrieval,RAG,Information Retrieval
2 问题与解答
在调研之前,我一直有以下一些疑问。在研读过程中,我得到了答案和启发。以下是我目前的个人理解,可能并不完全正确。
2.1 问题一
本地知识库是否必须使用深度学习表示?
目前,知识表示的主要方法包括:基于规则的方法、统 ...
论文阅读_嵌入_综述
12345678英文名:A Survey of Text Representation and Embedding Techniques in NLP中文名:NLP 中文本表示和嵌入技术的调查地址: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10098736文章正文:24 页作者:RAJVARDHAN PATIL, SORIO BOIT, VENKAT GUDIVADA, JAGADEESH NANDIGAM机构:Grand Valley State University,East Carolina University出处:IEEE Access出版日期:网络出版日期 2023-02-22
读后感
这是一篇针对文本表示的综述性论文。相比之下,这篇论文的深浅度刚刚好,逻辑完整,详略得当,新旧技术兼具。文中提供了例子、表格和公式,但都很简单。我觉得作者有意避免晦涩难懂,试图用简单的语言把问题讲清楚。
调查涵盖了 1970
年代及以后的文本表示历史,从规则方法到统计方法,再到深度学习方法。列出了它们的表示形式、解决的问题、限制 ...
django_验证用户身份
1 常用的用户验证方法
基本身份验证(Basic Authentication):
这是最简单的身份验证方式之一。客户端在请求头中包含用户名和密码的 Base64
编码
Token 身份验证: 使用 Token
身份验证,客户端在请求中提供一个令牌(token),服务器在收到请求后验证令牌的有效性。
OAuth 认证: OAuth
是一种流行的开放标准,用于授权第三方应用程序访问用户的数据。
JSON Web Token(JWT): JWT
是一种用于在网络应用之间安全传递声明的开放标准。JWT
由三部分组成:头部、载荷和签名。
SSL/TLS: 使用 SSL/TLS 加密协议来保护通信是保护 API
免受未经授权访问的重要手段之一,这也是常用的 Session/Cookie 方法。
2 选型
由于我的服务端基本已用 Django 写好,自带比较完善的用户管理,使用
Session/Cookie 方法,修改最小,理论上只需要在请求时设置 withCredentials
即可。
但由于我的前后端分离,且使用一个后端和多个前端的模式,因此产生了跨域请求问题。需要将
http 改为
ht ...
大模型词嵌入方法_Embedding
1 介绍
模型 Embedding
是一种将高维数据转换为低维向量的技术,通常用于自然语言处理和机器学习领域。比如在自然语言处理中,就是把一句或一段话转成一个多维向量。它能捕捉词汇或数据之间的语义关系。在词嵌入中,类似意义的词会被映射到相近的向量空间中。
Embedding
常常用于信息检索、文本分类、语义匹配等场景中。比如建立本地知识库时,一般会先将文本切分,再进行
Embedding,然后将其存储在向量数据库中,以便后续查找和使用。
2 方法
嵌入方法有很多种。比如,可以调用 OpenAI
提供的嵌入方法,这需要花钱;也可以使用 Ollama
方法调用本地嵌入模型,这需要在本地搭建 Ollama
服务;或者直接在程序中调用模型,无需依赖其它工具。
2.1 最简单的 Embedding 方法
在程序中直接使用模型生成嵌入
1234from sentence_transformers import SentenceTransformermodel = SentenceTransformer('uer/sbert-base-chinese-nli')sentences ...