论文阅读_EMO_生成面部表情视频
12345678英文名称: EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions中文名称: EMO:表情画像活跃 - 在弱条件下使用音频到视频扩散模型生成富有表现力的画像视频链接: https://arxiv.org/abs/2402.17485代码: https://github.com/HumanAIGC/EMO(不是源码,只有介绍)作者: Linrui Tian, Qi Wang, Bang Zhang, and Liefeng Bo机构: 阿里巴巴集团智能计算研究所日期: 2024-02-27引用次数: 18
读后感
论文实现了使用扩散模型生成视频。输入是一张人像和音频文件,输出是音频对应的此人的说话视频。该功能已集成到通义千问中,输入“全民唱演/舞王”即可试用。除了真人动画,还能生成动画人物的视频。
相较于之前的方法,它不仅能控制嘴部动作,还能控制头部和表情的微妙变化。其架构也相对简单,它再 ...
论文阅读_VLOGGER_用图片声音生成视频
1234567英文名称: VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis中文名称: VLOGGER:多模态扩散用于具象化化身合成链接: http://arxiv.org/abs/2403.08764v1视频展示:https://enriccorona.github.io/vlogger/作者: Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck, Cristian Sminchisescu机构: 谷歌研究日期: 2024-03-13
读后感
这是 Google Research 3
月份的一篇论文,主题是条件化视频生成。文中提出了 VLOGGER
模型,一种从图像和音频生成可变长度视频的方法,支持头部运动、凝视、眨眼、嘴唇及手部运动。VLOGGER
基于生成扩散模型,不需要对每个人单独进行培训,也不依赖面部检测和裁剪,能够生成完整的图像(不仅仅是面部或嘴唇),并考虑了广泛的场景(例如可见的躯干 ...
论文阅读_VideoReTalking
12345678英文名称: VideoReTalking: Audio-based Lip Synchronization for Talking Head Video Editing In the Wild中文名称: 野外视频编辑中基于音频的唇部同步技术链接: http://arxiv.org/abs/2211.14758v1代码: https://github.com/OpenTalker/video-retalking作者: KUN CHENG, XIAODONG CUN, YONG ZHANG, MENGHAN XIA, FEI YIN, MINGRUI ZHU, XUAN WANG, JUE WANG, NANNAN WANG出处:SIGGRAPH Asia 2022 会议论文机构: 西安电子科技大学, 腾讯人工智能实验室, 清华大学日期: 2022-11-27
|200
读后感
论文题目中的 in the wild
指的是非实验室的场景,应用在更为广泛的现实领域。
这两年出了更好的模型,但都没有开源,只能试用或者看看展示视频。这个模型好在可以直接下载使用。
1234p ...
Obsidan插件开发
1 Obidian 开发
Obsidian 基于 Electron 框架开发,其前端主要使用了 HTML、CSS 和
JavaScript,而后端使用了 Node.js。Node.js 是基于 Chrome V8 引擎的
JavaScript 运行环境,使 JavaScript 能在服务器端运行。
在开发 Obsidian 插件时,将涉及 JavaScript 和 Node.js
的相关知识。如:使用 Node.js 提供的模块和 API
来进行文件操作、访问系统资源、处理网络请求等。
2 开发环境
我的开发环境为:VSCode + Node Docker+
Copilot。这样既不影响我的宿主机环境,开发也比较舒服,还可以利用辅助编码工具。
如果想开发 Obsidian 插件,就需要安装 Node.js 环境。Node.js 提供了
JavaScript 运行环境和许多内置模块;同时,安装 Node.js 也会安装
npm,用来管理插件项目的依赖项。
因为之前安装过 node 镜像,这次就直接使用了:
12$ docker run --name obdev --rm -v /expo ...
Obsidian插件开发
1 Obidian 开发
Obsidian 基于 Electron 框架开发,其前端主要使用了 HTML、CSS 和
JavaScript,而后端使用了 Node.js。Node.js 是基于 Chrome V8 引擎的
JavaScript 运行环境,使 JavaScript 能在服务器端运行。
在开发 Obsidian 插件时,将涉及 JavaScript 和 Node.js
的相关知识。如:使用 Node.js 提供的模块和 API
来进行文件操作、访问系统资源、处理网络请求等。
2 开发环境
我的开发环境为:VSCode + Node Docker+
Copilot。这样既不影响我的宿主机环境,开发也比较舒服,还可以利用辅助编码工具。
如果想开发 Obsidian 插件,就需要安装 Node.js 环境。Node.js 提供了
JavaScript 运行环境和许多内置模块;同时,安装 Node.js 也会安装
npm,用来管理插件项目的依赖项。
因为之前安装过 node 镜像,这次就直接使用了:
12$ docker run --name obdev --rm -v /expo ...
论文阅读_嵌入_中文嵌入资源
1234567中文名:C-Pack:推进一般中文嵌入的打包资源英文名:C-Pack: Packaged Resources To Advance General Chinese Embedding最新版本:v4:12 May 2024资源下载:https://github.com/FlagOpen/FlagEmbedding,5.7k Star作者: Shitao Xiao, Zheng Liu, Peitian Zhang, Niklas Muennighoff, Defu Lian, Jian-Yun Nie机构出处:北京人工智能研究院,抱抱脸,中国人民大学,中国科技大学,蒙特利尔大学,智源正文:7 页
读后感
这篇论文的核心是:通用的中文文本嵌入。
读完之后,会对中文嵌入的模型效果、模型架构、评测方法和训练数据有更直观的了解。文档风格简洁明了,行动导向。
文中介绍的 BGE 模型是 Obsidian 插件 Smart Connection
的默认嵌入模型。我使用过,效果不错,速度也很。
摘要
目标: 介绍了
C-Pack,这是一个显著推进通用中文嵌入领域的资源包。
方法: C-P ...
论文阅读_基本于文本嵌入的信息提取
1234567英文名:Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data中文名:基于嵌入的检索,LLM 从非结构化数据中提取有效的农业信息地址: https://arxiv.org/abs/2308.03107时间:2023-08-06 (v1)作者:Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li机构:谢菲尔德大学正文:4 页半
1 读后感
本文讨论了在将文本文件结构化过程中遇到的一类问题:如何规范化具有一定规律但又不完全符合定式的文档。这篇文章偏重应用,包含了大量具体的实验和设计过程,而不是纸上谈兵。文章内容巧妙结合了一些知识,同时保持了通用性。
作者对相对通用的技术进行了限制优化,并应用于一个小的领域。此前需要复杂设计和编码才能完成的任务,现在全部由
LLM 实现。具体方法包括编写一些行业相关的提示词和后处理步骤,然后调用 LLM
将结构化文本转换为结构 ...
论文阅读_优化RAG系统的检索
123456英文名称: The Power of Noise: Redefining Retrieval for RAG Systems中文名称: 噪声的力量:重新定义RAG系统的检索链接: https://arxiv.org/pdf/2401.14887.pdf作者: Florin Cuconasu, Giovanni Trappolini, Federico Siciliano, Simone Filice, Cesare Campagnano, Yoelle Maarek, Nicola Tonellotto, Fabrizio Silvestri机构: 罗马大学, 以色列海法技术创新研究所, 比萨大学日期: 1 May 2024(v4)
1 读后感
在 RAG
系统中,检索和生成是独立进行的,使用的模型也不相同,检索和生成中任意一个部分效果不好都会影响最终结果。在检索部分,不一定必须使用稠密模型,因此作者考虑了密集和稀疏的情况;在生成部分,实验使用的是本地部署的较轻量级模型如
llama2 等,这也部分影响了效果。
作者的角度很有趣:查询所给出的答案可能是准确的、无关的或相关但 ...
试用_Claude3
1 简介
好消息是,2024 年 3 月 4 日发布了 Claude3,据传比 GPT-4 更好,snooet
版本可以免费试用,坏消息是我们这儿不能用。
在官网注册时,需要选择国家并使用手机接收短信验证码。而在选项中没有中国这个选项。即使成功注册了账号并申请了
API
密钥,免费版本仍需要绑定信用卡才能使用。绑定信用卡也需要接收短信验证,网上说每个手机号只能注册一次,所以似乎也无法短信接收平台。(如果你找到了注册方法,请私信告诉我)
虽然无法通过 API
调用并将其添加到我们的工具中,但可以通过亚马逊云来免费体验一下。
2 Claude3
2.1 三个模型
Claude 3 共发布了三个模型:
Claude 3
Opus:最强大的模型,在高度复杂的任务上提供最先进的性能,并展示流畅性和类似人类的理解。
Claude 3
Sonnet:在智能和速度之间最平衡的模型,是企业工作负载和规模化 AI
部署的绝佳选择
Claude 3
Haiku:最快、最紧凑的模型,旨在实现近乎即时的响应能力和模仿人类交互的无缝
AI 体验
2.2 主要特点
这次升级的主要特点包含:
多语言功能:Cla ...
使用辅助编程的一些思考
1 引子
最近使用辅助编程比较频繁,也在思考:
它的出现对程序员来说是利大于弊还是弊大于利。
对非程序员来说,有了辅助编程是否就能达到程序员的水平?
目前,辅助编程还不能解决哪些问题呢?
1.1 使用场景
1.1.1 程序员角度
先从程序员的角度看看。
在熟悉的情境下,当我们面对熟悉的问题时,可能会需要编写大量逻辑代码。在这种情况下,机器可以帮助我们自动生成部分代码,从而加速开发过程。
对于不熟悉的架构和语法,机器辅助变成能够生成整体示例和语法正确的代码,从而避免因为语法错误而浪费时间;帮助理解和快速上手,并且更容易理解系统的工作原理。
在调试过程中,对于一些简单的问题,机器可以提供快速的反馈和解决方案,从而节省我们的时间;对于复杂问题可能无法直接解决,但可以提供一些建议思路,来减少查找和定位的过程。公平地说,与之前手动查找问题相比,提效很多。
辅助编程也有一些问题,如多端联调比较困难;如果一些小众工具没有提供文档,辅助编程工具也不知道如何使用。虽然理论上可以通过
Agent 和 RAG 来解决这些问题,但实际实现起来比较麻烦。
1.1.2 非程序员角度
再从非程序员的角度看看,一 ...