Sora原理浅析
1 今日热点 DiT
1.1 热榜
前两天扫下 github 热榜前 5,都是 python
项目,基本都与大模型相关。
其中 DIT 是官方的 Pytorch 版 Diffusion Transformer
模型,这是两年前的一个项目,来自 facebookresearch,可能是因为这几天 Sora
大火,而 DIT 是 Sora 的核心技术,又被大家翻出来了。
可见大家都想看看 Sora 的原理。因为 OPENAI
并没有公开技术细节,有些具体方法我们只好脑补一下。
1.2 DiT 代码
DiT 代码不算多,共 1415 行 Python 代码
1git clone https://github.com/facebookresearch/DiT
模型结构在 models.py 文件中;diffusion 部分修改自 openai 的 diffusion
代码;其它代码还包含下载,训练模型等。
1.3 论文
1234567英文名称: Scalable Diffusion Models with Transformers中文名称: 具有Transformer架构的可扩展扩散模型链接 ...
公众号_日更小结
日更
好友最近对公众号非常热衷,经常在群里讨论。于是我也被怂恿,在 1.15
立下了日更一个月的 flag。
这个月我出去玩了十天,又赶上春节假期。不过在外出期间没有断更,发布的都是之前写好的文章。春节期间其实也准备了一些新的内容,但是考虑到观众的感受,觉得假期发技术文可能会打扰到大家放松的心情,而且数据也不太好看。所以将更新时间推迟到初五。
假期的最后一天,终于完成了 30+
的更新,也算是达到了目标。其中有两三篇文章得到了流量池的推荐,新增了一百多个关注者。当然不算成功,只是一次坚持和尝试。尽管这些文章都是技术文档,但我不能尝试了一些让自己脸红的标题,效果一般。同时,也在观察和学习他人的方法。有一些想法,顺便做个总结。
红海
公众号可能是众多写文的平台中变现最方便,观众最多的一个,自然也是一片红海。它的易得性和超强的竞争性刚好是一体两面。
各种水平的写手都在这里竞争,也不免去研究一些旁门左道,谁都一样,既然参与了都想赢,也算对自己付出的一个交代,最后很多人变成了很多为了做而做。
单从挣钱的角度看,还是用自己的长板挣钱更加容易,没啥必要来拼这个。从表达和分享的角度看,多一个平台分享一 ...
Sora技术报告
报告未包括模型和实施细节
技术报告原文:https://openai.com/research/video-generation-models-as-world-simulators
(现在看的人太多,已经刷不出来了 24-02-16 12:00)
1 功能
可生成长度一分钟的高质量视频
能够生成不同持续时间、宽高比和分辨率的视频和图像
以文本、图像、视频为提示,生成相应的视频内容
扩展视频的前后部分,进行视频编辑(如更换环境)
利用插值技术生成两个视频的过渡,或制作连续循环的视频
可制作具有动态相机运动效果的视频,随着相机的移动和旋转,人物和场景元素在三维空间中保持一致的移动。
模拟状态的转变,比如描绘一个人正在吃汉堡的场景,或者游戏世界的环境变化。
总的来说,Sora 已经将在 AI
绘画中能做的事情在视频制作中一一实现并进行扩展。
2 底层技术
将 diffusion transformers 的技术引入到视频领域
在高层次上,首先将视频压缩到一个低维的潜在空间,然后将这个表示分解成时空数据
patch,从而将视频转换成多个 patch(相当于 token)。通过在网格中 ...
大模型爆款应用fabric_构建优雅的提示
项目地址:https://github.com/danielmiessler/fabric
1 引言
目前 fabric 已经获得了 5.3K Star,其中上周获得了
4.2K,成为了上周热榜的第二名(第一名是免费手机看电视的 Android
工具),可以算是爆款应用了。
其原因可能是 fabric
打到大家的痛点:不是工具不够好,是用起来这工作流太不顺畅了,比如想用一个提示,连找带贴弄了半天,打断了当前思路……
之前的提示常常写死在程序里,如:
因为我多数时间是让大模型帮我解决具体问题,而不是聊天,好像也没听说谁每天都和它聊两小时的。所以,fabric
可能是我用过的最舒服的大模型封装工具。虽然技术含量并不是特别高,但是使用起来非常方便。别人都在考虑如何做得大而全,这位作者却想着如何解决最核心、最常见的问题,思考问题的角度比较独特。
它具有以下特点:
命令行操作,几乎没有学习成本,便于安装,使用、集成。
封装了最为常用的几个功能。
把复杂问题分解为多步处理。
配置文件和输出均使用 markdown 格式,易于阅读。
设计结构,便于管理多种提示。
2 功能
Fabric
的核心 ...
论文阅读_用模型模拟记忆过程
1234567英文名称: A generative model of memory construction and consolidation中文名称: 记忆构建和巩固的生成模型文章: https://www.nature.com/articles/s41562-023-01799-z代码: https://github.com/ellie-as/generative-memory作者: Eleanor Spens, Neil Burgess,机构: 伦敦大学认知神经科学研究所,伦敦大学皇后广场神经病学研究所日期: 2024-01-19
1 读后感
作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human
behaviour,收稿日期(Received)2023.5.30,发表日期是
2024.01.29。可能因为审稿时间太长,AI
领域这两年又发展太快,技术栈看起来并不是很新,如果现在做,可能有更好的方法。不过还好这是一般偏认识的论文,两位作者是认知科学和神经病学的科学家。
从技术角度看,主要使用了现代霍普菲尔德网络(MHN),变分自编码器
VAE,生成网络, ...
Science重磅_让大模型像婴儿一样学习语言
123456英文名称: Grounded language acquisition through the eyes and ears of a single child中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言文章: https://www.science.org/doi/10.1126/science.adi1374代码: https://github.com/wkvong/multimodalbaby作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University日期: 2024-02-02
1 读后感
这是一篇 2024 年 2 月发表在 Science
上的论文,是跨信息科学和认知科学的研究,来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。
看到图
-3,模型通过学习把具象扩展到抽象的时候,真的挺激动的,会有一种:在这伟大的时代,看着人们正在创造历史的感觉。这需要有多模态技术的加持,还需要一个老实孩子。
这篇文章的结构不太像医学 ...
跨品牌智能家居控制_从原理到实现_HomeAssistant
项目地址:https://github.com/home-assistant/core
Star:67 K
1 引言
最近去南方玩,住了一些智能酒店,自动开关电视、窗帘、灯、空调,还挺好用的,尤其喜欢关灯这功能。先不说它的理解能力(对同一命令的不同描述),单讲控制能力,还比较粗糙。比如:无法细化具体开关哪个灯;有的只能控制部分电器;有的只是把语音控制转换成遥控器按键,完成一个功能需要多个步骤……
更喜欢住智能酒店的原因主要是:这些酒店多是这两年建的,比较新、比较干净。
对智能家居产生了一点兴趣。现在的智能家居用品真的不贵,比如小米的产品,就想要不也把自己家改造一下。刚好在
github 的趋势榜 top15 中看到了智能家居工具 Home
Assistant,下面就一起来了解一下智能家居系统。
Home Assistant(后简称 HA)诞生于 2013 年,是一款基于 Python
的智能家居开源系统,它的主要功能是将不同品牌的智能家居设备连接起来互联互通,并将本地控制和隐私放在首位。
2 背景知识
2.1 使用方法
|500
一般的操作流程是:用户通过语音与智能助理进行交互 ...
头悬梁锥刺股?没必要:复盘如何用工具提升效率
流量池
从 2017 年 10
月,我开始写公众号,一直以来都是零零散散地写,读者也只是随随便便地看。而今年在连续日更了
10 天后,我获得了今年的第一次流量池推荐。
尽管和别人动辄十万百万的阅读量没法比。但是,考虑到我的文章大量涉及代码、命令和公式,有时候我自己都觉得很枯燥,这样的小众领域这个量已经可以了。
思考能进池的原因,保证质量的日更可能是最重要的。除了好友的打气鼓励和最近有较多时间以外,新工具的应用也是保证日更的关键。通过使用这些新工具,不仅能够节省时间,减少频繁切换工作流的困扰,使自己更加轻松。
优化工作流
以论文解读的文章为例,我的初始目标是自我积累和让生涩的文章变得易于理解,希望读者至少能够理解原理并知道如何应用。
一般来说,消化一篇论文的过程如下:收集相关信息、阅读、翻译、划重点,并将其转化为中文记在笔记中,最后进行整理和重构。需要在
Google 学术、arxiv、zotero、gpt、obsidian
等各种工具之间来回切换。整个过程非常耗费精力,很难在保证质量的前提下每天都能更新。这样坚持下去确实是一件非常痛苦的事情,甚至会怀疑这样做是否值得:不仅花费时间,还 ...
论文阅读_语音识别_Wisper
123456789英文名称: Robust Speech Recognition via Large-Scale Weak Supervision中文名称: 通过大规模弱监督实现鲁棒语音识别链接: https://proceedings.mlr.press/v202/radford23a.html代码: https://github.com/openai/whisper作者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever机构: OpenAI日期: 2022-12-06引用次数: 1032
1 读后感
语音识别不仅用于语音输入、语音聊天,生成字幕,还在语音合成,视频分析等等领域作为工具使用,一方面需要识别不同语音,不同发音人的音频特征,还需要生成合理通顺的文本(选择多音字,标点)等等。
Whisper 是 OPENAI 提供的语音转文字的引擎,它是一个开源工具,在自己的
GPU 机器上也能搭建。Wisper
是一个多语音识别引擎,简单用过,感觉对中文识别还是很好 ...
论文阅读_语音合成_VITS
123456英文名称: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech中文名称: 基于条件变分自编码器和对抗学习的端到端文本到语音链接: http://arxiv.org/abs/2106.06103v1代码: https://github.com/jaywalnut310/vits作者: Jaehyeon Kim, Jungil Kong, Juhee Son日期: 2021-06-11
1 读后感
简单地说,在训练过程中将语音数据和相应的文本输入模型,让模型学习这两者之间的关系。整个逻辑结构是一个大的变分自编码器,具体细节请参考方法的
VAE 部分。
如图所示,在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text
Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear
Sepctrogram)是从用于训练的音频中提取的 wav
文件的音频特征。这些特征通过后 ...