Sora技术报告
报告未包括模型和实施细节
技术报告原文:https://openai.com/research/video-generation-models-as-world-simulators
(现在看的人太多,已经刷不出来了 24-02-16 12:00)
1 功能
可生成长度一分钟的高质量视频
能够生成不同持续时间、宽高比和分辨率的视频和图像
以文本、图像、视频为提示,生成相应的视频内容
扩展视频的前后部分,进行视频编辑(如更换环境)
利用插值技术生成两个视频的过渡,或制作连续循环的视频
可制作具有动态相机运动效果的视频,随着相机的移动和旋转,人物和场景元素在三维空间中保持一致的移动。
模拟状态的转变,比如描绘一个人正在吃汉堡的场景,或者游戏世界的环境变化。
总的来说,Sora 已经将在 AI
绘画中能做的事情在视频制作中一一实现并进行扩展。
2 底层技术
将 diffusion transformers 的技术引入到视频领域
在高层次上,首先将视频压缩到一个低维的潜在空间,然后将这个表示分解成时空数据
patch,从而将视频转换成多个 patch(相当于 token)。通过在网格中 ...
大模型爆款应用fabric_构建优雅的提示
项目地址:https://github.com/danielmiessler/fabric
1 引言
目前 fabric 已经获得了 5.3K Star,其中上周获得了
4.2K,成为了上周热榜的第二名(第一名是免费手机看电视的 Android
工具),可以算是爆款应用了。
其原因可能是 fabric
打到大家的痛点:不是工具不够好,是用起来这工作流太不顺畅了,比如想用一个提示,连找带贴弄了半天,打断了当前思路……
之前的提示常常写死在程序里,如:
因为我多数时间是让大模型帮我解决具体问题,而不是聊天,好像也没听说谁每天都和它聊两小时的。所以,fabric
可能是我用过的最舒服的大模型封装工具。虽然技术含量并不是特别高,但是使用起来非常方便。别人都在考虑如何做得大而全,这位作者却想着如何解决最核心、最常见的问题,思考问题的角度比较独特。
它具有以下特点:
命令行操作,几乎没有学习成本,便于安装,使用、集成。
封装了最为常用的几个功能。
把复杂问题分解为多步处理。
配置文件和输出均使用 markdown 格式,易于阅读。
设计结构,便于管理多种提示。
2 功能
Fabric
的核心 ...
论文阅读_用模型模拟记忆过程
1234567英文名称: A generative model of memory construction and consolidation中文名称: 记忆构建和巩固的生成模型文章: https://www.nature.com/articles/s41562-023-01799-z代码: https://github.com/ellie-as/generative-memory作者: Eleanor Spens, Neil Burgess,机构: 伦敦大学认知神经科学研究所,伦敦大学皇后广场神经病学研究所日期: 2024-01-19
1 读后感
作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human
behaviour,收稿日期(Received)2023.5.30,发表日期是
2024.01.29。可能因为审稿时间太长,AI
领域这两年又发展太快,技术栈看起来并不是很新,如果现在做,可能有更好的方法。不过还好这是一般偏认识的论文,两位作者是认知科学和神经病学的科学家。
从技术角度看,主要使用了现代霍普菲尔德网络(MHN),变分自编码器
VAE,生成网络, ...
Science重磅_让大模型像婴儿一样学习语言
123456英文名称: Grounded language acquisition through the eyes and ears of a single child中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言文章: https://www.science.org/doi/10.1126/science.adi1374代码: https://github.com/wkvong/multimodalbaby作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University日期: 2024-02-02
1 读后感
这是一篇 2024 年 2 月发表在 Science
上的论文,是跨信息科学和认知科学的研究,来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。
看到图
-3,模型通过学习把具象扩展到抽象的时候,真的挺激动的,会有一种:在这伟大的时代,看着人们正在创造历史的感觉。这需要有多模态技术的加持,还需要一个老实孩子。
这篇文章的结构不太像医学 ...
跨品牌智能家居控制_从原理到实现_HomeAssistant
项目地址:https://github.com/home-assistant/core
Star:67 K
1 引言
最近去南方玩,住了一些智能酒店,自动开关电视、窗帘、灯、空调,还挺好用的,尤其喜欢关灯这功能。先不说它的理解能力(对同一命令的不同描述),单讲控制能力,还比较粗糙。比如:无法细化具体开关哪个灯;有的只能控制部分电器;有的只是把语音控制转换成遥控器按键,完成一个功能需要多个步骤……
更喜欢住智能酒店的原因主要是:这些酒店多是这两年建的,比较新、比较干净。
对智能家居产生了一点兴趣。现在的智能家居用品真的不贵,比如小米的产品,就想要不也把自己家改造一下。刚好在
github 的趋势榜 top15 中看到了智能家居工具 Home
Assistant,下面就一起来了解一下智能家居系统。
Home Assistant(后简称 HA)诞生于 2013 年,是一款基于 Python
的智能家居开源系统,它的主要功能是将不同品牌的智能家居设备连接起来互联互通,并将本地控制和隐私放在首位。
2 背景知识
2.1 使用方法
|500
一般的操作流程是:用户通过语音与智能助理进行交互 ...
头悬梁锥刺股?没必要:复盘如何用工具提升效率
流量池
从 2017 年 10
月,我开始写公众号,一直以来都是零零散散地写,读者也只是随随便便地看。而今年在连续日更了
10 天后,我获得了今年的第一次流量池推荐。
尽管和别人动辄十万百万的阅读量没法比。但是,考虑到我的文章大量涉及代码、命令和公式,有时候我自己都觉得很枯燥,这样的小众领域这个量已经可以了。
思考能进池的原因,保证质量的日更可能是最重要的。除了好友的打气鼓励和最近有较多时间以外,新工具的应用也是保证日更的关键。通过使用这些新工具,不仅能够节省时间,减少频繁切换工作流的困扰,使自己更加轻松。
优化工作流
以论文解读的文章为例,我的初始目标是自我积累和让生涩的文章变得易于理解,希望读者至少能够理解原理并知道如何应用。
一般来说,消化一篇论文的过程如下:收集相关信息、阅读、翻译、划重点,并将其转化为中文记在笔记中,最后进行整理和重构。需要在
Google 学术、arxiv、zotero、gpt、obsidian
等各种工具之间来回切换。整个过程非常耗费精力,很难在保证质量的前提下每天都能更新。这样坚持下去确实是一件非常痛苦的事情,甚至会怀疑这样做是否值得:不仅花费时间,还 ...
论文阅读_语音识别_Wisper
123456789英文名称: Robust Speech Recognition via Large-Scale Weak Supervision中文名称: 通过大规模弱监督实现鲁棒语音识别链接: https://proceedings.mlr.press/v202/radford23a.html代码: https://github.com/openai/whisper作者: Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever机构: OpenAI日期: 2022-12-06引用次数: 1032
1 读后感
语音识别不仅用于语音输入、语音聊天,生成字幕,还在语音合成,视频分析等等领域作为工具使用,一方面需要识别不同语音,不同发音人的音频特征,还需要生成合理通顺的文本(选择多音字,标点)等等。
Whisper 是 OPENAI 提供的语音转文字的引擎,它是一个开源工具,在自己的
GPU 机器上也能搭建。Wisper
是一个多语音识别引擎,简单用过,感觉对中文识别还是很好 ...
论文阅读_语音合成_VITS
123456英文名称: Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech中文名称: 基于条件变分自编码器和对抗学习的端到端文本到语音链接: http://arxiv.org/abs/2106.06103v1代码: https://github.com/jaywalnut310/vits作者: Jaehyeon Kim, Jungil Kong, Juhee Son日期: 2021-06-11
1 读后感
简单地说,在训练过程中将语音数据和相应的文本输入模型,让模型学习这两者之间的关系。整个逻辑结构是一个大的变分自编码器,具体细节请参考方法的
VAE 部分。
如图所示,在训练阶段,音素(Phonemes)可以被简单理解为文字对应的拼音或音标。它们经过文本编码(Text
Encode)和映射(Projection)后,生成了文本的表示形式。左侧的线性谱(Linear
Sepctrogram)是从用于训练的音频中提取的 wav
文件的音频特征。这些特征通过后 ...
语音方向精典论文品读_HuBERT
12345678英文名称: HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units中文名称: HuBERT:通过隐藏单元的屏蔽预测进行自监督语音表示学习链接: http://arxiv.org/abs/2106.07447v1代码: https:// github.com/pytorch/fairseq/tree/master/examples/hubert作者: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed机构: Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed日期: 2021-06-14引用次数: 1518
| ...
论文阅读_语音转换_SoftVC
12345678英文名称: A COMPARISON OF DISCRETE AND SOFT SPEECH UNITS FOR IMPROVED VOICE CONVERSION中文名称: 离散和软语音单元的比较,以改善语音转换链接: http://dx.doi.org/10.1109/icassp43922.2022.9746484代码: https://github.com/bshall/hubert作者: Benjamin van Niekerk, Marc-Andr´e Carbonneau, Julian Za¨ıdi, Matthew Baas, Hugo Seut´e, Herman Kamper机构: 育碧拉福奇(Ubisoft La Forge),蒙特利尔,加拿大,E&E工程,斯泰伦博斯大学,南非日期: 2021-11-03
1 读后感
语音转换的目标是在不改变内容的前提下,将任意说话人的声音转换为目标说话人的声音,论文的目标是通过自监督方法来实现这一功能。
在这个任务中,无监督学习通常会比有监督学习产生更好的效果。以前的无监督学习方法通常是提取音频特征,对 ...