开源项目_代码生成项目介绍
1 CodeGeeX 系列
1.1 CodeGeeX
项目地址:https://github.com/THUDM/CodeGeeX 7.6k Star
主要由 Python 编写
深度学习框架是 Mindspore
代码约 2.5W 行
有 Dockerfile,可在本地搭建环境
模型大小为 150 亿参数
使用 850 B token 训练
相对早期的代码生成模型,开放全部代码
论文 论文阅读_代码生成模型_CodeGeeX
用法 编程助手_CodeGeeX
1.2 CodeGeeX2
项目地址:https://github.com/THUDM/CodeGeeX2 6.5k Stat
主要由 Python 编写
推理部分开源,通过 pytorch 调用
代码约 1900 行,主要为示例和评测
基于 ChatGLM2 架构,模型部分也没开源,只开源推理部分
模型 60 亿参数,6G 显存即可运行
使用 600 B 代码数据预训练
支持最大 8192 序列长度
1.3 其它资源
官网:https://codegeex.cn/
1.4 讨论
CodeGeeX 与 CodeGe ...
论文阅读_代码生成模型_CodeGeeX
123456789英文名称: CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X中文名称: CodeGeeX:一种用于代码生成的预训练模型,并在HumanEval-X上进行多语言评估链接: https://arxiv.org/abs/2303.17568代码: https://github.com/THUDM/CodeGeeX 7.6k Star https://github.com/THUDM/CodeGeeX2 6.5k Star作者: Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang机构: 清华大学, Zhipu.AI, 华为日期: 2023-03-30引用次数: 89
1 读后感
这是一篇比较早的论文,于 2 ...
论文阅读_代码生成模型_CodeLlama
12345678英文名称: Code Llama: Open Foundation Models for Code中文名称: Code Llama:开放基础代码模型链接: https://arxiv.org/abs/2308.12950代码: https://github.com/facebookresearch/codellama作者: Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo ...
推荐一个 Obsidian 的 ChatGPT 插件
源码地址:https://github.com/nhaouari/obsidian-textgenerator-plugin
1 说明
Text Generator 是目前我使用过的最好的 Obsidian 中的 ChatGPT
功能插件。它旨在智能生成内容,以便轻松记笔记。它不仅可以在 Obsidian
中直接使用 ChatGPT,还提供了优秀的提示模板管理功能。
Text Generator 是一个开源的 AI 辅助工具,在 GitHub 上有 1.2K
星,并且已在第三方工具管理中被安装超过 20 万次。目前它位于前 50
名的插件之内。对于像 Obsidian
这样相对小众的工具来说,这个插件的成绩已经非常出色了。
之前我介绍过另一个开源工具 fabric开源项目_大模型应用_fabric,它能够将复杂问题拆解为多个步骤,可以在命令行中调用,并使用
markdown 进行提示词管理。
对我来说,fabric 最吸引我的地方在于方便的命令行调用和清晰的 markdown
管理,而拆解问题的功能我并没有经常使用。而 Text Generator 更进一步,在
obsidian 中可 ...
Sora原理浅析
1 今日热点 DiT
1.1 热榜
前两天扫下 github 热榜前 5,都是 python
项目,基本都与大模型相关。
其中 DIT 是官方的 Pytorch 版 Diffusion Transformer
模型,这是两年前的一个项目,来自 facebookresearch,可能是因为这几天 Sora
大火,而 DIT 是 Sora 的核心技术,又被大家翻出来了。
可见大家都想看看 Sora 的原理。因为 OPENAI
并没有公开技术细节,有些具体方法我们只好脑补一下。
1.2 DiT 代码
DiT 代码不算多,共 1415 行 Python 代码
1git clone https://github.com/facebookresearch/DiT
模型结构在 models.py 文件中;diffusion 部分修改自 openai 的 diffusion
代码;其它代码还包含下载,训练模型等。
1.3 论文
1234567英文名称: Scalable Diffusion Models with Transformers中文名称: 具有Transformer架构的可扩展扩散模型链接 ...
公众号_日更小结
日更
好友最近对公众号非常热衷,经常在群里讨论。于是我也被怂恿,在 1.15
立下了日更一个月的 flag。
这个月我出去玩了十天,又赶上春节假期。不过在外出期间没有断更,发布的都是之前写好的文章。春节期间其实也准备了一些新的内容,但是考虑到观众的感受,觉得假期发技术文可能会打扰到大家放松的心情,而且数据也不太好看。所以将更新时间推迟到初五。
假期的最后一天,终于完成了 30+
的更新,也算是达到了目标。其中有两三篇文章得到了流量池的推荐,新增了一百多个关注者。当然不算成功,只是一次坚持和尝试。尽管这些文章都是技术文档,但我不能尝试了一些让自己脸红的标题,效果一般。同时,也在观察和学习他人的方法。有一些想法,顺便做个总结。
红海
公众号可能是众多写文的平台中变现最方便,观众最多的一个,自然也是一片红海。它的易得性和超强的竞争性刚好是一体两面。
各种水平的写手都在这里竞争,也不免去研究一些旁门左道,谁都一样,既然参与了都想赢,也算对自己付出的一个交代,最后很多人变成了很多为了做而做。
单从挣钱的角度看,还是用自己的长板挣钱更加容易,没啥必要来拼这个。从表达和分享的角度看,多一个平台分享一 ...
Sora技术报告
报告未包括模型和实施细节
技术报告原文:https://openai.com/research/video-generation-models-as-world-simulators
(现在看的人太多,已经刷不出来了 24-02-16 12:00)
1 功能
可生成长度一分钟的高质量视频
能够生成不同持续时间、宽高比和分辨率的视频和图像
以文本、图像、视频为提示,生成相应的视频内容
扩展视频的前后部分,进行视频编辑(如更换环境)
利用插值技术生成两个视频的过渡,或制作连续循环的视频
可制作具有动态相机运动效果的视频,随着相机的移动和旋转,人物和场景元素在三维空间中保持一致的移动。
模拟状态的转变,比如描绘一个人正在吃汉堡的场景,或者游戏世界的环境变化。
总的来说,Sora 已经将在 AI
绘画中能做的事情在视频制作中一一实现并进行扩展。
2 底层技术
将 diffusion transformers 的技术引入到视频领域
在高层次上,首先将视频压缩到一个低维的潜在空间,然后将这个表示分解成时空数据
patch,从而将视频转换成多个 patch(相当于 token)。通过在网格中 ...
大模型爆款应用fabric_构建优雅的提示
项目地址:https://github.com/danielmiessler/fabric
1 引言
目前 fabric 已经获得了 5.3K Star,其中上周获得了
4.2K,成为了上周热榜的第二名(第一名是免费手机看电视的 Android
工具),可以算是爆款应用了。
其原因可能是 fabric
打到大家的痛点:不是工具不够好,是用起来这工作流太不顺畅了,比如想用一个提示,连找带贴弄了半天,打断了当前思路……
之前的提示常常写死在程序里,如:
因为我多数时间是让大模型帮我解决具体问题,而不是聊天,好像也没听说谁每天都和它聊两小时的。所以,fabric
可能是我用过的最舒服的大模型封装工具。虽然技术含量并不是特别高,但是使用起来非常方便。别人都在考虑如何做得大而全,这位作者却想着如何解决最核心、最常见的问题,思考问题的角度比较独特。
它具有以下特点:
命令行操作,几乎没有学习成本,便于安装,使用、集成。
封装了最为常用的几个功能。
把复杂问题分解为多步处理。
配置文件和输出均使用 markdown 格式,易于阅读。
设计结构,便于管理多种提示。
2 功能
Fabric
的核心 ...
论文阅读_用模型模拟记忆过程
1234567英文名称: A generative model of memory construction and consolidation中文名称: 记忆构建和巩固的生成模型文章: https://www.nature.com/articles/s41562-023-01799-z代码: https://github.com/ellie-as/generative-memory作者: Eleanor Spens, Neil Burgess,机构: 伦敦大学认知神经科学研究所,伦敦大学皇后广场神经病学研究所日期: 2024-01-19
1 读后感
作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human
behaviour,收稿日期(Received)2023.5.30,发表日期是
2024.01.29。可能因为审稿时间太长,AI
领域这两年又发展太快,技术栈看起来并不是很新,如果现在做,可能有更好的方法。不过还好这是一般偏认识的论文,两位作者是认知科学和神经病学的科学家。
从技术角度看,主要使用了现代霍普菲尔德网络(MHN),变分自编码器
VAE,生成网络, ...
Science重磅_让大模型像婴儿一样学习语言
123456英文名称: Grounded language acquisition through the eyes and ears of a single child中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言文章: https://www.science.org/doi/10.1126/science.adi1374代码: https://github.com/wkvong/multimodalbaby作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University日期: 2024-02-02
1 读后感
这是一篇 2024 年 2 月发表在 Science
上的论文,是跨信息科学和认知科学的研究,来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。
看到图
-3,模型通过学习把具象扩展到抽象的时候,真的挺激动的,会有一种:在这伟大的时代,看着人们正在创造历史的感觉。这需要有多模态技术的加持,还需要一个老实孩子。
这篇文章的结构不太像医学 ...