Yan 的杂物志_个人主页分享

Created2024-02-29|2_Note0_Technic0_工具代码生成

12345678英文名称: Code Llama: Open Foundation Models for Code中文名称: Code Llama：开放基础代码模型链接: https://arxiv.org/abs/2308.12950代码: https://github.com/facebookresearch/codellama作者: Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo ...

推荐一个 Obsidian 的 ChatGPT 插件

Created2024-02-23|2_Note0_Technic0_工具笔记工具Obsidian插件

源码地址：https://github.com/nhaouari/obsidian-textgenerator-plugin 1 说明 Text Generator 是目前我使用过的最好的 Obsidian 中的 ChatGPT 功能插件。它旨在智能生成内容，以便轻松记笔记。它不仅可以在 Obsidian 中直接使用 ChatGPT，还提供了优秀的提示模板管理功能。 Text Generator 是一个开源的 AI 辅助工具，在 GitHub 上有 1.2K 星，并且已在第三方工具管理中被安装超过 20 万次。目前它位于前 50 名的插件之内。对于像 Obsidian 这样相对小众的工具来说，这个插件的成绩已经非常出色了。之前我介绍过另一个开源工具 fabric开源项目_大模型应用_fabric，它能够将复杂问题拆解为多个步骤，可以在命令行中调用，并使用 markdown 进行提示词管理。对我来说，fabric 最吸引我的地方在于方便的命令行调用和清晰的 markdown 管理，而拆解问题的功能我并没有经常使用。而 Text Generator 更进一步，在 obsidian 中可 ...

Sora技术原理浅析

Created2024-02-22|2_Note0_Technic2_算法8_图形图像Sora

1 今日热点 DiT 1.1 热榜前两天扫下 github 热榜前 5，都是 python 项目，基本都与大模型相关。其中 DIT 是官方的 Pytorch 版 Diffusion Transformer 模型，这是两年前的一个项目，来自 facebookresearch，可能是因为这几天 Sora 大火，而 DIT 是 Sora 的核心技术，又被大家翻出来了。可见大家都想看看 Sora 的原理。因为 OPENAI 并没有公开技术细节，有些具体方法我们只好脑补一下。 1.2 DiT 代码 DiT 代码不算多，共 1415 行 Python 代码 1git clone https://github.com/facebookresearch/DiT 模型结构在 models.py 文件中；diffusion 部分修改自 openai 的 diffusion 代码；其它代码还包含下载，训练模型等。 1.3 论文 1234567英文名称: Scalable Diffusion Models with Transformers中文名称: 具有Transformer架构的可扩展扩散模型链接 ...

日更公众号的反思与心得

Created2024-02-17|2_Note0_Technic6_思考公众号

日更好友最近对公众号非常热衷，经常在群里讨论。于是我也被怂恿，在 1.15 立下了日更一个月的 flag。这个月我出去玩了十天，又赶上春节假期。不过在外出期间没有断更，发布的都是之前写好的文章。春节期间其实也准备了一些新的内容，但是考虑到观众的感受，觉得假期发技术文可能会打扰到大家放松的心情，而且数据也不太好看。所以将更新时间推迟到初五。假期的最后一天，终于完成了 30+ 的更新，也算是达到了目标。其中有两三篇文章得到了流量池的推荐，新增了一百多个关注者。当然不算成功，只是一次坚持和尝试。尽管这些文章都是技术文档，但我不能尝试了一些让自己脸红的标题，效果一般。同时，也在观察和学习他人的方法。有一些想法，顺便做个总结。红海公众号可能是众多写文的平台中变现最方便，观众最多的一个，自然也是一片红海。它的易得性和超强的竞争性刚好是一体两面。各种水平的写手都在这里竞争，也不免去研究一些旁门左道，谁都一样，既然参与了都想赢，也算对自己付出的一个交代，最后很多人变成了很多为了做而做。单从挣钱的角度看，还是用自己的长板挣钱更加容易，没啥必要来拼这个。从表达和分享的角度看，多一个平台分享一 ...

Sora技术报告

Created2024-02-16|2_Note0_Technic2_算法8_图形图像Sora

报告未包括模型和实施细节技术报告原文：https://openai.com/research/video-generation-models-as-world-simulators （现在看的人太多，已经刷不出来了 24-02-16 12:00） 1 功能可生成长度一分钟的高质量视频能够生成不同持续时间、宽高比和分辨率的视频和图像以文本、图像、视频为提示，生成相应的视频内容扩展视频的前后部分，进行视频编辑（如更换环境）利用插值技术生成两个视频的过渡，或制作连续循环的视频可制作具有动态相机运动效果的视频，随着相机的移动和旋转，人物和场景元素在三维空间中保持一致的移动。模拟状态的转变，比如描绘一个人正在吃汉堡的场景，或者游戏世界的环境变化。总的来说，Sora 已经将在 AI 绘画中能做的事情在视频制作中一一实现并进行扩展。 2 底层技术将 diffusion transformers 的技术引入到视频领域在高层次上，首先将视频压缩到一个低维的潜在空间，然后将这个表示分解成时空数据 patch，从而将视频转换成多个 patch（相当于 token）。通过在网格中 ...

大模型爆款应用fabric_构建优雅的提示

Created2024-02-15|2_Note0_Technic11_应用

项目地址：https://github.com/danielmiessler/fabric 1 引言目前 fabric 已经获得了 5.3K Star，其中上周获得了 4.2K，成为了上周热榜的第二名（第一名是免费手机看电视的 Android 工具），可以算是爆款应用了。其原因可能是 fabric 打到大家的痛点：不是工具不够好，是用起来这工作流太不顺畅了，比如想用一个提示，连找带贴弄了半天，打断了当前思路…… 之前的提示常常写死在程序里，如：因为我多数时间是让大模型帮我解决具体问题，而不是聊天，好像也没听说谁每天都和它聊两小时的。所以，fabric 可能是我用过的最舒服的大模型封装工具。虽然技术含量并不是特别高，但是使用起来非常方便。别人都在考虑如何做得大而全，这位作者却想着如何解决最核心、最常见的问题，思考问题的角度比较独特。它具有以下特点：命令行操作，几乎没有学习成本，便于安装，使用、集成。封装了最为常用的几个功能。把复杂问题分解为多步处理。配置文件和输出均使用 markdown 格式，易于阅读。设计结构，便于管理多种提示。 2 功能 Fabric 的核心 ...

用深度学习模拟记忆过程

Created2024-02-15|2_Note3_Paper0_AI语言模型

1234567英文名称: A generative model of memory construction and consolidation中文名称: 记忆构建和巩固的生成模型文章: https://www.nature.com/articles/s41562-023-01799-z代码: https://github.com/ellie-as/generative-memory作者: Eleanor Spens, Neil Burgess，机构: 伦敦大学认知神经科学研究所，伦敦大学皇后广场神经病学研究所日期: 2024-01-19 1 读后感作者试图用深度学习模型来模拟人的记忆过程。论文发表在 Nature Human behaviour，收稿日期（Received）2023.5.30，发表日期是 2024.01.29。可能因为审稿时间太长，AI 领域这两年又发展太快，技术栈看起来并不是很新，如果现在做，可能有更好的方法。不过还好这是一般偏认识的论文，两位作者是认知科学和神经病学的科学家。从技术角度看，主要使用了现代霍普菲尔德网络（MHN），变分自编码器 VAE，生成网络， ...

Science重磅_让大模型像婴儿一样学习语言

Created2024-02-13|2_Note3_Paper0_AI语言模型

123456英文名称: Grounded language acquisition through the eyes and ears of a single child中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言文章: https://www.science.org/doi/10.1126/science.adi1374代码: https://github.com/wkvong/multimodalbaby作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University日期: 2024-02-02 1 读后感这是一篇 2024 年 2 月发表在 Science 上的论文，是跨信息科学和认知科学的研究，来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。看到图 -3，模型通过学习把具象扩展到抽象的时候，真的挺激动的，会有一种：在这伟大的时代，看着人们正在创造历史的感觉。这需要有多模态技术的加持，还需要一个老实孩子。这篇文章的结构不太像医学 ...

跨品牌智能家居控制_从原理到实现_HomeAssistant

Created2024-02-08|2_Note0_Technic11_应用智能家居

项目地址：https://github.com/home-assistant/core Star：67 K 1 引言最近去南方玩，住了一些智能酒店，自动开关电视、窗帘、灯、空调，还挺好用的，尤其喜欢关灯这功能。先不说它的理解能力（对同一命令的不同描述），单讲控制能力，还比较粗糙。比如：无法细化具体开关哪个灯；有的只能控制部分电器；有的只是把语音控制转换成遥控器按键，完成一个功能需要多个步骤…… 更喜欢住智能酒店的原因主要是：这些酒店多是这两年建的，比较新、比较干净。对智能家居产生了一点兴趣。现在的智能家居用品真的不贵，比如小米的产品，就想要不也把自己家改造一下。刚好在 github 的趋势榜 top15 中看到了智能家居工具 Home Assistant，下面就一起来了解一下智能家居系统。 Home Assistant（后简称 HA）诞生于 2013 年，是一款基于 Python 的智能家居开源系统，它的主要功能是将不同品牌的智能家居设备连接起来互联互通，并将本地控制和隐私放在首位。 2 背景知识 2.1 使用方法 |500 一般的操作流程是：用户通过语音与智能助理进行交互 ...

头悬梁锥刺股?没必要：复盘如何用工具提升效率

Created2024-01-26|2_Note0_Technic0_工具其它

流量池从 2017 年 10 月，我开始写公众号，一直以来都是零零散散地写，读者也只是随随便便地看。而今年在连续日更了 10 天后，我获得了今年的第一次流量池推荐。尽管和别人动辄十万百万的阅读量没法比。但是，考虑到我的文章大量涉及代码、命令和公式，有时候我自己都觉得很枯燥，这样的小众领域这个量已经可以了。思考能进池的原因，保证质量的日更可能是最重要的。除了好友的打气鼓励和最近有较多时间以外，新工具的应用也是保证日更的关键。通过使用这些新工具，不仅能够节省时间，减少频繁切换工作流的困扰，使自己更加轻松。优化工作流以论文解读的文章为例，我的初始目标是自我积累和让生涩的文章变得易于理解，希望读者至少能够理解原理并知道如何应用。一般来说，消化一篇论文的过程如下：收集相关信息、阅读、翻译、划重点，并将其转化为中文记在笔记中，最后进行整理和重构。需要在 Google 学术、arxiv、zotero、gpt、obsidian 等各种工具之间来回切换。整个过程非常耗费精力，很难在保证质量的前提下每天都能更新。这样坚持下去确实是一件非常痛苦的事情，甚至会怀疑这样做是否值得：不仅花费时间，还 ...