avatar
Articles
878
Tags
282
Categories
185

Yan 的杂物志_个人主页分享
Search
论文阅读_LLaMA
Created2023-03-25|2_Note0_Technic2_算法6_自然语言Llama
name_ch: LLaMA:开放高效的基础语言模型 name_en: LLaMA:Open and Efficient Foundation Language Models paper_addr: https://arxiv.org/abs/2302.13971 code: https://github.com/facebookresearch/llama date_publish: 2023-02-27 1 读后感 开源项目,以小取胜。使用更多 token 训练,更少的模型参数。其小模型可以运行在单 GPU 环境下,65B 大模型可与PaLM 模型效果竞争;主要技术包含:调整了模型结构,加速了训练和推理。 2 摘要 论文展示了仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。模型从 7B-65B 参数,使用 T 级别 token 训练。LLaMA-13B 模型效果超越了 GPT-3(175B) 模型。LLaMA-65B 模型可与当前最好模型竞争。 3 介绍 大模型在 Few Shot 上表现好,主要归功于大模型的参数量。本文至力于找到合适的数据量和参数量, ...
论文阅读_Chinchilla
Created2023-03-25|2_Note0_Technic2_算法6_自然语言其它LLM
name_ch: 训练计算优化的大型语言模型 name_en: Training Compute-Optimal Large Language Models paper_addr: http://arxiv.org/abs/2203.15556 date_publish: 2022-03-29 读后感 针对训练数据量,模型参数量,以及数据训练量,通过实验,得出一些结论:更长的训练时间,更多 token,能提升模型效果;大模型的参数量和性能之间存在幂律分布;训练时 token 越多,模型效果越好,作者认为模型的大小与训练 token 量应等比增加。 换言之:不应该太过纠结于拟合当前的知识和存储量,更重要的是扩展知识面,另外应该多“思考”。 摘要 现在大模型严重训练不足。通过大量实验发现对于模型的每加倍 size 训练令牌的数量也应该加倍。Chinchilla 使用更少的计算来进行微调和推理,极大地促进了下游应用。 介绍 可以看到,相对当时其它模型,Chinchilla 使用了更多的 token 和更少的模型参数。 文中主要讨论了,在运算量固定的情况下,如何选择参数和 token 量的配 ...
flask多并发
Created2023-03-25|2_Note0_Technic3_编程Python工具
多线程 flask 默认使用多进程处理请求,因此,是支持并发的。比如两个调用 a.html 和 b.html, 请求 a.html 未运行完成,在浏览访问 b.html 不会阻塞。 开两个不同浏览器,分别请求请求运行时间较长的 a.html 也不阻塞。只要不用一个浏览去调,它都是不阻塞的;如果开一个浏览器在不同 tab 页请求同一阻塞页面,则会阻塞,这是浏览器引起的。 WSGI 协议 WSGI 是 Web Server Gateway Interface 的缩写,它是 Python 应用程序或者框架(如 Flask)和 web 服务器之间的一种接口。flask 默认使用 werkzeug 库实现 WSGI 协议。 只要实现了 WSGI 协议的任何 web server 都可以作为 flask app 的服务器,比如 uWSGI,Gunicorn,mod_wsgi 都可以替换 Werkzeug 作为 web server。 flask 自带的多进程 在 app.run() 时加入参数:threaded=False, processes=5, debug=False 时,可使用 5 ...
8_Obsidian_从豆瓣收集信息
Created2023-03-25|2_Note0_Technic0_工具笔记工具Obsidian插件
功能 从豆瓣收集图书 _ 电影 _ 电视剧信息,插入 Obsidian 笔记。 原理 用 JS 抓取网站内容填入模板,插入笔记,通过插件之间的配合实现强大功能。 设置 安装 QuickAdd 插件 把 js 文件复制到 templates/script/目录下 把模板复制到 templates/目录下 在左下角设置界面调出 QuickAdd 的设置界面 |400 加 Micro 点 Manage Micros->起个名 ->Add Micro 加好 Macro 后点其对应的 Configure 设置 加 JS 脚本 在 User Scripts 中选刚才拷到 script 下的脚本,然后点其后的 Add 点 Template 按钮,加上一个模板后,设置其内容 在 Template Path 中设置刚才拷进的模板 勾选 File Name Format 在 File Name 中输入:{{VALUE:name}} 双击顶部的模板名,设置成自定义名称 点右上的叉退出,自动保存 连接显示名称和 Macro 进入最顶 ...
论文阅读_GLM
Created2023-03-24|2_Note0_Technic2_算法6_自然语言其它LLM
中文名称: GLM:使用自回归空白填充的通用语言模型预训练 英文名称: GLM:General Language Model Pretraining with Autoregressive Blank Infilling 论文地址: https://aclanthology.org/2022.acl-long.26 出处: Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers) 时间: 2022-01-01 读后感 通过在结构上的调整,结合了 GPT 和 BERT 类模型的优点,且模型规模和复杂度没有提升。将 NLU 任务转换成生成任务训练模型,使上下游任务训练方式保持一致。 摘要 没有一个预训练框架对自然语言理解 (NLU)、无条件生成和条件生成这三个主要类别的所有任务表现都好。文中提出了通用语言模型:General Language Model (GLM),它基于自回归空白填充来解决这一挑战。 在 NLU 任务上的性能 ...
论文阅读_ChatGLM
Created2023-03-23|2_Note0_Technic2_算法6_自然语言其它LLM
name_ch: Glm-130B:开放双语预训练模型 name_en: GLM-130B:AN OPEN BILINGUAL PRE-TRAINED paper_addr: https://arxiv.org/abs/2210.02414 code: https://github.com/THUDM/GLM-130B/ date_publish: 2023-01-01 1 读后感 2022 年 11 月,斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测 2,GLM-130B 是亚洲唯一入选的大模型。GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。 ChatGLM 最大的优点是开源,并针对中文进行了优化,尤其是可以在自己的机器上搭建其简版的 int4 服务,实测回答一般性问题效果还不错,文后附环境搭建方法。 2 摘要 ChatGLM 是使用中英双语预训练的大语言模型,具有 130B 参数(1300 亿),使用 400B token 训练。 在模型结构上结合了 GPT 和 BERT。在英文方面,效果优于 GPT-3;在中文 ...
熵_相对熵_散度
Created2023-03-19|2_Note0_Technic2_算法3_数据分布
1 信息量 意外越大,越不可能发生,概率就越小,信息量也就越大,也就是信息越多。比如说“今天肯定会天黑”,实现概率 100%,说了和没说差不多,信息量就是 0。 详见:2. 信息量 1.1 公式 \[ I(x)=-logP(x) \] 概率 P(x) 越小,信息量越大,可以简单理解为最小编码长度,比如概率 0.125,log(1/0.125),如果以 2 为底做 log,则需要 3 位二进制数描述。 2 熵 熵用于描述不确定性,越不确定,熵越高。熵是事件所属的整个分布的不确定性总量量化。可以说:熵越小,越容易被预测。 2.1 公式 \[ H(\mathrm{x})=\mathbb{E}_{\mathbf{x} \sim P}[I(x)]=-\mathbb{E}_{\mathbf{x} \sim P}[\log P(x)]=-\sum_{x} P(x) \log P(x) \] 这里乘了概率 P(x),等于计算了平均最小编码长度。 2.2 特性 接近均匀分布的概率分布具有较高的熵 接近确定性的分布 (输出几乎可以确定) 具有较低的熵 2.3 实例 1234567891011impor ...
论文阅读_PaLM
Created2023-03-17|2_Note0_Technic2_算法6_自然语言其它LLM
name_ch: PaLM:使用 Pathways 的扩展语言建模 name_en: PaLM:Scaling Language Modeling with Pathways paper_addr: http://arxiv.org/abs/2204.02311 date_publish: 2022-10-05 读后感 论文主要介绍了 Google 的超大模型 PaLM,它在多数任务上都超过了 SOTA,其主因是使用模型使用了大量参数和数据训练,作者认为当模型大到一定程度后,其性能也能飞跃,而 PathWay 技术是其大规模训练的基础。 和其它模型相比,PaLM 更关注逻辑推理相关的任务,这也为后面的 PaLM-E 机器人行为规划奠定了基础。 动态路由层选择具体的路怎么走。 摘要 文中提出了 Pathways Language Model (PaLM),使用 6144 个 TPU v4 芯片训练,模型 540 B 参数,780 B 高质量 token,密集激活,Transformer 语言模型。在推理任务上表现很好,文中提出:扩展到巨大模型后,性能急剧提高(Pathways 是 Jef ...
论文阅读_Self_instruct
Created2023-03-16|2_Note0_Technic2_算法6_自然语言
12345name_ch: 自引导:用自我生成的指令调整语言模型name_en: Self-Instruct:Aligning Language Model with Self Generated Instructionspaper_addr: http://arxiv.org/abs/2212.10560code: https://github. com/yizhongw/self-instructdate_publish: 2022-12-20 读后感 文中提出了自引导框架,之前引导精调主要使用人工处理的数据,数据量和范围都有限,本文通过示范少量引导示例,让模型自己生成引导数据对模型进行优化。 摘要 用引导数据精调模型提升了模型适应新任务的能力,它依赖于人工的引导数据,在数量、多样性和创造力方面受到限制,因此阻碍了精调模型的通用性。文中提出了自引导框架,通过自引导来提高预训练语言模型的指令遵循能力。经过自引导可使基础模型的 GPT-3 提升 33%,与 InstructGPT001 差不多的效果。 介绍 2022 年以后的大模型一般都使用了预训练和引导使用人工标注引导的技术。PRO ...
ChatGPT_API
Created2023-03-11|2_Note0_Technic0_工具大模型OpenAI
1 用法 1.1 申请 API KEY openai平台,右上角 ->Personal->API Key->Create secret key,然后将 key 加入代码。 ChatGPT3.5 收费的单位,是“$0.002 per 1k tokens”,每 1000 个 tokens 需要花费 0.002 美元。 1.2 代码 1.2.1 命令行 1234567curl https://api.openai.com/v1/chat/completions \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "model": "gpt-3.5-turbo", "messages": [{"role": "user", "content": "Wh ...
1…404142…88
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
878
Tags
282
Categories
185
Follow Me
Announcement
This is my Blog
Recent Post
什么情况下使用强化学习2025-10-11
围棋经典算法与股票市场预测2025-10-11
强化学习工具及优化方法2025-10-11
强化学习的核心概念与实践应用2025-10-11
金融相关的强化学习工具2025-10-11
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
自我表达 工具 方法论 编程语言/JNI 算法实战 语音 网络环境 AI绘画 LLM 笔记/Obsidian 抑郁 强化学习 生活技巧 思维整理 行为模式 远视镜 markdown 图形图像 个人信息 辅助编程 数据库 Android/theme 投资 数据安全 Django 远程桌面 社会学 编程 决策哲学 父母教育 算法 心情 机器学习/自动建模 #Python 公司分析 日常琐事 Python/数据 灵感创意 感知 目标管理
Archives
  • October 202515
  • September 20256
  • August 202518
  • July 202538
  • June 202537
  • May 202529
  • April 202516
  • March 20258
Info
Article :
878
Total Count :
1228.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database