avatar
Articles
834
Tags
257
Categories
173

Yan 的杂物志_个人主页分享
Search
论文阅读_参数微调_P-tuning_v2
Created2024-03-06|2_Note0_Technic2_算法5_模型结构工具
1 P-Tuning 1234567英文名称: GPT Understands, Too中文名称: GPT也懂链接: https://arxiv.org/abs/2103.10385作者: Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, Jie Tang机构: 清华大学, 麻省理工学院日期: 2021-03-18引用次数: 426 目标:大模型的 Prompt 构造方式严重影响下游任务的效果。离散化的 token 的搜索出来的结果可能并不是最优的,导致性能不稳定。本篇论文旨在探讨,如何提升预训练语言模型进行自然语言提示的有效性。 方法:作者提出了 P-Tuning,设计了一种连续可微的 virtual token(同 Prefix-Tuning 类似)。将 Prompt 转换为可以学习的 Embedding 层,用 MLP+LSTM 的方式来对 Prompt Embedding 进行处理。 结论:弥合 GPT 和 NLU 应用程序之间的差距 (2021 年),P 调参后的 GPT 可以比在 ...
RepoCoder:通过迭代检索和生成实现存储库级代码完成
Created2024-03-05|2_Note0_Technic0_工具代码生成
12345678英文名称: RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation中文名称: RepoCoder:通过迭代检索和生成实现存储库级代码完成链接: http://arxiv.org/abs/2303.12570v3代码: https://github.com/microsoft/CodeT/tree/main/RepoCoder中文介绍:https://zhuanlan.zhihu.com/p/672556695作者: Fengji Zhang, Bei Chen, Yue Zhang, Jacky Keung, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen机构: 香港城市大学, 微软公司, 武汉大学日期: 2023-03-22 读后感 三句话能说明白的,就不要花太长时间。 最初的代码生成采用了 in-file 方式,仅将当前代码内容传递给模型;后来,采用了 RAG 方式,将项目中相关代 ...
论文阅读_解释大模型_语言模型表示空间和时间
Created2024-03-03|2_Note0_Technic2_算法14_模型解释
12345678英文名称: LANGUAGE MODELS REPRESENT SPACE AND TIME中文名称: 语言模型表示空间和时间链接: https://www.science.org/doi/full/10.1126/science.357.6358.1344https://arxiv.org/abs/2310.02207作者: Wes Gurnee & Max Tegmark机构: 麻省理工学院日期: 2023-10-03引用次数: 81 1 读后感 作者想要研究的是:模型是只学习字面意思,还是能够学习到更深层次的知识。比如人名、地名以及与时间和空间相关的位置。为了实现这一目标,作者使用了 llama-2 模型,输入数据集中的名称,然后,对每一层的输出进行线性变换,以预测其所属的时间和空间类别。实验证明,在模型的低层就开始构建了关于时间和空间的表示。而在模型中间层达到饱和点时,参数已经学习到了实体相关的时空信息。 2 摘要 目标:分析模型是只学习字面意思,还是能够学习到更深层次的知识。 方法:通过分析 Llama-2 系列模型对三个空间数据集(世界、美国、纽约地 ...
GitHub SSH连接问题解决
Created2024-03-02|2_Note0_Technic0_工具版本管理
github 用 http 方式可连通,用 ssh 方式连不通 试将 22 端口改为 443 端口 试试默认端口 22 能否连通 1ssh -T git@github.com 试试默认端口 443 能否连通 1ssh -T git@github.com -p 443 如果 22 连不通,但 443 正常,可将端口设为 443 1234vi $HOME/.ssh/config Host github.com Hostname ssh.github.com Port 443
论文阅读_世界模型
Created2024-03-01|2_Note0_Technic2_算法15_强化学习
12345678英文名称: World Models中文名称: 世界模型链接: https://arxiv.org/abs/1803.10122示例: https://worldmodels.github.io/作者: David Ha, J¨urgen Schmidhuber机构: Google Brain, NNAISENSE, Swiss AI Lab, IDSIA (USI & SUPSI)日期: 27 Mar 2018引用次数: 1033 1 读后感 不同于之前简单的强化学习方法,这篇论文将模型分为三部分:视觉 V、记忆 M 和控制 C。视觉部分 V 将视觉信息压缩到潜空间,记忆部分 M 学习物理空间的变化规律,控制部分 C 则使用强化学习模型来学习智能体的最佳动作。 这相当于将模型拆分为大脑的不同功能区域。复杂的世界信息保留在 V 和 M 中,同时确保强化学习部分 C 足够小,以便快速训练。V 和 M 可以分别看作对空间和时间的建模。 文中还讨论了梦境和海马回放。由于有了时序预测模型 M,我们可以在没有现实输入的情况下通过 M 计算出后续状态,从而生成一个想象中的环 ...
本地语音识别模型评测
Created2024-03-01|2_Note0_Technic2_算法1_音频
1 引言 最近,朋友给我发来了一段音频,想转录成文字,并使用大型润色文本。音频中的普通话带有一定的口音,并且讲解内容较为专业,所以一般的语音识别工具很难达到较高的识别率。 于是试用了两个大模型。Whisper 是目前最好的多语言语音识别技术(ASR),之前的文章已经介绍过它的原理和部署方法;FunAsr 是阿里巴巴智能计算研究院语音实验室在 ModelScope 上开源的深度学习语音识别模型,在海量数据上对中文进行了优化,可谓国产之光。本次评测的 ASR 均能在本地部署,之前测试使用效果都不错。 本次评测将针对相对困难的语音进行真人评估,看看语音识别哪家强。 2 安装及资源占用 2.1 使用说明 这里未使用音频切分降噪进行前处理,直接将音频放入模型进行识别。 2.2 测试环境 FunAsr 使用了 GPT-SoVITS 提供的 docker 镜像中的库和模型,镜像大小 7.09G,外加模型 1.4G。 识别命令如下: 1$ /usr/local/bin/python tools/asr/funasr_asr.py -i /opt/xieyan/tmp/audio/litao/ -o o ...
Gemini大模型初体验
Created2024-03-01|2_Note0_Technic0_工具大模型其它大模型
1 使用体验 同样需要科学上网。 速度很快,而且还不要钱,据说使用太多可能被限流。 对于小语种翻译效果比 GPT-4 好,其它还没测试。 可通过 ChatBox 界面调用,也可使用 Python 调用。 2 使用 ChatBox 方式调用 在 build with gemini 申请一个 apikey 设置本机代理 下载 ChatBox,并设置模型为 gimini 和 apikey 参考:https://mp.weixin.qq.com/s/Dvc1TU554Kv68OiVp1C6UA 3 使用 Python 调用 Gimini 3.1 安装库 1$ pip install -q -U google-generativeai 3.2 代码 123456789import google.generativeai as genaigenai.configure(api_key="你申请的apikey")model = genai.GenerativeModel('gemini-pro')response = model.generate_c ...
论文阅读_代码生成模型_CodeGeeX
Created2024-02-29|2_Note0_Technic0_工具代码生成
123456789英文名称: CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X中文名称: CodeGeeX:一种用于代码生成的预训练模型,并在HumanEval-X上进行多语言评估链接: https://arxiv.org/abs/2303.17568代码: https://github.com/THUDM/CodeGeeX 7.6k Star https://github.com/THUDM/CodeGeeX2 6.5k Star作者: Qinkai Zheng, Xiao Xia, Xu Zou, Yuxiao Dong, Shan Wang, Yufei Xue, Zihan Wang, Lei Shen, Andi Wang, Yang Li, Teng Su, Zhilin Yang, Jie Tang机构: 清华大学, Zhipu.AI, 华为日期: 2023-03-30引用次数: 89 1 读后感 这是一篇比较早的论文,于 2 ...
开源代码生成工具盘点
Created2024-02-29|2_Note0_Technic0_工具代码生成
1 CodeGeeX 系列 1.1 CodeGeeX 项目地址:https://github.com/THUDM/CodeGeeX 7.6k Star 主要由 Python 编写 深度学习框架是 Mindspore 代码约 2.5W 行 有 Dockerfile,可在本地搭建环境 模型大小为 150 亿参数 使用 850 B token 训练 相对早期的代码生成模型,开放全部代码 论文 论文阅读_代码生成模型_CodeGeeX 用法 编程助手_CodeGeeX 1.2 CodeGeeX2 项目地址:https://github.com/THUDM/CodeGeeX2 6.5k Stat 主要由 Python 编写 推理部分开源,通过 pytorch 调用 代码约 1900 行,主要为示例和评测 基于 ChatGLM2 架构,模型部分也没开源,只开源推理部分 模型 60 亿参数,6G 显存即可运行 使用 600 B 代码数据预训练 支持最大 8192 序列长度 1.3 其它资源 官网:https://codegeex.cn/ 1.4 讨论 CodeGeeX 与 CodeGe ...
论文阅读_代码生成模型_CodeLlama
Created2024-02-29|2_Note0_Technic0_工具代码生成
12345678英文名称: Code Llama: Open Foundation Models for Code中文名称: Code Llama:开放基础代码模型链接: https://arxiv.org/abs/2308.12950代码: https://github.com/facebookresearch/codellama作者: Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo ...
1…222324…84
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
834
Tags
257
Categories
173
Follow Me
Announcement
This is my Blog
Recent Post
优化阅读过程2025-07-14
对谈_250706_关系中的尊严2025-07-14
稳定币2025-07-14
MCP_实用场景讨论2025-07-14
国内外云主机价格对比2025-07-12
Categories
  • 0_IMO78
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听76
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
Tags
抑郁 阅读哲学 编程工具 阅读心理学 关系抽取 音频处理 程序员 跨境支付 机器学习/XGBoost 心理建设 机器学习/自动建模 Python 辅助编程 开源许可 推荐系统 智能家居 概率 稳定币 焦虑 运动 价值观 反思 无代码开发 深度学习/工具 舞台感 深度学习/图形图像 强化学习 叙事治疗 SSH 阅读/心理学 职场 大模型/应用 语言学 哲学 现实认知 卷积神经网络 社交 饮食 咖啡拉花 方法论
Archives
  • July 202528
  • June 202539
  • May 202530
  • April 202516
  • March 20259
  • February 20252
  • January 20256
  • December 20242
Info
Article :
834
Total Count :
1154.1k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database