avatar
Articles
913
Tags
294
Categories
199

Yan 的杂物志_个人主页分享
Search
SWE-Agent开源实现
Created2024-04-04|2_Note0_Technic0_工具GPT应用Agent工具
1 引子 前几天,AI 编程机器人 Devin 引起了热议。传言称:程序员的饭碗就要丢了。这两天,一个类似功能的产品 SWE-Agent 开源,在 SWE-Bench 上实现了与 Devin 类似的效果。下面让我们来看看 AI 程序员的具体实现方法。 2 信息 地址:https://github.com/princeton-nlp/SWE-agent 功能:修复 Github 库 Issue 中的问题。 3 原理 作者提出了:Agent-Computer Interface (ACI) 代理计算机接口。优化了 Agent 与计算机之间的衔接,使LLM 能够访问、查看、编辑和执行代码文件。 贡献如下: 添加了编辑时运行命令的 Linter,如果语法不正确,则不允许编辑命令通过。 为 Agent 提供了文件查看器,在每个回合只显示 100 行时,查看器效果最佳。作者构建的查看器支持上下文滚动,并且可以在文件中进行搜索。 为 Agent 提供了专门构建全目录字符串搜索命令,并发现以简洁的方式列出匹配项很重要。因为每次向模型展示每个匹配项反而会给模型带来更大混乱。 当命令的输出为空时, ...
Android Studio开发环境指南
Created2024-04-01|2_Note0_Technic3_编程Android工具
1 下载 https://developer.android.com/studio?hl=zh-cn 2 安装 123$ tar xvzf android-studio-2023.2.1.23-linux.tar.gz$ cd android-studio/bin/$ ./studio.sh 本机在:/exports/download/src/android-studio/bin 按提示安装。 3 使用 3.1 新建项目 新建一个最简单的项目 3.2 编译 左下锤子图标 build(按提示下载编译工具) 3.3 运行 3.3.1 创建模拟器 第一次运行时,如果不连接硬件设置,需要建立模拟器环境 Device Manager(右上),打开时默认有一个设备;也可点 + 号,创建一个新模拟器 Running Devices,点 + 号,启动一个设备 在左下或者菜单中点击 Run,即可在模拟器中调试 修改后: 第一次运行时,如果没有连接硬件设置,需要建立模拟器环境。 在 Device Manager(右上方),默认已经有一个设备;也可以点击 +,创建一个新的模拟器。 在 Runn ...
通过LENS看人类行为
Created2024-03-26|2_Note0_Technic2_算法2_认知科学
1234567英文名称: Human behaviour through a LENS中文名称: 语言与决策_通过LENS看人类行为链接: http://arxiv.org/abs/2403.15293v1作者: Valerio Capraro机构: 米兰-比科卡大学日期: 2024-03-22 1 读后感 最近看了一些 AI 反哺认知科学的论文,它们探讨了记忆、联想和梦境建模,但没有找到对情绪的分析。我一直很好奇:像自怜、嫉妒这些情绪进化出来究竟有什么作用。 然后我看到了这篇文章,觉得其中的想法很有趣。核心内容是:语言框架导致行为上的显著变化,语言框架又可以被各方利用来谋取利益。研究重点是:语言框架如何影响人们的决策。作者提出了 LENS 框架,如图 -1 所示,他认为语言可以通过情绪和规范两个方面来产生影响,并最终影响决策结果。在某种程度上,他提出了一种对人类决策进行建模的方法。这里的“规范“主要指道德和价值观,想想确实很重要。 对于语言,在使用大型模型时我们也经常遇到这种问题:改变表述方式会得到完全不同的解决方案,然后有人使用 p-tuning 等方法来提高模型对于同一问题不同描 ...
强化学习与大模型结合研究
Created2024-03-24|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
1 引言 从目前使用大模型的经验来看,大模型更擅长解决基于生成的软性问题,但在处理基于决策的硬性问题,例如选择正确答案等方面效果相对较差。 生成问题通常使用掩码来隐藏上下文信息,让模型通过上文生成下文,这是一种自监督方法;而决策问题通常需要一个明确的答案,如是或否、A/B/C 选项,因此需要使用有监督数据进行训练或微调模型。 将生成和强化学习结合起来是解决这个问题的一种思路,强化学习通过奖励函数直接或间接地为模型提供有监督的判定标准。因此,在大模型中引入强化学习可以提升其判断能力。 2 RLHF 123456英文名称:Deep Reinforcement Learning from Human Preferences 中文名称:从人类偏好中进行深度强化学习链接:https://arxiv.org/abs/1706.03741作者:Paul F Christiano, Jan Leike, Tom B Brown...机构:OpenAI, DeepMind日期:2017-06-12 v1 首先是优化生成聊天对话,由于无法直接提供得分,因此采取了学习相对值的方法。这种方法主要依赖于人类标 ...
大模型+强化学习_利用AI反馈扩展强化学习_RLAIF
Created2024-03-21|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
123456英文名称: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback中文名称: RLAIF:利用AI反馈扩展强化学习链接: http://arxiv.org/abs/2309.00267v2作者: Harrison Lee, Samrat Phatale, Hassan Mansoor, Thomas Mesnard, Johan Ferret, Kellie Lu, Colton Bishop, Ethan Hall, Victor Carbune, Abhinav Rastogi, Sushant Prakash机构: Google Research日期: 2023-09-01 1 读后感 研究使用机器反馈的强化学习(RLAIF)来替代人工反馈的强化学习。该研究主要集中在大模型领域,并通过一系列实验证明了 RLAIF 的适用范围,还介绍了一些具体的方法,是一篇偏实用性的论文。 另外,从另一个角度考虑,许多大型模型(如 Claude3)似乎已经与人类判断相当一致。那么,我们是否可以 ...
大模型+强化学习_在线交互调参_GLAM
Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
1234567英文名称: Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning中文名称: 通过在线强化学习在交互式环境中建立大型语言模型链接: https://arxiv.org/pdf/2302.02662.pdf代码: https://github.com/flowersteam/Grounding_LLMs_with_online_RL作者: Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer机构: 法国波尔多大学,Hugging Face...日期: 2023-02-06 v1 1 读后感 这是一篇倾向于研究性和思考的文章,不仅适用于机器人领域,还可以推广到 Agent 和其他领域,对于希望用大型模型来解决实际生活中的问题,这是大模型应用过程无法跳过的一环。 为了简化问题,作者将整个测试环境转化为语言环境, ...
大模型+强化学习_自我对弈偏好优化
Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
123456英文名称: A Minimaximalist Approach to Reinforcement Learning from Human Feedback中文名称: 一种极简极大化的强化学习方法:来自人类反馈的学习链接: http://arxiv.org/abs/2401.04056v1作者: Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal机构: Google Research日期: 2024-01-08 1 读后感 "Minimax Winner" 是博弈论中的一个概念,指的是在最坏情况下尽量最大化自己的收益。在这里将偏好学习视为一种零和博弈。 我觉得它的原理是这样的:大型模型是通过大量数据进行训练得到的生成模型,因此在生成结果时可能存在不稳定性,有时会表现出某些数据特征,而有时则表现出其他特征。有时候它可能会产生幻觉或相互矛盾的结果。 提出的方法相当于针对同一个问题生成多种答案,然后让模型选择最佳答案。选择过程实际上是让模型根据已有知识进行思考和推理,以反映大多数人的 ...
大模型+强化学习_精典方法_RLHF
Created2024-03-19|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
123456英文名称:Deep Reinforcement Learning from Human Preferences 中文名称:从人类偏好中进行深度强化学习链接:https://arxiv.org/abs/1706.03741作者:Paul F Christiano, Jan Leike, Tom B Brown...机构:OpenAI, DeepMind日期:2017-06-12 v1 1 读后感 RLHF 是 LLM 的重要组成部分。这篇论文早在 2017 年 OpenAI 和 DeepMind 联合发表的,他主要是为优化强化学习(RL)而设计的方法,主要在游戏领域进行实验,更多讨论机器人场景。 强化学习常用于解决真实世界中的复杂问题。以往的强化学习需要定义奖励函数,而 RLHF 使用了普通人定义的问答对来提供不到 1% 代理与环境交互反馈,从而大大降低了人工监督的成本。 其原理是:没有绝对评分,但有相对的更好。 先不考虑大语言模型,只考虑强化学习本身。这里讨论的是如何将机器在环境中的自主探索和人工指导结合起来。如果把 agent 比作一个学生,那么 reward 函数就扮 ...
主流大模型API价格汇总
Created2024-03-17|2_Note0_Technic0_工具GPT应用模型工具
1 openai 241006 更新 https://openai.com/api/pricing/ Model Input Output gpt-4o-mini $0.150/1M tokens $0.600 /1M tokens gpt-4o $2.50 / 1M tokens $10.00 / 1M tokens gpt-4-turbo $10.00 / 1M tokens $30.00 / 1M tokens gpt-4 $30.00 / 1M tokens $60.00 / 1M tokens gpt-3.5-turbo-0125 $0.50 / 1M tokens $1.50 / 1M tokens gpt-3.5-turbo-instruct $1.50 / 1M tokens $2.00 / 1M tokens 2 gimini https://ai.google.dev/pricing?hl=zh-cn 2.1 免费模式 免费模式所有人都可以享受每分钟 360 次请求查询。 免费以外 输入字符:$0.00012 ...
大模型+强化学习_通过强化学习对齐大模型和环境
Created2024-03-16|2_Note0_Technic2_算法7_模型增强AgentLLM_RL
1234567英文名称: True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning中文名称: 实践出真知:通过强化学习将LLMS与具体环境对齐链接: https://arxiv.org/abs/2401.14151代码: https://github.com/WeihaoTan/TWOSOME作者: Weihao Tan, Wentao Zhang, Shanqi Liu, Longtao Zheng, Xinrun Wang, Bo An机构: 新加坡南洋理工大学, 浙江大学, Skywork AI日期: 2024-01-25 1 读后感 这篇论文试图解决的问题是:当自然语言模型与现实世界进行交互时所产生的问题。这种问题不仅可以应用于游戏和机器人等领域,可以说它可被应用在需要代理与环境进行多步交互以解决问题的各个领域,该方法主要用于优化每一步的决策。 在使用大模型时,常见的问题是将复杂问题分解为多个步骤来解决,而每一步动作在真实场景中会 ...
1…282930…92
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
913
Tags
294
Categories
199
Follow Me
Announcement
This is my Blog
Recent Post
FreeCAD用于3D建模2026-01-05
第一次买拓竹 3D 打印机,该选 A1 还是 P2S2026-01-05
3D打印常用软件2026-01-05
3D打印盘清洁与涂胶技巧2026-01-05
玩3D打印花多少钱?从设备到耗材的真实花费2026-01-04
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
版本管理 插件推荐 Agent 生活 深度学习 行为模式 智能家居 宗教 投资 项目管理 Pytorch 视频生成 心理学 自然 菜谱 大模型 数据安全 工作思考 语音 程序员 Paper 卡片 2023年 加密货币 卷积神经网络 多代理系统 多模态 心理调节 指标 模型工具 情绪表达 美食 基金 人生哲学 概率 开发 技术 佛教 社会评价 #论文阅读
Archives
  • January 20266
  • December 202525
  • November 202512
  • October 20259
  • September 20255
  • August 202517
  • July 202538
  • June 202537
Info
Article :
913
Total Count :
1269.4k
UV :
PV :
Last Push :
©2020 - 2026 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database