论文阅读_Citrus_在医学语言模型中利用专家认知路径以支持高级医疗决策
1234567英文名称:Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support中文名称:Citrus:在医学语言模型中利用专家认知路径以支持高级医疗决策链接: http://arxiv.org/pdf/2502.18274v2代码: https://github.com/jdh-algo/Citrus作者: Guoxin Wang, Minyu Gao, Shuai Yang, Ya Zhang, Lizhi He, Liang Huang, Hanlin Xiao, Yexuan Zhang, Wanyue Li, Lu Chen, Jintao Fei, Xin Li机构: JD Health International Inc日期:2025-02-25
1 摘要
目标:介绍
Citrus,一个医学语言模型,旨在模拟医疗专家的认知过程,以改善医学推理任务。
方法:通过新颖的方法训练模型,使用模拟专家疾病推理数据,捕获 ...
电动奶泡壶拉花技巧
我:用奶泡杯能不能做出拉花的奶泡?
4o:你是用什么型号的奶泡杯?我可以更具体点说。
我:电动奶泡壶(那种一键搞定的)可加热的
4o:你这设备完全可以整出像样的奶泡了!电动奶泡壶(可加热那种)其实是家庭拉花界的入门神器,关键就看这几点:
全脂牛奶 > 低脂 > 植物奶**。
加热 + 打泡”模式**,这样更接近“湿奶泡”状态,适合拉花。
打完后不要马上倒!先:
把壶拿起来轻敲几下桌面,打破大气泡。
顺时针旋转奶泡几圈,让它变得光亮流动,像乳胶漆那种质感。
注意
拿铁液位不要太满,给奶泡留空间。
倒奶泡时壶嘴靠近杯面,一开始从高处倒进去混合,再拉近倒“花”。
“奶泡观测标准”(可以叫它《奶泡五段诀》😎),以后打完奶泡,快速判断今天这壶能不能出花儿:
看亮度:奶泡够不够“反光”
看流动性:是否“倒得动”
看声音:轻磕杯子有无“气泡崩裂”声
看拉丝:拿勺子挑一勺奶泡,滴回壶中
看融合:倒入浓缩咖啡后,奶泡是否“自然融合”:中段下沉、后段慢慢浮出一点图案
我:拉花的时候,先高后低,原理是什么?因为打奶泡的时候打进了气,所以先拉高,融合之后混合液就变成了比一般水更轻 ...
使用辅助编程的一些思考
1 引子
最近使用辅助编程比较频繁,也在思考:
它的出现对程序员来说是利大于弊还是弊大于利。
对非程序员来说,有了辅助编程是否就能达到程序员的水平?
目前,辅助编程还不能解决哪些问题呢?
1.1 使用场景
1.1.1 程序员角度
先从程序员的角度看看。
在熟悉的情境下,当我们面对熟悉的问题时,可能会需要编写大量逻辑代码。在这种情况下,机器可以帮助我们自动生成部分代码,从而加速开发过程。
对于不熟悉的架构和语法,机器辅助变成能够生成整体示例和语法正确的代码,从而避免因为语法错误而浪费时间;帮助理解和快速上手,并且更容易理解系统的工作原理。
在调试过程中,对于一些简单的问题,机器可以提供快速的反馈和解决方案,从而节省我们的时间;对于复杂问题可能无法直接解决,但可以提供一些建议思路,来减少查找和定位的过程。公平地说,与之前手动查找问题相比,提效很多。
辅助编程也有一些问题,如多端联调比较困难;如果一些小众工具没有提供文档,辅助编程工具也不知道如何使用。虽然理论上可以通过
Agent 和 RAG 来解决这些问题,但实际实现起来比较麻烦。
1.1.2 非程序员角度
再从非程序员的角度看看,一 ...
Edge TTS开源项目简介
免费使用 Microsoft Edge
项目地址:https://github.com/rany2/edge-tts
1 功能
语音合成支持各种主流语言,并可调节合成速度、音量和音高。我测试了一下,中文
300 字的合成时间约为 3 秒,600 字约为 6 秒。
从效果来看,语气和情感表达比传统技术(相对旧版讯飞)更好,清晰度和准确率也很高。虽然不能定制,但一般用户无需定制,只要合成效果不出戏即可。
2 原理
模拟 edge 浏览器行为,远程调用 microsoft 语音合成服务。
3 安装
1$ pip install edge-tts
4 查看支持的语言和声音
1edge-tts --list-voices
5 合成中文
5.1 命令行调用
1$ edge-tts --text "我正在测试" --write-media hello.mp3 --voice zh-CN-YunxiNeural
5.2 Python 程序调用
12345678import edge_ttsTEXT = "我正在测试"VOICE = "zh-CN-Yun ...
图形化 Agent 工具解析
1 图形化 Agent 工具
1.1 核心组件
机器人 Bot:一个 AI 应用,或称为 Agent
知识库:上传个人数据,机器人可根据其内容进行回复
工作流:将大问题拆解成多个小问题,通过路径实现,路径上的每个节点完成特定任务
插件:调用外部功能(Tools)
1.2 使用体验
大模型与其他元素结合,实现完整的目标功能。
功能:调用工具、设置工作流和本地数据(知识库)。
工具:有许多现成工具可供使用。
工作流:前后关系非常直观,像搭积木一样。
2 Coze
扣子是一个 AI 应用开发平台,由字节跳动推出。
相对更 toC,无需编程即可实现 agent 的创建和发布,效果有点类似于 AI
界的微信小程序。
区别
海外版
国内版
网址
www.coze.com
www.coze.cn
登陆方式
需要魔法才能使用
无使用的网络限制
可用模型
OpenAI GPT 系列
字节自研模型/国内常用模型
发布平台
Discord、Instagram、Slack
飞书、微信客服、微信公众号&订阅号
3 Dify
支持本地搭建和使用本地模 ...
Claude3模型试用指南
1 简介
好消息是,2024 年 3 月 4 日发布了 Claude3,据传比 GPT-4 更好,snooet
版本可以免费试用,坏消息是我们这儿不能用。
在官网注册时,需要选择国家并使用手机接收短信验证码。而在选项中没有中国这个选项。即使成功注册了账号并申请了
API
密钥,免费版本仍需要绑定信用卡才能使用。绑定信用卡也需要接收短信验证,网上说每个手机号只能注册一次,所以似乎也无法短信接收平台。(如果你找到了注册方法,请私信告诉我)
虽然无法通过 API
调用并将其添加到我们的工具中,但可以通过亚马逊云来免费体验一下。
2 Claude3
2.1 三个模型
Claude 3 共发布了三个模型:
Claude 3
Opus:最强大的模型,在高度复杂的任务上提供最先进的性能,并展示流畅性和类似人类的理解。
Claude 3
Sonnet:在智能和速度之间最平衡的模型,是企业工作负载和规模化 AI
部署的绝佳选择
Claude 3
Haiku:最快、最紧凑的模型,旨在实现近乎即时的响应能力和模仿人类交互的无缝
AI 体验
2.2 主要特点
这次升级的主要特点包含:
多语言功能:Cla ...
大型语言模型与Agent的结合探索
何需足量革,尽覆此大地,片革垫靴底,即同覆大地。 --
寂天《入行论》
最近看了一些 LLM 实测报告,感觉 LLM
的能力很强大,但在当前阶段,仍然只能对单一简单问题进行一次提问(详见:开源项目_大海捞针测试),对于复杂的问题,可以通过将其拆解为多个简单问题,使用
LLM 进行多步问答来解决。因此,引入了
Agent。目前也临着在对话过程中容易偏离主题的问题(详见:论文阅读_多Agent_股票操作示例)。
猜想大模型的尽头并非某个全能的大模型,而是类似于人的存在,可能是面向
Agent 优化的大模型;或者整体系统由多个大模型组成,其中一个充当主控:
这个主控模型并不大,所以反应速度快。
他并不存储所有的知识,但包含:内在信念(详见:论文阅读_语言与决策_通过LENS看人类行为),基本的常识,语言理解能力,基础推理能力,类似于高中生的水平。
他链接到一个外挂记忆系统,该系统存储客观知识和主观总结,以及长短期记忆,支持存储/搜索(详见:文章阅读_Agent记忆机制综述)。
他还包含一个自我进化系统,该系统能记忆、总结,并推动自已更新能力库。
和当前系统很大差别在于它能自主构建自己的 ...
Obsidian插件开发指南
1 Obidian 开发
Obsidian 基于 Electron 框架开发(开发者可以使用 Web
技术构建桌面应用,Google 的 Flutter 也是类似的框架),主要使用 HTML、CSS
和 JavaScript。后端则依赖 Node.js(Node.js 是基于 Chrome V8 引擎的
JavaScript 运行环境),使 JavaScript 能在服务器端运行。
开发 Obsidian 插件时,需要掌握 JavaScript 和 Node.js。比如,利用
Node.js 提供的模块和 API
进行文件操作、访问系统资源、处理网络请求等。
2 开发环境
我的开发环境是:VSCode + Node Docker +
Copilot。这样不仅不会影响我的宿主机环境,开发起来也很舒适,还可以利用辅助编码工具。
如果想开发 Obsidian 插件,就需要安装 Node.js 环境。Node.js 提供了
JavaScript 的运行环境和许多内置模块;同时,安装 Node.js 也会安装
npm,用于管理插件项目的依赖项。
推荐使用 Node.js 的第 18 版:
12$ ...
法律行业算法比赛解读
1 比赛介绍
第三届琶洲算法大赛 -GLM 法律行业大模型挑战赛道
赛题页面:https://tianchi.aliyun.com/competition/entrance/532221/information
解题示例:https://tianchi.aliyun.com/competition/entrance/532221/customize444
说明文档:https://zhipu-ai.feishu.cn/wiki/M6lCwkSEWiBQIKkQLtIcTuV2nqh?spm=a2c22.12281976.0.0.536f7dd2Pg0INK
2 问题概述
在法律服务领域,基于智谱 GLM-4 大模型和相关业务
API,构建一个能回答法律问题的 Agent(问题机器人)。该 Agent
需要在一小时内回答 200 道问题。
这种整体方案可以应用于许多专业领域。我们也可以通过比较优化和未优化的情况下,看看效果如何。(初赛
A 榜的前 100 名得分都在 80-90
分区间内,查看了一些代码后,我觉得稍加改进也能达到 70+)
3 问题类型
简单问题:查单表和几个字段。 ...
OpenAI的CUA_ComputerUseAgent
2025 年 1 月 24 日,OpenAI 发布了其首款 AI 智能体
Operator。这是一款能够在浏览器上执行简单在线任务的网络应用,例如预订音乐会门票和在线购买杂货。
Operator 由新模型 Computer-Using Agent(CUA)驱动,该模型基于 GPT-4o
构建。目前,该应用仅面向订阅每月 200 美元 ChatGPT Pro
服务的美国用户开放,未来将逐步向其他用户推广。
官方介绍: https://openai.com/index/computer-using-agent/
原理:
将 GPT-4
的推理能力结合视觉功能,用于操作电脑桌面(类似于操作浏览器)。
基于桌面解析和文字识别技术,可以控制键盘和鼠标,并在沙箱环境中进行操作。
问题:
安全问题:适合操作商场中机器人,对于个人数据/公司数据可能涉及安全问题。
目标用户是谁:像 Dify,扣子也有此问题。
应用场景:
浏览器使用:语法检查、退款总计、更新许可证、客户查询。
电脑使用:下载讲座、合并 PDF、压缩图像、计算价格、导出图像。
其它:
要 200 刀的 pro 才能用,而 ...