试用_Claude3
1 简介
好消息是,2024 年 3 月 4 日发布了 Claude3,据传比 GPT-4 更好,snooet 版本可以免费试用,坏消息是我们这儿不能用。
在官网注册时,需要选择国家并使用手机接收短信验证码。而在选项中没有中国这个选项。即使成功注册了账号并申请了 API 密钥,免费版本仍需要绑定信用卡才能使用。绑定信用卡也需要接收短信验证,网上说每个手机号只能注册一次,所以似乎也无法短信接收平台。(如果你找到了注册方法,请私信告诉我)
虽然无法通过 API 调用并将其添加到我们的工具中,但可以通过亚马逊云来免费体验一下。
2 Claude3
2.1 三个模型
Claude 3 共发布了三个模型:
- Claude 3 Opus:最强大的模型,在高度复杂的任务上提供最先进的性能,并展示流畅性和类似人类的理解。
- Claude 3 Sonnet:在智能和速度之间最平衡的模型,是企业工作负载和规模化 AI 部署的绝佳选择
- Claude 3 Haiku:最快、最紧凑的模型,旨在实现近乎即时的响应能力和模仿人类交互的无缝 AI 体验
2.2 主要特点
这次升级的主要特点包含:
- 多语言功能:Claude 3 提高了非英语语言的流利度,支持翻译服务和全球内容创建等用例。
- 视觉和图像处理:所有 Claude 3 模型都可以处理和分析视觉输入、从文档中提取内容、处理 Web UI、生成图像元数据等。
- 可操纵性和易用性:Claude 3 更擅长遵循提示。
- 内容更新:Claude 3 系列将定期接收更新,以增强性能、扩展功能并解决任何已发现的问题。
2.3 价格
Claude 3 Opus | Claude 3 Sonnet | Claude 3 Haiku | Claude 2.1 | Claude 2 | Claude Instant 1.2 | |
---|---|---|---|---|---|---|
Cost (Input / Output per MTok^) | $15.00 / $75.00 | $3.00 / $15.00 | $0.25 / $1.25 |
$8.00 / $24.0 |
$8.00 / $24.0 |
$0.80 / $2.40 |
Training data cut-off | Aug 2023 | Aug 2023 | Aug 2023 | Early 2023 | Early 2023 | Early 2023 |
2.4 资料
主页:https://www.anthropic.com/
文档:https://docs.anthropic.com/claude/docs/models-overview
3 使用方法
3.1 界面调用
Anthropic 的 Claude 3 Sonnet 模型在亚马逊 Bedrock 平台上可以免费试用,扫码登录:
https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=community
(顺便提一句:亚马逊的云实验环境实在很好用)
进入后,依次操作:
- 点击:" 限时试用 "
- 点击:尝试 RedRock" 入门 "
- 点击:右侧 ANTHROPIC " 请求模型访问权限 "
- 点击:右上 " 管理模型访问权限 "
- 点击:ANITHROPIC 右侧“”提交应用场景详细信息”如下,填好后稍等刷新,可以看到成功获取到访问权限。
- 点击:左侧聊天,把模型切换成 Claude3 sonnet 即可开始聊天
3.2 python 程序调用
用法非常简单,和 gemini,openai gpt 差不多,就不在此 demo 了。
4 测试
4.1 编写代码
- 提问:给我写一段 android 音乐播放器的界面代码。
- 回答:返回 layout xml 看着还行,没有 java 代码,还包含一些注意事项。
- 讨论:如果细化一下需求,大问题拆成小问题再问,效果应该还不错。
4.2 知识性问题
- 提问:请介绍一下莫言。
- 回答:回答正确。
- 讨论:还提问了另一些知识性问题,感觉知识性内容 Claude3 和 Genimi 比 GPT-4 明显更好。
4.3 翻译问题
- 提问:将葳文翻译成中文:ང་རང་གིས་གཙོ་སྒྲུབ་བྱས་པའི་དབང་སྡུད་གསོལ་འདེབས་ཀྱི་ཚོམ་འདིར་ཕེབས་པར་དགའ་བསུ་ཞུ། ཁོམ་སྐབས་དང་བསྟུན་ནས་དབང་སྡུད་གསོལ་འདེབས་ཉུང་ཙམ་གསུང་རོགས་ཞ
- 回答:基本正确,沟通方式很友好,可能由于使用大量人工标注 instruct 引导学习。
- 分析:后来又翻译了一段颂词,藏文相对小语种,我觉得相比之下,Claude 和 Gemini 差不多,gpt4 略差一点,gpt3.5 几乎没法用。
4.4 阅读理解
- 提问:请从原文中提取合同核心条款:“回购权”," 股权锁定 "," 优先认购权 ",....,对应的数据块,用原文回答。原文如下:……(上下文支持足够长,可以在聊天中加原文)
- 回答:Claude3 答出了核心条款所在章节,但并没有用原文回答,试了几种问法,均没有用原文回答,可能是模型对输出量做了限制。如果问单个条款,在答案不太长的情况下,可用原文回答。
- 提问:从原文找:" 股权锁定 " 对应的数据块,用原文回答。
- 回答:返回了我想要的完整数据块,及一些总结性文本,总结得比我理解得还好呢。
- 反馈时间:上传 2W 字,反馈时间 20-30 秒。
- 讨论:提问内容属于相对专业领域,模型能理解:反摊薄条款=反稀释,优先清算权=优先分配权,以及正文内容与标题的关系,可见 Claude3 理解能力确实强;但没有完全按要求回答,偶尔会产生一些幻觉。相对 GPT3.5/4 好很多。
- 分析:在这个应用场景里,推荐用规则提取能提取的内容,用模型处理比较复杂的内容,以平衡性价。
4.5 总结
个人体会,不一定对。
- 我感觉 Gemini,Claude3,GPT-4 基本是一个层次的,效果比 GPT-3.5 好很多。
- 未来可能不会再有一大独大的情况了。
- 模型对比:
- GPT-4 各方面比较均衡,生态完善,工具链太熟悉,切换也有成本。
- Gemini 知识能力比较强,更深入专业领域,小伙伴拿他当百度百科用。
- Claude 理解能力比较好,更深入专业领域,目前没法在程序中调用。
- 最终选型还是要看价格,充值难度,易得性,响应时间,效果,取平衡。
- 几个模型对单一问题的回答都还不错,但对于复杂问题可能还需要加思维链和 RAG 来做。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.