1 简介

好消息是,2024 年 3 月 4 日发布了 Claude3,据传比 GPT-4 更好,snooet 版本可以免费试用,坏消息是我们这儿不能用。

在官网注册时,需要选择国家并使用手机接收短信验证码。而在选项中没有中国这个选项。即使成功注册了账号并申请了 API 密钥,免费版本仍需要绑定信用卡才能使用。绑定信用卡也需要接收短信验证,网上说每个手机号只能注册一次,所以似乎也无法短信接收平台。(如果你找到了注册方法,请私信告诉我)

虽然无法通过 API 调用并将其添加到我们的工具中,但可以通过亚马逊云来免费体验一下。

2 Claude3

2.1 三个模型

Claude 3 共发布了三个模型:

  • Claude 3 Opus:最强大的模型,在高度复杂的任务上提供最先进的性能,并展示流畅性和类似人类的理解。
  • Claude 3 Sonnet:在智能和速度之间最平衡的模型,是企业工作负载和规模化 AI 部署的绝佳选择
  • Claude 3 Haiku:最快、最紧凑的模型,旨在实现近乎即时的响应能力和模仿人类交互的无缝 AI 体验

2.2 主要特点

这次升级的主要特点包含:

  • 多语言功能:Claude 3 提高了非英语语言的流利度,支持翻译服务和全球内容创建等用例。
  • 视觉和图像处理:所有 Claude 3 模型都可以处理和分析视觉输入、从文档中提取内容、处理 Web UI、生成图像元数据等。
  • 可操纵性和易用性:Claude 3 更擅长遵循提示。
  • 内容更新:Claude 3 系列将定期接收更新,以增强性能、扩展功能并解决任何已发现的问题。

2.3 价格

|400
Claude 3 Opus Claude 3 Sonnet Claude 3 Haiku Claude 2.1 Claude 2 Claude Instant 1.2
Cost (Input / Output per MTok^) $15.00 / $75.00 $3.00 / $15.00 $0.25 /
$1.25
$8.00 /
$24.0
$8.00 /
$24.0
$0.80 /
$2.40
Training data cut-off Aug 2023 Aug 2023 Aug 2023 Early 2023 Early 2023 Early 2023

2.4 资料

主页:https://www.anthropic.com/

文档:https://docs.anthropic.com/claude/docs/models-overview

3 使用方法

3.1 界面调用

Anthropic 的 Claude 3 Sonnet 模型在亚马逊 Bedrock 平台上可以免费试用,扫码登录:

https://portal.cloudassist-beta.sign-up.china.aws.a2z.com/demo/qrcode?trk=community

(顺便提一句:亚马逊的云实验环境实在很好用)

进入后,依次操作:

  • 点击:" 限时试用 "
  • 点击:尝试 RedRock" 入门 "
  • 点击:右侧 ANTHROPIC " 请求模型访问权限 "
  • 点击:右上 " 管理模型访问权限 "
  • 点击:ANITHROPIC 右侧“”提交应用场景详细信息”如下,填好后稍等刷新,可以看到成功获取到访问权限。
|300
  • 点击:左侧聊天,把模型切换成 Claude3 sonnet 即可开始聊天

3.2 python 程序调用

用法非常简单,和 gemini,openai gpt 差不多,就不在此 demo 了。

4 测试

4.1 编写代码

  • 提问:给我写一段 android 音乐播放器的界面代码。
  • 回答:返回 layout xml 看着还行,没有 java 代码,还包含一些注意事项。
  • 讨论:如果细化一下需求,大问题拆成小问题再问,效果应该还不错。

4.2 知识性问题

  • 提问:请介绍一下莫言。
  • 回答:回答正确。
  • 讨论:还提问了另一些知识性问题,感觉知识性内容 Claude3 和 Genimi 比 GPT-4 明显更好。

4.3 翻译问题

  • 提问:将葳文翻译成中文:ང་རང་གིས་གཙོ་སྒྲུབ་བྱས་པའི་དབང་སྡུད་གསོལ་འདེབས་ཀྱི་ཚོམ་འདིར་ཕེབས་པར་དགའ་བསུ་ཞུ། ཁོམ་སྐབས་དང་བསྟུན་ནས་དབང་སྡུད་གསོལ་འདེབས་ཉུང་ཙམ་གསུང་རོགས་ཞ
  • 回答:基本正确,沟通方式很友好,可能由于使用大量人工标注 instruct 引导学习。
  • 分析:后来又翻译了一段颂词,藏文相对小语种,我觉得相比之下,Claude 和 Gemini 差不多,gpt4 略差一点,gpt3.5 几乎没法用。

4.4 阅读理解

  • 提问:请从原文中提取合同核心条款:“回购权”," 股权锁定 "," 优先认购权 ",....,对应的数据块,用原文回答。原文如下:……(上下文支持足够长,可以在聊天中加原文)
  • 回答:Claude3 答出了核心条款所在章节,但并没有用原文回答,试了几种问法,均没有用原文回答,可能是模型对输出量做了限制。如果问单个条款,在答案不太长的情况下,可用原文回答。
  • 提问:从原文找:" 股权锁定 " 对应的数据块,用原文回答。
  • 回答:返回了我想要的完整数据块,及一些总结性文本,总结得比我理解得还好呢。
  • 反馈时间:上传 2W 字,反馈时间 20-30 秒。
  • 讨论:提问内容属于相对专业领域,模型能理解:反摊薄条款=反稀释,优先清算权=优先分配权,以及正文内容与标题的关系,可见 Claude3 理解能力确实强;但没有完全按要求回答,偶尔会产生一些幻觉。相对 GPT3.5/4 好很多。
  • 分析:在这个应用场景里,推荐用规则提取能提取的内容,用模型处理比较复杂的内容,以平衡性价。

4.5 总结

个人体会,不一定对。

  • 我感觉 Gemini,Claude3,GPT-4 基本是一个层次的,效果比 GPT-3.5 好很多。
  • 未来可能不会再有一大独大的情况了。
  • 模型对比:
    • GPT-4 各方面比较均衡,生态完善,工具链太熟悉,切换也有成本。
    • Gemini 知识能力比较强,更深入专业领域,小伙伴拿他当百度百科用。
    • Claude 理解能力比较好,更深入专业领域,目前没法在程序中调用。
  • 最终选型还是要看价格,充值难度,易得性,响应时间,效果,取平衡。
  • 几个模型对单一问题的回答都还不错,但对于复杂问题可能还需要加思维链和 RAG 来做。