开源项目_大海捞针测试
1 大海捞针测试 NeedleInAHaystack
- 项目地址:https://github.com/gkamradt/LLMTest_NeedleInAHaystack
- 功能:测试长上下文 LLMs 的上下文检索能力。
- 中文介绍:https://www.zhihu.com/question/624512303
2 原理
- 将一个随机的事实或陈述(“针”)放在一个长上下文窗口(“大海捞针”)的中间
- 要求模型检索此语句
- 遍历各种文档深度(指针放置位置)和上下文长度以衡量性能
3 多针检索加推理测试
- 评测需要检索多个事实并在此基础上进行推理的应用。
- 主要结果:
- 当要求模型检索更多的事实时,其性能会下降。
- 当模型需要对检索到的事实进行推理时,性能也会下降。
- 随着提供给模型的上下文信息量的增加,性能也会下降;随着上下文长度的增加,模型在文档开头的检索失败。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.