1 大海捞针测试 NeedleInAHaystack

  • 项目地址:https://github.com/gkamradt/LLMTest_NeedleInAHaystack
  • 功能:测试长上下文 LLMs 的上下文检索能力。
  • 中文介绍:https://www.zhihu.com/question/624512303

2 原理

  • 将一个随机的事实或陈述(“针”)放在一个长上下文窗口(“大海捞针”)的中间
  • 要求模型检索此语句
  • 遍历各种文档深度(指针放置位置)和上下文长度以衡量性能

3 多针检索加推理测试

  • 评测需要检索多个事实并在此基础上进行推理的应用。
  • 主要结果:
    • 当要求模型检索更多的事实时,其性能会下降。
    • 当模型需要对检索到的事实进行推理时,性能也会下降。
    • 随着提供给模型的上下文信息量的增加,性能也会下降;随着上下文长度的增加,模型在文档开头的检索失败。
|500