1
2
3
4
5
6
英文名称: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
中文名称: LMM 的黎明:GPT-4V 的初步探索
文章: http://arxiv.org/abs/2309.17421
中文翻译:https://mp.weixin.qq.com/s/a8Y_yU5XYgJhQ2xMuTK13w
作者: Zhengyuan Yang
日期: 2023-09-29

1 读后感

GPT-4V 是基于 SOTA LLM 并使用大量多模态数据训练的最先进的具有视觉能力的 LMM。

论文是 2023 年 9 月 29 日微软发布 GPT-4V(视觉)的研究报告。主要讨论了多模态及其在各场景中的应用。文章不涉及公式及具体实现方法,整体偏重经验和测试,看了之后可以少走一些弯路。文章 166 页,近 3W 字,124 张图片,乍一看觉得挺长的,不过实验挺丰富挺有意思的,有点像在飞机上翻杂志的感觉。

整个文章看下来,感觉就像是培养一个机器 " 人 ",从底层的视觉和文本能力,推理能力,智商情商,到后面的与物理世界交互,解决具体问题的能力。虽然还不是很完美,但文档让我们对它的能力有一个大概的定位和评估。

我个人比较喜欢 3.4 节和 9 章。3.4 节涉及一些较为复杂的使用场景,Zero-shot 问题,以及多步推理问题,在不改变网络参数的情况下,如何通过少量示例让模型正常工作。有点像构建人的思考能力:通过构建底层的学习逻辑,让模型从死记硬背到举一返三。第 9 章 讨论模型的具体应用,以及与现有技术结合的方法。整体看来,虽然目前模型还不能做到完全自动,但可以实现很多辅助工作,且在各个领域都有许多可以深入发展的工作机会。

(阅读时请注意 LMMs 与 LLMs 的区别)

2 模型输入

  • 仅文本输入
  • 图像文本对
  • 交错的图像文本,如混合图像的网页

3 工作模式及提示技巧

  • 文本引导:列举了一些引导模型做出正常回答的提示,以及对回答格式的限制(如 json 串)
  • 视觉参考提示:在交互中提示模型,更关注图片中的哪些部分
  • 文本 + 视觉提示:合并上述两种方法,以及让模型通过示例学习
  • 上下文中的小样本学习:通过上下文示例,不调整模型参数,让模型通过少样本学习

4 视觉语言能力

  • 不同领域的图像描述,如:人物描述,地标识别,食物识别,医学图像(识别常见问题),标志识别(复杂场景),反事实示例(识别误导)。
  • 对象定位、计数和密集字幕,如:空间关系,计数,对象定位(边界框),密集字幕(对图中各区域生成标注),目前在复杂场景里还有一定问题。
  • 多模式知识和常识,如:解释笑话和梗图,科学知识(包括地理、物理、生物和地球科学),多模态常识(识别人及场景,视觉线索)。
  • 场景文本,表格,图表和文档推理,如:试卷,海报,图表,图示,流程图,公式,平面图等,展示了模型识别和推理的能力。未来还需要探索更高级的提示技术,如逐步思考采用更少的上下文范围,可能会提高模型的性能。
  • 多语言多模态理解:使用各种语言提问和回答,多文化理解能力(文化的差异)。
  • 视觉编码能力:为方程编写代码。

5 人机交互:视觉参考提示

  • 模型只关注提示区域,并参考全图作为上下文。
  • 视觉指示提示:模型理解人在图像上绘制的标记(提示和文本)。
  • 模型生成视觉输出(在图像上生成视觉标记)。

6 时间序列和视频理解

  • 多图像序列:除了对象和场景,还可识别视频帧变化中的关系。
  • 视频理解:
    • 时间排序:识别时间前后和因果关系
    • 时间预期:通过已知的时间序列,预测未来事件和步骤;支持长短期预测
    • 时间定位和推理:预测因果关系,如预测球和守门员的动作
  • 用提示来提升模型对时间的理解,如:指定区域内的人或事件

7 抽象视频推理和智力测试

  • 抽象视觉符号描述,如:将七巧板图形识别成有意义的图像
  • 发现和关联部件和对象:理解整体与部分的关系
  • IQ 测试,如:韦氏成人智力量表,雷文推理矩阵

8. 情商测试

同理心和情商

  • 从面部表情中识别和读取人类的情感
  • 理解不同的视觉内容如何引起情感,以及理解审美
  • 根据情感生成适当的文本输出

9. 新兴应用亮点

  • 图像找不同
  • 行业:缺陷检测(能识别常见问题),安全检查(工地安全法规),杂货结帐(不用扫条码识别物体,及通过商品目录提升效果)。
  • 医疗:根据图片生成报告(有一定误差,可作为初步结果和模板)
  • 汽车保险:损害评估和生成保险报告。
  • 定制化:识别家庭成员,生成标题,图像搜索。
  • 密集标注与分隔:识别图中对象,生成标注。
  • 图像生成:评估图像美学水平,评估文图一致性,为生成图像写提示。
  • 具体化智能体:指导智能体 Agent 与真实世界交互,如识别咖啡机按钮,室内导航。
  • 计算机 GUI 导航:通过对屏幕截图,模型预测及与计算机通过鼠标交互操作 UI,在没有人参与的情况下自动化“人机交互”过程。实现阅读新闻,打印食谱等操作,处理消息,推荐应用……

10. LLMs 增强智能体

讨论可能的未来研究方向,将应用扩展到多模态场景,使用的新能力。

  • 多模态插件,如:有效利用多模态的实时信息。
  • 多模态链,如:一组多模态插件集成使用,提升了只基于语言的交互。
  • 自我反思,促进手动修正。
  • 自我一致性,通过投票改进推理。
  • 检索增强,通过检索和整合相关信息加入提示,以增强文本生成,多用于专业领域。