论文阅读_GPT4_4V

英文名称: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)
中文名称: LMM 的黎明：GPT-4V 的初步探索
文章: http://arxiv.org/abs/2309.17421
中文翻译：https://mp.weixin.qq.com/s/a8Y_yU5XYgJhQ2xMuTK13w
作者: Zhengyuan Yang
日期: 2023-09-29

1 读后感

GPT-4V 是基于 SOTA LLM 并使用大量多模态数据训练的最先进的具有视觉能力的 LMM。

论文是 2023 年 9 月 29 日微软发布 GPT-4V（视觉）的研究报告。主要讨论了多模态及其在各场景中的应用。文章不涉及公式及具体实现方法，整体偏重经验和测试，看了之后可以少走一些弯路。文章 166 页，近 3W 字，124 张图片，乍一看觉得挺长的，不过实验挺丰富挺有意思的，有点像在飞机上翻杂志的感觉。

整个文章看下来，感觉就像是培养一个机器 " 人 "，从底层的视觉和文本能力，推理能力，智商情商，到后面的与物理世界交互，解决具体问题的能力。虽然还不是很完美，但文档让我们对它的能力有一个大概的定位和评估。

我个人比较喜欢 3.4 节和 9 章。3.4 节涉及一些较为复杂的使用场景，Zero-shot 问题，以及多步推理问题，在不改变网络参数的情况下，如何通过少量示例让模型正常工作。有点像构建人的思考能力：通过构建底层的学习逻辑，让模型从死记硬背到举一返三。第 9 章讨论模型的具体应用，以及与现有技术结合的方法。整体看来，虽然目前模型还不能做到完全自动，但可以实现很多辅助工作，且在各个领域都有许多可以深入发展的工作机会。

（阅读时请注意 LMMs 与 LLMs 的区别）

2 模型输入

仅文本输入
图像文本对
交错的图像文本，如混合图像的网页

3 工作模式及提示技巧

文本引导：列举了一些引导模型做出正常回答的提示，以及对回答格式的限制（如 json 串）
视觉参考提示：在交互中提示模型，更关注图片中的哪些部分
文本 + 视觉提示：合并上述两种方法，以及让模型通过示例学习
上下文中的小样本学习：通过上下文示例，不调整模型参数，让模型通过少样本学习

4 视觉语言能力

不同领域的图像描述，如：人物描述，地标识别，食物识别，医学图像（识别常见问题），标志识别（复杂场景），反事实示例（识别误导）。
对象定位、计数和密集字幕，如：空间关系，计数，对象定位（边界框），密集字幕（对图中各区域生成标注），目前在复杂场景里还有一定问题。
多模式知识和常识，如：解释笑话和梗图，科学知识（包括地理、物理、生物和地球科学），多模态常识（识别人及场景，视觉线索）。
场景文本，表格，图表和文档推理，如：试卷，海报，图表，图示，流程图，公式，平面图等，展示了模型识别和推理的能力。未来还需要探索更高级的提示技术，如逐步思考或采用更少的上下文范围，可能会提高模型的性能。
多语言多模态理解：使用各种语言提问和回答，多文化理解能力（文化的差异）。
视觉编码能力：为方程编写代码。

5 人机交互：视觉参考提示

模型只关注提示区域，并参考全图作为上下文。
视觉指示提示：模型理解人在图像上绘制的标记（提示和文本）。
模型生成视觉输出（在图像上生成视觉标记）。

6 时间序列和视频理解

多图像序列：除了对象和场景，还可识别视频帧变化中的关系。
视频理解：
- 时间排序：识别时间前后和因果关系
- 时间预期：通过已知的时间序列，预测未来事件和步骤；支持长短期预测
- 时间定位和推理：预测因果关系，如预测球和守门员的动作
用提示来提升模型对时间的理解，如：指定区域内的人或事件

7 抽象视频推理和智力测试

抽象视觉符号描述，如：将七巧板图形识别成有意义的图像
发现和关联部件和对象：理解整体与部分的关系
IQ 测试，如：韦氏成人智力量表，雷文推理矩阵

8. 情商测试

同理心和情商

从面部表情中识别和读取人类的情感
理解不同的视觉内容如何引起情感，以及理解审美
根据情感生成适当的文本输出

9. 新兴应用亮点

图像找不同
行业：缺陷检测（能识别常见问题），安全检查（工地安全法规），杂货结帐（不用扫条码识别物体，及通过商品目录提升效果）。
医疗：根据图片生成报告（有一定误差，可作为初步结果和模板）
汽车保险：损害评估和生成保险报告。
定制化：识别家庭成员，生成标题，图像搜索。
密集标注与分隔：识别图中对象，生成标注。
图像生成：评估图像美学水平，评估文图一致性，为生成图像写提示。
具体化智能体：指导智能体 Agent 与真实世界交互，如识别咖啡机按钮，室内导航。
计算机 GUI 导航：通过对屏幕截图，模型预测及与计算机通过鼠标交互操作 UI，在没有人参与的情况下自动化“人机交互”过程。实现阅读新闻，打印食谱等操作，处理消息，推荐应用……

10. LLMs 增强智能体

讨论可能的未来研究方向，将应用扩展到多模态场景，使用的新能力。

多模态插件，如：有效利用多模态的实时信息。
多模态链，如：一组多模态插件集成使用，提升了只基于语言的交互。
自我反思，促进手动修正。
自我一致性，通过投票改进推理。
检索增强，通过检索和整合相关信息加入提示，以增强文本生成，多用于专业领域。