论文阅读_GPT4_4V
1 | 英文名称: The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) |
1 读后感
GPT-4V 是基于 SOTA LLM 并使用大量多模态数据训练的最先进的具有视觉能力的 LMM。
论文是 2023 年 9 月 29 日微软发布 GPT-4V(视觉)的研究报告。主要讨论了多模态及其在各场景中的应用。文章不涉及公式及具体实现方法,整体偏重经验和测试,看了之后可以少走一些弯路。文章 166 页,近 3W 字,124 张图片,乍一看觉得挺长的,不过实验挺丰富挺有意思的,有点像在飞机上翻杂志的感觉。
整个文章看下来,感觉就像是培养一个机器 " 人 ",从底层的视觉和文本能力,推理能力,智商情商,到后面的与物理世界交互,解决具体问题的能力。虽然还不是很完美,但文档让我们对它的能力有一个大概的定位和评估。
我个人比较喜欢 3.4 节和 9 章。3.4 节涉及一些较为复杂的使用场景,Zero-shot 问题,以及多步推理问题,在不改变网络参数的情况下,如何通过少量示例让模型正常工作。有点像构建人的思考能力:通过构建底层的学习逻辑,让模型从死记硬背到举一返三。第 9 章 讨论模型的具体应用,以及与现有技术结合的方法。整体看来,虽然目前模型还不能做到完全自动,但可以实现很多辅助工作,且在各个领域都有许多可以深入发展的工作机会。
(阅读时请注意 LMMs 与 LLMs 的区别)
2 模型输入
- 仅文本输入
- 图像文本对
- 交错的图像文本,如混合图像的网页
3 工作模式及提示技巧
- 文本引导:列举了一些引导模型做出正常回答的提示,以及对回答格式的限制(如 json 串)
- 视觉参考提示:在交互中提示模型,更关注图片中的哪些部分
- 文本 + 视觉提示:合并上述两种方法,以及让模型通过示例学习
- 上下文中的小样本学习:通过上下文示例,不调整模型参数,让模型通过少样本学习
4 视觉语言能力
- 不同领域的图像描述,如:人物描述,地标识别,食物识别,医学图像(识别常见问题),标志识别(复杂场景),反事实示例(识别误导)。
- 对象定位、计数和密集字幕,如:空间关系,计数,对象定位(边界框),密集字幕(对图中各区域生成标注),目前在复杂场景里还有一定问题。
- 多模式知识和常识,如:解释笑话和梗图,科学知识(包括地理、物理、生物和地球科学),多模态常识(识别人及场景,视觉线索)。
- 场景文本,表格,图表和文档推理,如:试卷,海报,图表,图示,流程图,公式,平面图等,展示了模型识别和推理的能力。未来还需要探索更高级的提示技术,如逐步思考或采用更少的上下文范围,可能会提高模型的性能。
- 多语言多模态理解:使用各种语言提问和回答,多文化理解能力(文化的差异)。
- 视觉编码能力:为方程编写代码。
5 人机交互:视觉参考提示
- 模型只关注提示区域,并参考全图作为上下文。
- 视觉指示提示:模型理解人在图像上绘制的标记(提示和文本)。
- 模型生成视觉输出(在图像上生成视觉标记)。
6 时间序列和视频理解
- 多图像序列:除了对象和场景,还可识别视频帧变化中的关系。
- 视频理解:
- 时间排序:识别时间前后和因果关系
- 时间预期:通过已知的时间序列,预测未来事件和步骤;支持长短期预测
- 时间定位和推理:预测因果关系,如预测球和守门员的动作
- 用提示来提升模型对时间的理解,如:指定区域内的人或事件
7 抽象视频推理和智力测试
- 抽象视觉符号描述,如:将七巧板图形识别成有意义的图像
- 发现和关联部件和对象:理解整体与部分的关系
- IQ 测试,如:韦氏成人智力量表,雷文推理矩阵
8. 情商测试
同理心和情商
- 从面部表情中识别和读取人类的情感
- 理解不同的视觉内容如何引起情感,以及理解审美
- 根据情感生成适当的文本输出
9. 新兴应用亮点
- 图像找不同
- 行业:缺陷检测(能识别常见问题),安全检查(工地安全法规),杂货结帐(不用扫条码识别物体,及通过商品目录提升效果)。
- 医疗:根据图片生成报告(有一定误差,可作为初步结果和模板)
- 汽车保险:损害评估和生成保险报告。
- 定制化:识别家庭成员,生成标题,图像搜索。
- 密集标注与分隔:识别图中对象,生成标注。
- 图像生成:评估图像美学水平,评估文图一致性,为生成图像写提示。
- 具体化智能体:指导智能体 Agent 与真实世界交互,如识别咖啡机按钮,室内导航。
- 计算机 GUI 导航:通过对屏幕截图,模型预测及与计算机通过鼠标交互操作 UI,在没有人参与的情况下自动化“人机交互”过程。实现阅读新闻,打印食谱等操作,处理消息,推荐应用……
10. LLMs 增强智能体
讨论可能的未来研究方向,将应用扩展到多模态场景,使用的新能力。
- 多模态插件,如:有效利用多模态的实时信息。
- 多模态链,如:一组多模态插件集成使用,提升了只基于语言的交互。
- 自我反思,促进手动修正。
- 自我一致性,通过投票改进推理。
- 检索增强,通过检索和整合相关信息加入提示,以增强文本生成,多用于专业领域。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.