论文阅读_Visual_ChatGPT

name_ch: Visual Chatgpt：使用可视化基础模型进行交谈、绘图和编辑

name_en: Visual ChatGPT：Talking, Drawing and Editing with Visual Foundation Models

paper_addr: http://arxiv.org/abs/2303.04671

code: https://github.com/microsoft/visual-chatgpt

date_publish: 2023-03-08

读后感

在 ChatGPT 和图像构建方法间做了桥接，和其它模型相比，除了利用大语言模型中的知识，还利用了 ChatGPT 强化学习带来的能力，是一个结合已有技术的一个优雅示例。

本文将 CoT 的潜力扩展到大规模任务，包括但不限于文本生成高清图像、图像到图像的翻译、图像到文本的生成等。CoT 指的是 Chain-of-Thought 思想链，主要指模型的多步推理能力，以解决更为复杂的问题。

主要对聊天的场景进行优化，在提示上作文章。即：在 ChatGPT 外边包了一层，这也是当前最常见的用法。文章偏工程化的具体实现。

主要实现：

提供了如下功能：

文章贡献：

全文唯一公式：

i：i 轮对话

j：解决复杂问题时，回答可能拆解成多步，j 表示每一步

P：系统性提示

F：虚拟函数模块，F={f1,f2,...fN}，它包含一组各有输入输出的决策函数。

H：前几轮的对话 s 历史

Q：表示人机对话中第 i 轮对话中的问题，它可以包含图片和文本

R：解决复杂问题时，前 j 个步骤的结果

A：人机对话中第 i 轮对话中的答案，回答支持多种格式混合

M：提示管理器（核心功能），将图像等信息转换成 ChatGPT 能识别的文本；

其核心过程主要分为以下四步：

生成 ChatGPT 能明白的语义

更好地与图像工具结合，常见的两种应用是：生成/编辑图片，根据图片回答问题。

用户输入可能是文本或者图片。

处理 VFM 产生的图像，并在 VFM 和 ChatGPT 间交互，最终生成可以反馈给用户的数据。

实验使用 ChatGPT (OpenAI “text-davinci-003” version)。