中文标题：Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods
中文名称: 大型语言模型增强强化学习调查：概念、分类和方法
链接: https://arxiv.org/pdf/2404.00282
作者: Yuji Cao, Huan Zhao, Yuheng Cheng, Ting Shu, Yue Chen, Guolong Liu, Gaoqi Liang, Junhua Zhao, Jinyue Yan, Yun Li,
机构: 香港中文大学
日期：2024-03-30
引文数量：135
长度：正文15页

来自：241011 哲明分享

摘要

目标: 提供对大型语言模型（LLMs）增强强化学习（RL）相关文献的全面综述，明确其与传统 RL 方法的对比，澄清研究范围和未来研究方向。

方法: 基于经典的代理 - 环境互动范式，提出结构化分类法，将 LLMs 在 RL 中的功能系统地划分为信息处理器、奖励设计者、决策者和生成器四个角色。逐一总结方法、分析所缓解的 RL 挑战，并提供未来研究的见解。

结果: 提出了一个用于分类 LLM 在 RL 中角色的框架，讨论了各角色间的对比分析、潜在应用、未来机遇和挑战。期望能加速 LLM 在复杂应用中的 RL 落地，如机器人技术、自动驾驶和能源系统。

读后感

这是一篇综述性论文，主要研究 LLM 帮助训练和提升强化学习模型。这篇论文从四个方面讨论了 LLM 对 RL 的加强。

提出了将表示学习与 RL 解耦，从而拆分了 LLM 和 CV 与控制决策模块；这里主要讨论使用 LLM 提升控制和决策能力，最终提升了 RL 整体能力。这里的 LLM 是用于帮助训练模型，而非用于直接决策。

1 引入

有论文提出结合语言和视觉能力的深度强化学习（RL）面临四大挑战：

样本效率低下
奖励函数设计复杂
泛化问题
自然语言理解难题

2 背景

2.1 强化学习

2.1.1 经典强化学习

图 1：经典的强化学习范式。

2.1.2 强化学习的挑战

不可见环境中的泛化：实际环境很少是静态或完全可预测的。
奖励函数设计：尤其是在稀疏奖励环境和复杂场景中，大多数设计的奖励都是次优的，可能导致意外行为。
基于模型的规划中的复合误差：模型预测中的误差不断累积，导致与最佳轨迹出现重大偏差。
多任务学习：简单任务可能掩盖对更复杂任务的学习，导致负迁移。任务之间共享参数或数据可能导致单个任务性能不佳。

2.1.3 多模态强化学习

自然语言在强化学习中的使用可以分为以下两类：

语言条件强化学习：通过自然语言与环境交互。代理在解释指令后执行动作，也可将自然语言作为状态或动作空间的一部分，用于文字游戏、对话系统等任务中，直接指导代理操作与决策。
语言辅助强化学习：通过自然语言促进学习，但不直接用于问题制定。可传达领域知识，如任务相关文本帮助代理；通过语言构建策略，用抽象指令引导代理行为，间接增强强化学习任务的执行。

2.2 大语言模型

大模型在上下文学习、推理和泛化能力方面对强化学习有帮助。

上下文学习：将与任务相关的文本作为上下文信息包含在提示中，帮助大型语言模型（LLMs）理解情况并执行指令。
指令遵循：利用以自然语言描述格式化的各种特定数据集，使 LLMs 能够理解新任务指令，并有效泛化到以前未遇到的任务。
循序渐进推理：将解决问题过程构建为顺序或分层步骤，从而促进更清晰易懂的推理路径。

3 大型语言模型经典的强化学习范式

图 2：经典代理 - 环境交互中的 LLM 增强 RL 框架，LLM 在增强 RL 中起着不同的作用。

4 信息处理者

预训练的 LLM 或视觉语言模型（VLM）具备强大的表示能力和先验知识，可以作为强化学习（RL）的信息处理者。这提高了样本效率和零样本性能，使代理能够在不同且奖励稀疏的环境中有效泛化。

4.1 特征表示提取器

预训练的 LLM 或 VLM 模型可以凭借其强大的表示能力和先验知识，作为 RL 的信息处理器，从而解耦信息处理任务和控制任务。

4.1.1 特征表示提取器

通过采用计算机视觉（CV）和自然语言处理（NLP）中的大型预训练模型，其学习到的特征表示可以作为下游网络学习的基础嵌入，提升样本效率。冻结或微调 LLM 可以为下游 RL 网络提取有意义的表示。

4.1.2 语言翻译器

LLM 能将自然语言信息翻译成强化学习模型可以理解的形式，如特征表示或任务特定语言，从而辅助 RL 代理进行学习。这包括指令信息翻译和环境信息翻译。

5 奖励设计者

图 4：LLM 作为奖励设计者。（i）隐性奖励模型：LLM 提供基于语言指令与视觉观察之间直接提示或对齐评分的奖励。（ii）显式奖励模型：LLM 为奖励函数生成可执行代码，并通过评估循环进行自我优化。

6 决策者

基于 LLM 在决策问题中的潜力，LLM 可用于：

动作生成；
动作指导：
- 操作备选项：简化动作空间，LLM 通过生成合理候选行动或专家行动来指导行动选择。
- 专家操作：基于对人类行为和常识的理解，LLM 产生高质量专家行动以规范 RL 代理解决问题。

7 生成器

LLMs 可以应用于环境模拟和行为解释。

世界模型模拟器：LLM 使用真实世界的数据和知识来模拟动态，生成模拟世界，并协助政策学习。
策略解释器：LLM 根据状态操作历史记录和提示生成代理行为的解释，这可能会导致可解释的 RL。