1
2
3
4
5
6
7
8
9

英文名称:Generative Agent Simulations of 1,000 People
中文名称:生成代理模拟1000个真人
链接: http://arxiv.org/pdf/2411.10109v1
代码: https://github.com/joonspk-research/generative_agent
作者: Joon Sung Park, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, Michael S. Bernstein
机构: 斯坦福大学,西北大学,华盛顿大学,Google DeepMind
日期:2024-11-15
正文:10页,附录资料比较多

1 摘要

  • 目标:探索模拟人类行为的通用计算代理在政策制定和社会科学中的应用潜力。
  • 方法:提出一种新的代理架构,使用大语言模型对 1052 名真实个体的生活访谈进行分析,以模拟他们的态度和行为,并测量这些代理的模拟准确性。
  • 结论:生成代理在通用社会调查中的准确率达到 85%,与参与者自身答案两周后的一致性相当,且能较好地预测人格特质和实验重复中的结果,减少了种族和意识形态群体间的准确性偏差。

2 读后感

设想你可以通过半小时的聊天来摸清某人的底细……其中很多话题都是我们经常和朋友们讨论的。

这个研究进行了超过 1000 次采访,每次包含约 6000 字的内容,持续两个小时。作者巧妙地运用了美国之声的 99 个问题,涵盖个人历史、经济状况及观点等方面。通过数据分析,使智能代理模拟受访者填写问卷,结果与受访问的问卷结果高度一致。

在这篇论文中,我对访谈数据的解读、存储和利用尤为关注。与传统方法相比,这种方法的效果如何?此外,将多学科知识融入提示的技巧也让我非常感兴趣。文中对这些问题都提供了详尽的解答。

这篇论文的正文主要聚焦于整体框架和实验结果,具体实现细节则引用于文末,补充材料里都是干货。机器人专们家步步为营,从各专业角度分析受访问的每个回答,谁经得起这么分析?

3 引言

当模拟个体组合成集体时,可以用于预测和解释许多社会现象,如经济学、社会学、组织和政治学中的跨领域机构和网络。LLM 提供了一个独特的机会,让我们能够构建一个在多种环境中准确模拟行为的架构。然而,这种方法需谨慎,以避免将代理简化为人口刻板印象。

4 实现

文章介绍了一种生成代理架构,它通过两个小时的定性访谈来模拟 1000 多个真实个体的行为。该架构结合了访谈和大型语言模型,以再现个体的态度和行为特征。

深入访谈采用预设问题和基于受访者回答的灵活后续提问,这种基础社会科学方法相较于更结构化的数据收集技术有多项优势。半结构化访谈最显著的优势是,它们给予受访者更多的自由去强调他们认为重要的内容,从而最终影响测量结果。

图 -1 展示了从招募至生成代理的流程。从美国招募了 1,052 位参与者,采用分层抽样方法,依据年龄、人口普查分区、教育、种族、性别、收入、社区、政治意识形态和性别认同进行筛选。招募后,参与者 AI 面试官进行两小时的音频面试,并随后完成调查和实验。基于每位参与者的访谈数据,为其创建生成代理。为了评估这些代理的准确性,生成代理和参与者需完成相同的调查和实验(量表)。人类参与者在两周后再次完成调查和实验。通过将代理的反应与参与者的原始反应进行比较,并结合参与者两周后自身反应的一致性,来评估代理的准确性。

每位参与者的访谈平均为 6,491 个单词(标准差为 2,541)。为简化流程,我们开发了一款使用半结构化访谈协议的 AI 访谈器。

我们采用了一套旨在广泛覆盖主题的现有访谈方案。我们选择了社会学家为“美国之声项目”设计的访谈方案,它涵盖了社会科学家感兴趣的多个话题。从参与者的生活故事(例如,“从你的童年、教育到家庭和人际关系,及重大生活事件”)到他们对当前社会问题的观点,该方案内容丰富。虽然某些问题主题与 GSS(综合社会调查)有所重叠,但并不直接涉及特定问题或涵盖人格特质及经济行为。如果能高效使用,该方案将提升研究结果。在访谈时间有限的情况下,AI 访谈员会根据每位参与者的回答动态生成后续问题。

当查询代理时,整个访谈记录将被导入模型提示中,以便模型根据其访谈数据模拟受访者。

5 验证

运用标准的社会科学测量方法对这些代理进行基准测试,评估包括四部分,参与者在访谈后完成:综合社会调查核心模块(GSS; 20)、44 项大五人格问卷(BFI-44)、五个经典行为经济学游戏(如独裁者游戏、信任游戏、公共产品游戏和囚徒困境)以及五项涉及控制和实验条件的社会科学实验。

图 -2 展示了生成代理在预测性能上的表现及其 95% 置信区间。研究表明,通过访谈获取信息可显著提升代理对 GSS 和 Big Five 的预测性能,优于文献中其他常用方法。

对比基线包含人口统计学代理和基于角色的代理。对于基于人口统计的生成代理,提取其年龄、性别、种族和政治意识形态等人口统计属性,这些属性在此前的研究中应用广泛。对于基于角色的生成代理,要求参与者在访谈后撰写一段简短的自我描述,包括个人背景、性格特点和人口统计信息,方法类似于早期工作中用于生成角色代理的材料。

即便在消融实验中随机删除了 80% 的访谈记录(相当于从 120 分钟中删除 96 分钟),基于访谈的生成代理仍比复合代理表现更佳。

通过使用 GPT-4 的提示,将访谈记录转化为关键响应的要点摘要,可生成保留事实内容的“访谈摘要”,同时去除原始语言特征。这种方法在 GSS 上的标准化准确率达到 0.83(标准差为 0.12),在 Big Five 上也显示出类似的提升。研究显示,与基于调查的方法相比,访谈对语言模型提供人类行为信息更有效且高效。

表 1.人类参与者和生成代理的复制研究结果。我们报告效应大小的 p 值(***:< 0.001,**:< 0.01,*:< 0.05)。

6 补充材料

采访脚本是一个精心设计的问题列表,每个问题都有预设的时间分配。在面试过程中,AI 面试官会逐字提问脚本中的问题。当参与者作答时,AI 面试官利用语言模型,在规定的时间内动态决定最佳的后续步骤。

采访采用了美国之声项目中采访脚本的简化版本。该项目旨在招募具有代表性的美国人口样本,进行长达三个小时的深入访谈。在平均情况下,AI 面试官在面试中说了约 5373 个词,提出了约 82 个后续问题,而参与者则平均回答了约 6491 个词。

面试官系统包括一个反思模块,能够实时综合对话内容,并生成总结性说明,以描述面试官对参与者的推断。

6.1 数据详情

表 7 中列出了所有 99 个面试问题。

题目形如

使用社会科学家专家(例如: 心理学家、行为经济学家、政治学家和人口统计学家)的角色指导反思。

提示形如

反思结果形如

心理学家:“[已编辑] 重视他的独立性,并表达了对自主性的明显偏好,特别是他喜欢出差打工,以及他对母亲过度保护的不满。这表明他们对个人自由和自决的强烈渴望。 行为经济学家:“[已编辑] 希望为轻松的假期存钱,并可能晋升到管理职位,这表明实际的财务目标与个人的休闲愿望相结合,强调平衡的生活满意度。 政治学家:“[已编辑] 自认为是共和党人,强烈支持该党的观点,尤其是在移民和毒品政策方面。然而,他也表达了对传统民主党在堕胎权和大麻合法化等问题上的立场的明确支持,这表明了意识形态的混合。 人口统计学家:“[已编辑] 是一名库存专家,每月收入在 3,000 到 5,000 美元之间,每月的家庭收入约为 7,000 美元。他主要在 Home Depots 工作,但工作时间表多种多样,这表明他有一定的工作稳定性和灵活性。