• 英文:Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task
  • 中文名:你的大脑在 ChatGPT 上:使用 AI 助手完成论文写作任务时认知债务的积累
  • 作者:Nataliya Kosmyna, Eugene Hauptmann, Ye Tong Yuan, Jessica Situ, Xian-Hao Liao, Ashly Vivian Beresnitzky, Iris Braunstein, Pattie Maes
  • 机构:麻省理工学院,威尔斯利学院,麻省艺术设计学院
  • 地址:https://arxiv.org/pdf/2506.08872
  • 发布时间:v1 2025.01.10,v2 2025.12.31

1 引发我的一些思考

前两天观看了一个知识型的直播,其中一个人自信地说:“我想问问大家,你们有多久没用搜索引擎了?现在是不是遇到问题都直接问 AI?”当时听着就觉得有点别扭,这样对吗?AI 给出的答案就完全正确吗?——随着像 ChatGPT 这样的工具越来越普及,是否要完全拥抱 AI 可能成为一个问题。

不得不说,AI也在一定程度上抑制和简化了一些主动思考。

这篇长达两百多页(正文约 150 页)的研究,核心用大量脑电数据证明了一点:过度依赖 AI 写作,会让我们大脑中负责深度思考、批判整合的关键“肌肉”萎缩。 并称之为“认知债务”。

但也引发了一个现实的困境:如果别人都在用 AI 写得又快又好,就我不用,这不就等于别人开车我跑步吗?AI 确实能帮我们搞定一堆繁琐的细节,省出不少脑子。理论上,从细节中解放出来后,我们有机会去培养更重要的新能力:比如快速学习一个领域、从全局看问题、提出精准的提问,以及在更广的知识背景下进行创造性的联想。

可省下来的时间和精力,我们用来干嘛了?是去琢磨更重要的问题,还是不知不觉就刷手机摸鱼去了?这本质上是对个人元认知能力的终极考验——你是否能清醒地决定“被解放后,该去何方”?

在AI提升效率的另一面,确实对我们的状态有所改变。比如在编辑过程中,我觉得使用 AI 后,反而不容易进入“心流”状态了。 可能是因为:和 AI 对话会频繁打断思路;为了理解或纠正它给出的代码,注意力很容易被带偏;而且在等待它生成结果时(尤其早期反应慢),注意力更容易涣散。这感觉挺矛盾的:自己埋头写,在时间和效果上都不是最优解;但总依赖 AI,又清晰感觉到一些原本熟练的能力和感觉又慢慢退化。也许,我们的下一代从一开始就没机会发展这些能力了。

这让我想到更根本的学习问题。我们过去是不是太看重“这道题答案对不对”、“考试排第几名”了。小球怎么从斜坡上滚下来重要吗?小球不重要,物理可能也没那么重要,重要的是锻炼 " 如何学习、如何思考、如何解决问题”。为了快点出成绩,我们可能找了太多“捷径”——比如狂刷题、让老师把知识嚼碎了喂,由他来控制节奏(现在AI部分替代了辅导班的功能,但也在做同样的事),结果恰恰错过了 “自己选择、自律、分配时间、定位问题、计划、消化、内化方法” 这个最重要的环节。

AI 普及之后,未来可能是:具体“怎么做”的技巧没那么值钱了,反正机器更擅长。但一个人知道自己想往哪儿去、能管住自己、会主动学习和提问,“自主性”会变得前所未有的重要。工具越来越聪明,我们更得想清楚,怎么当好它的主人,而不是被它异化。

2 摘要

  • 目标:探究学生在论文写作任务中,长期使用大型语言模型作为辅助工具所可能付出的认知成本,特别是对其大脑认知参与度、学习过程和成果的影响。
  • 方法:采用分组与交叉对照实验设计,将 54 名参与者分为三组(LLM 辅助组、搜索引擎组、纯大脑组),并在 4 个月中进行多次写作;运用多种测量手段,包括脑电图(EEG)记录神经活动、自然语言处理分析文本,并结合人类与 AI 评分及访谈,全面评估不同工具使用策略下的差异。
  • 结果:研究发现,外部工具支持程度与大脑神经连接强度呈负相关(纯大脑组最强,LLM 组最弱);在后续行为上,长期使用 LLM 的参与者表现出记忆回忆更差、对文章的“所有权”感更低;这些差异在工具互换后并未完全逆转,提示可能存在因长期依赖而积累的 “认知债务” 风险。

Once men turned their thinking over to machines in the hope that this would set them free. But that only permitted other men with machines to enslave them.

Frank Herbert, Dune, 1965

真正的自由,源于保持独立思考和批判的能力。放弃思考的主动权,就等于交出了自由的第一道,也是最重要的一道防线。因此,技术工具应该是思维的延伸,而非替代

3 前置知识

3.1 脑波

脑电波类型 频率范围 (Hz) 主导状态与功能 在论文中的关键发现
Delta (δ) 波 0.5 - 4 Hz 深度睡眠、无意识。身体修复与生长。 不作为分析重点,因其与清醒认知任务关联较弱。
Theta (θ) 波 4 - 8 Hz 浅睡、冥想、创造性灵感、记忆提取。与潜意识、边缘系统相关。 论文未将其作为核心指标。研究中更关注与主动思考直接相关的脑波。
Alpha (α) 波 8 - 13 Hz 放松、闭眼、大脑待机。反映皮层静息或抑制状态。 关键指标之一。研究发现 LLM 组α波活动可能增强或同步性更高,提示大脑处于更“放松”、投入度较低的状态。
Beta (β) 波 13 - 30 Hz 清醒、专注、积极思考、逻辑推理、解决问题。与额叶执行功能强相关。 最核心的指标。研究发现 LLM 组β波的功率和神经连接性显著降低,这被解释为高阶认知参与度下降的直接生理证据。
Gamma (γ) 波 30–100 Hz 高阶认知、信息整合、专注峰值。与不同脑区信息绑定有关。 核心指标。研究发现 LLM 组γ波活动也减弱,进一步支持了跨脑区信息整合与深度处理不足的结论。
  • 同时发生:四种波永远共存,只是比例随状态变化。比如专注时β波主导,但仍有α/θ/δ波作为背景。
  • 脑区差异:不同脑区有各自的“优势波”。例如,枕叶的α波最强,前额叶的β波最活跃。

论文中又将各波段进行细分检测,定义如下:Delta 带范围为 0.1-4Hz,并进一步细分为低 Delta(0.2-0.83Hz),中 Delta(0.83-2.66Hz)和高 Delta(2.66-4Hz)子带。Theta 活动包括 4-8Hz。Alpha 带覆盖 8-12Hz,低 Alpha 定义为 8-10Hz,高 Alpha 为 10-12Hz。Beta 带从 12-30Hz 延伸,细分为低 Beta(12-15Hz),中 Beta(15-18Hz)和高 Beta(18-30Hz)。

3.2 dDTF

dDTF:directed Dynamic Transfer Function,用来分析:哪个脑区在“驱动”另一个脑区,以及方向和强度。dDTF 是从 DTF 衍生的方法,专注于多变量自回归(MVAR)模型的动态拟合,以找到 EEG 频域中最有效的连接.计算得出的数据并不是对称的(意味着 A→B 不等于 B→A)。文中对所有电极对计算了 dDTF,总共 32 × 31 = 992.

3.3 心流状态

心流状态是米哈里·契克森米哈赖在《心流:最优体验心理学》中提出的概念。指人们在做某些事情时表现出的全神贯注、投入忘我的状态。这种状态下,人们甚至感觉不到时间的存在,并且在当前事情完成后产生一种充满能量并且非常满足的感受。

目前的神经科学研究普遍认为,心流是Theta 波与 Alpha 波,有时伴随 Beta 波,在特定脑区产生特定比例协同增强的结果。

4 论文研究

4.1 实验设计

实验共纳入 54 名参与者(18–39 岁,M=22.9,SD=1.69),来自大波士顿地区五所高校。按年龄与性别均衡随机分组为三组:

  • LLM 组:仅允许使用 ChatGPT;
  • 搜索引擎组:可使用搜索引擎与网站,明确禁止任何 LLM;
  • 仅大脑组(Brain-only):禁止使用任何在线或离线外部资料。

实验分 四个阶段(Session 1–4),核心任务均为限时 20 分钟论文写作 + 全程 EEG 记录 + 事后访谈。

  • Session 1–3(主实验):
    • 参与者固定在同一工具条件下(LLM / 搜索 / 仅大脑)。
    • 每一场提供 3 个 SAT 风格议论文题目,参与者任选其一;三场共 9 个不同题目。
  • Session 4(交叉验证 / 反转条件):
    • 参与者被重新分配到与原组相反的条件(如 LLM → Brain-only)。
    • 不再提供新题目,而是为每位参与者提供一个个性化题目集合:仅包含其在 Session 1–3 中自己写过的 3 个主题,从中任选一个再次写作。
    • 参与者事先不知晓分组反转与题目个性化设计。 ### 4.2 脑电分析

以下分析了在不同组中脑电的统计特征。

4.2.1 Alpha(α)波段

79 vs. 42 条显著连接,Brain-only 组表现出显著更强的前额–顶叶与颞叶语义网络连接,典型于内部注意与语义检索。LLM 组 α 连接明显减弱,暗示部分语义生成与联想被外包给工具,内部“头脑风暴”负担下降。

4.2.2 Beta(β)波段

在低β段,Brain-only 组整体连接略强,反映持续的专注与执行/运动规划参与;高β段两组更接近,但并未出现 LLM 组明显占优。整体看,无辅助写作需要更持续的认知与动作控制。

4.2.3 Delta(δ)波段

78 vs. 31 条连接,Brain-only 组在低频大尺度整合上占优,前额叶(AF3)成为汇聚枢纽,显示更强的执行监控与跨区域整合。LLM 组 δ 连接较弱,可能因思路被外部提示打断或引导,内部沉浸式整合减少。

4.2.4 Theta(θ)波段

65 vs. 29 条连接,差异最为显著:Brain-only 组前额中线驱动的 θ 连接大幅增强,典型于高工作记忆负荷与执行控制。LLM 组 θ 网络显著减弱,说明外部支架降低了内部信息维持与协调需求。

4.2.5 总结

二者的差异还表现在信息流向的改变:纯脑组显示出更多从后部(如颞叶、顶叶)指向前额叶的 “自下而上” 信息流,这反映了内在生成想法的过程。而 LLM 组则表现出更多从前额叶指向后部的 “自上而下” 信息流,这可能反映了大脑在评估和整合外部 AI 建议时的主导作用。

总体来看,无辅助写作激活了更强、更广泛的脑网络协同,尤其在 θ 与 α 波段,体现高认知负荷、强执行控制与深度内部语义/创造加工;而 LLM 辅助写作显著降低了这些连接强度,将部分计划、生成与维持的认知成本外包给工具。结果暗示一种权衡:LLM 让任务更“轻松”,但也可能减少大脑深度参与的创造性与整合性加工。

4.3 四次实验对比

图 -3,揭示了 LLM 组在四次写作过程中,大脑连接模式是如何动态变化的。大脑的“连接强度”在写哪篇论文时最强/最弱。基本都是第 4 次连接最强,第 3 次时最弱。也就是说不用 LLM 的那一次大脑更活跃。Count 记录,如 11 指在全部统计分析中,有 11 条(对)独立的、显著的大脑功能连接,其强度变化遵循了 4 > 2 > 1 > 3 这个排序模式。Significance(显著性):* 通常表示 p<0.05,**p<0.01,***p<0.001)。

在仅脑组中,激活和连接性最为显著,该组在α、θ和δ波段中始终表现出最高的总 dDTF 连接性,尤其是在颞顶和前额执行区域。其次是搜索引擎组,该组在整个大脑的总连接性上显示出约 34-48% 的降低,具体取决于频率带,尤其是在低频范围内。LLM 组显示出最少的连接性,在低频语义和监控网络中,与仅脑组相比,整体 dDTF 幅度减少了多达 55%。

5 笔记摘抄

5.1 核心发现:AI 如何重塑认知过程与大脑活动

  1. 认知过程被重组:使用 AI 不仅改变了任务表现,还重组了底层的认知结构。纯大脑组利用广泛的神经网络处理自我生成的内容,而 LLM 组则优化了对 AI 生成建议的程序性整合。搜索组偏向 α/θ(记忆提取、视觉–执行整合);LLM 组偏向 β/δ(规划与程序整合)
  2. 大脑连接性系统性减弱:大脑的神经连接强度随着外部支持的增加而系统性减少。具体表现为:纯大脑组最强最广,搜索引擎组中等,LLM 组最弱。
  3. 关键认知环节的缺失:研究指出,LLM 使用者α和β波网络的参与不足,这可能意味着他们跳过了自主构思和组织策略的关键过程。
  4. 记忆与知识内化不足:
    • LLM 组在正确引用自己刚写的内容上表现极差,表明记忆编码浅显,语义内容未被充分内化。
    • 这类似于学生依赖计算器却未内化解题过程,一旦失去工具就会遇到困难。

5.2 AI 的双面性:效率提升与潜在风险

  1. 优势:强大的认知辅助工具
    • 显著降低认知负荷:相较于传统方法(如网络搜索),LLM 能降低所有类型的认知负荷,在研究中使用户生产力提高了 60%。
    • 促进深入学习和动机:AI 可以根据反馈定制响应,实现动态澄清和更深入的主题探讨。融合游戏化元素的 AI 工具(如 Duolingo)能有效保持学习者的参与动机。
    • 改变任务焦点:用户可以将精力从信息检索中解放出来,更专注于验证或修改 AI 生成的回应。
  2. 风险:可能付出的认知与伦理成本
    • 抑制深度与批判性思维:LLM 提供的“合成单一回应”可能无意中抑制横向思维和独立判断,而传统搜索引擎鼓励的主动评估则有助于培养批判性思维。
    • 加剧“回音室”效应:LLM 为优化输出,可能倾向于提供一致信息,强化用户现有偏见,过滤掉矛盾证据。
    • 削弱创作归属感与满意度:AI 辅助撰写的文章对用户而言重要性较低、拥有感较弱,且“纯大脑”组参与者报告了更高的满意度。

5.3 个体差异:不同的人如何使用 AI

  1. 自我效能的关键影响:自我效能较低的学生在学术压力下更倾向于全面依赖 AI,可能阻碍认知技能发展;而自我效能较高的学生则更有选择性,将 AI 用作重新审视和综合信息的工具,在减轻负担的同时保持深度参与。
  2. 工具引发的不同策略:
    • 使用搜索引擎需要手动扫描和评估结果,这一过程鼓励批判性思维和主动参与。
    • 使用 LLM 则简化了检索,用户角色转向评估与整合外部建议。

5.4 教育启示:如何负责任地整合 AI

  1. 核心原则:先建立基础,再引入辅助
    • 研究支持一种推迟 AI 整合的教育模型,即让学习者先投入足够的自主认知努力,以建立坚实的神经和认知基础。
  2. 分阶段应用策略
    • 早期学习阶段:全面的、无辅助的神经参与对于发展强大的认知网络至关重要。
    • 后期熟练阶段:有选择地使用 AI 支持来处理常规部分,可以提高效率而不削弱已建立的网络。
  3. 倡导“混合策略”
    • 理想的模式是:让 AI 处理写作中常规的、程序性的部分,而确保核心的认知过程、创意生成、组织结构和关键修订由用户主导。