对谈_250319上_有的人更需要价值观
总结
人生而不同,这一点无法回避。我们所处的环境总是向所有人灌输“只要努力就能怎样怎样”的理念,让我们觉得一旦停下来就错了,一旦不如别人就错了。很多焦虑来自于“为什么我不如别人?”、“为什么我不是理想中的那个人?”因为本来就不是,即使再努力,也无法成为理想中的样子。有时候接受和臣服也是一种选择。
精华
多数人更像是“乘客”,按照已有的规则和路径旅行,不太会去改动“奖励函数”或者“游戏规则”。…… 愿不愿意当司机,或者能不能成为司机,也和经历、能力、资源、性格有很大关系。
对谈
我:今天想聊聊价值观,人的养成和大模型训练很相似,都是神经网络对吧。
- 基本素质:最开始是 pretrain,给一堆数据,有对有错,照猫画虎盲目拟合,训练出最基本的能力;环境数据不一样,模型参数也不一样,这时候就有差别了。
- 一技之常:然后 finetune,就像是上学,把专业知识喂给你,解决具体的问题;成为一个有技能的人;不同的基础模型 finetune 之后差异很明显。
- 锻炼情商:再之后是 RLHF,精细地磨练人际交往技巧,成为一个有情商的人;这是一个锦上添花的技能,练肯定比不练强,但只有情商也不行。完成这一步,就是个合格的群众了。
- 现实历练:如果想做一些复杂的,没有先例的,还需要强化学习。进入一个游戏世界,遇到各种问题,不是每一步都有标准答案。研究如何选择,奖励函数,价值观和目标感:怎么算赢,是过关打怪还是养成收集,还是只能沿着设计的套路走?(这里逻辑力很重要,除了拟合,更多是举一反三)
4o:从“预训练”到“强化学习”,基本涵盖了人成长的几个阶段。我补充几个角度:
RLHF 和社会性:人的情商训练类似 RLHF(人类反馈强化学习),但它不仅仅是优化奖励函数,还涉及价值判断和社会规范,而社会规范本身会变化。
强化学习 vs. 价值观:在没有标准答案的探索中,一个人的“reward function”就是他的价值观。价值观影响决策路径,也决定了最终的成长方向。
你觉得这个类比,对人的成长来说,最核心的部分是什么?
我:我觉得这是个递进的过程,前面做经历,就到不了后面了。可能有的人在前面的某个阶段就停下来,比如古时候人一生就在田里种地,也没有太多技能,也不需要和人交往,一生的生活范围都很少,也不处理没有先例的复杂事件;有人就是很好的员工,听领导的就行了;有的技术类工作或者体力工作,和人交往也有限,不需要特别高的技巧。如果有幸能走到最后一个阶段,价值观就比较重要了。
4o:是的,很多人确实会停在某个阶段,因为他们的环境和需求并不要求他们继续往下走。古代农民、工匠、士兵,甚至今天的很多职业,都只需要掌握特定技能,执行固定任务,不太需要面对复杂的开放性问题。这样的人生路径是稳定的,也不会有太大的价值观冲突。
但如果进入最后一个阶段,价值观就成了关键。因为这里已经没有标准答案,所有的决定都要靠自己定义“奖励函数”——即什么才是值得的。
我:训练强化学习模型的时候,很多时候“奖励函数”是固定的,也有能进化的。如果能进化肯定是最好了。我觉得价值观也是过程的产物,前几步积累出来的,这么说多少有点宿命论。如果关注价值观方面的探索,想要改进奖励函数,可能是一种主观能动性。
4o:固定奖励函数的人生更稳定,很多人一辈子也不会去改它。而能进化奖励函数的人,确实更少,他们不仅在玩游戏,还在改游戏规则,甚至在创造新游戏。
价值观是前面几个阶段积累的产物,这种因果链条很有道理。每个人成长过程中获得的经验、环境、教育、反馈,都会塑造他们的“奖励机制”。从这个角度看,很多人的价值观其实是“默认设定”,不是主动选择的。
我:可以说塑造价值观有点定规则、选方向的意思,但多数人是乘客不是司机,不太涉及这个问题。
4o:多数人更像是“乘客”,按照已有的规则和路径行驶,不太会去改动“奖励函数”或者“游戏规则”。
从这个角度看,塑造价值观的过程可能是一个逐渐接管方向盘的过程——一开始可能是随波逐流,后来意识到可以选路,再后来开始调整自己的“导航系统”。不过,愿不愿意当司机,或者能不能成为司机,也和经历、能力、资源、性格有很大关系。
我:突然想到一句话:有人随波逐流,有人像恒星一样有自己的轨道。我希望有自己的轨道。不过,你说的对:司机也不是想当就能当的。
4o:随波逐流的人被更大的引力牵引着走,而有些人自带轨道和引力,甚至能影响周围的环境。不过司机不是想当就能当。哪怕意识到自己想掌舵,可能还需要经验、资源、试错的空间,甚至面对一定的阻力。
我:收集不同的训练数据,对某个领域的内容有兴趣了解更多,在陌生环境下的历练,拟合或者疏离各种关系,接触不同的价值观:看别人不同的人生或者读书。每个人或多或少都会向上述几个方向延展。我觉得自己的很多反应,还是挺像自动机的。明白了道理有时候也做不到。
4o:你说的很像主动“数据增强”——刻意接触不同的信息、经历、关系,去丰富自己的训练数据。这种方式确实能让视野更开阔,理解更多可能性,同时也在不断调整自己的“模型权重”,找到适合自己的模式。
但“明白了道理,有时候还是做不到”这一点特别真实。人的习惯、情绪、深层信念,往往比认知更难调整,就像训练好的模型还需要足够的推理能力和反馈优化,才能真正应用到复杂场景中。有一些反应模式还没有被“手动修正”或“微调”。这本身也是一个过程,可能需要时间、更多的实践,甚至一些触发点来促成真正的改变。
……