TF-IDF算法
随笔 _ 从《芳华》影评到 TF/IDF 算法
前两天看好多《芳华》的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的。我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好。
先说说 TF/IDF 算法,这是一种信息处理和数据挖掘的重要算法,属于统计类方法。比如说,找一篇文章的关键词,TF(词频)是某个词在这篇文章中出现的频率,频率越高越可能是关键字。IDF(逆向文件频率)是这个词出现在其它文章的频率,比如“的”字,它在任何文章都出现,因为必然不是关键字。把 TF 和 IDF 乘在一起,就是这个词在这篇文章中的重要程度。
我们对一个人的态度也往往取决于:他对大家的态度 IDF,和他对我的态度 TF。刘峰对谁都很好,因此 IDF 是一个固定值,他对所有人都好这是个加分项吗?很遗憾,看公式:
其中分子是所有人,分母是刘峰给几个人送过温暖。也就是说他送温暖的人越多,分母越大,IDF 值越低。不过也请注意 log,它把这个值影响力给降低了。比如说,他给 5 个人送过温暖,再给第 6 个人送温暖时,分母变大,IDF 降低,导致前 5 个人对他的好感度降低,不对呀?说好的“爱人者人恒爱之,敬人者人恒敬之”,于是我们的价值观受到了冲击。不过,与此同时,第 6 个人对他的好感度也增加了,而且 idf 公式里还有一个 log 降低了这种影响。
再来看 TF 的算法,分子是刘峰送的温暖,分子来自周围人所有温暖之和。
对于林丁丁来说,尽管分子很大,但分母更大,所以 tf 值并不大;而对于何小萍,分母实在是太小了,即使分子不大,tf 值也会很大。所以说女孩过于穷养,分母太小,别人稍微对她好点就以身相许了;过于富养,分母太大,看不到别人的善意,又是公主病。
最终,刘峰在每人心中的分量由下式得出。
心理价值主要源于比较,跟均值(或者基线值)的比较。这也许就是心里那杆称吧,谁也不是没良心的白眼儿狼,只是正常的心理现象。刘峰人生的不顺利,也不是一个简单的因果关系,其中有好人好报的概率问题,社会环境中的马太效应,以及他自己在关键点的选择等等,TF/IDF 只是其中一个因素。至于电影,仁者见仁,智者见智吧。