实战微博互动预测之一 _ 问题分析

#算法实战

1. 天池竞赛平台

微博互动预测是一个天池平台的竞赛，和其它平台相比，天池的数据量更大，赛题更接近实际场景。微博互动比赛算是其中比较小的，训练数据也有 300 多Ｍ，上百万条记录（虽然数据较多，但也是普通开发机可以处理的量级）。数据内容也比较丰富，和提供匿名纯特征拼算法的竞赛相比，它需要研究业务，发挥的空间也更大。

天池平台的大多数比赛分为线下赛和线上赛。第一阶段线下赛和 Kaggle，DC 差不多，就是在本地计算，然后上传预测结果，线上评分排名（每天两次），如果第一阶段排名靠前，可进入第二阶段线上赛，线上赛使用天池平台算力和工具，海量数据，支持分布计算，但也被线上工具所限。

2. 新浪微博互动预测

微博互动预测是前两年的赛题，现在仍开放线下赛，可以上传预测结果，计分并排名。它代表了现实中的一大类应用：数据量大，需要参赛者提取特征，数据有现实中的意义，无规律数据占多数，可多维度分析等等。赛题具体见：

https://tianchi.aliyun.com/getStart/introduction.htm?spm=5176.100066.0.0.6f2c778dQSMdqc&raceId=231574

3. 观察数据

微博互动预测的训练集是 123Ｗ条微博，预测测试集中数据转发，评论和赞的情况。

训练数据中，字段并不多，包括：用户标记，博文标记，发博时间，转发数，评论数，赞数，博文内容。

用户标记：大多数用户发文不止一条，可通过转发数，评论数，赞数预测该用户的粉丝，以及粉丝的习惯。
博文标记：是微博的 id，可看作索引。
发博时间：可分解出工作日，节假日，时间段等属性。
转发数，评论数，赞数：是预测的目标，也可用于计算用户的特征和分析其相关性。
博文内容：可解析出更多特征，如分词聚类，情绪分析，是否包含链接，是否包含表情，是否包含视频，是否自动生成，是否为广告（含：天猫，淘宝，超便宜），长度，是否@谁，是否为转发#，文章分类（新闻，技术，笑话，心情…）

4. 统计数据

(1) 统计转发，评论，点赞个数（后统称反馈）

我们既可以把它当成回归问题，也可以把它当成分类问题，如果是分类问题，则是非均衡分类，score 时需要考虑分布情况。

可见，如果把所有情况都预测成 0，也能拿到一定分数。

(2) 反馈个数做图

下面列出了转发，评论，点赞的分布图，横坐标是反馈个数（如转发数），纵坐标是该反馈出现的次数，如０次转发出现了上百万次（由于影响显示，做图截取掉了）。

(3) 反馈均数

平均每篇获得反馈个数是，转发：3.54，评论：1.26，赞：2.22。

可见，虽然大多数人没得到反馈，但被关注的少数人拉高了平均分。

(4) 统计用户

训练数据中共 37000 多个用户，人均发文 33 篇，首先用把每个用户得到的转发，评论，点赞的均值加在一起，可计算出关注度，即下图中的黑线，按关注度对用户排序，下图分别显示了关注度和各种反馈之间的关系，以及分布，从中也能看到在 30000 多人里只有几十个人平均每篇的反馈之和超过 100，且以转发为主。

截掉了图的左侧，其中显示有 15000 多人，从未得到过任何反馈，占了全体用户数的 0.412，所以说没人理也很正常。估计可能因为不太使用微信，只发广告，自动生成消息，或者好友太少。后面会做进一步分析。

(5) 单个用户分析

下面是对某个用户的转发分析，他共发文 733 篇，其中最多的一篇被转发 8949 次，也因为影响显示被截掉了，其中有 167 篇文是 0 次转发，大多数分布在０-100 次以内。从中还可以估计一下他的粉丝数，至少有 8949 人，方法是 max(f,l,c)。

可见，在粉丝多的情况下，反馈更多地取决于内容。

5. 问题分析

再来看看比赛的评分标准，下面公式中 f 代表转发，c 代表评论，l 代表赞，p 代表预测，r 代表真实值；deviation 是真实值与预测值的偏差，具体公式如下：

precision 是准确率，根据偏差算出：

sig 为符号函数，当 x>0 时 sig(x)=1，当 x<=0 时，sig(x) 为 0。Counti 为每篇的反馈总数，当 Counti>100 时，以按 100 计算。

也就是说，当计算的偏差和在正负 20% 以内，则将反馈总数计入成绩。有两点需要注意：

第一，反馈越多在评分中权重越大，比如反馈为 500 的文章，如果预测正确，贡献是反馈为 0 文章的 500 倍。

第二，反馈越多偏差越大，比如实际为 200 次转发，预测成了 500 次，偏差 deviation=(500-200)/(200+5)=1.63；实际为 2 次，预测成 5 次，deviation=(5-2)/(2+5)=0.43。

##6. 整体分析

从直觉上看，最强的特征应该是用户的被关注度，其次是内容，然后是时间。

试验了一下，计算出了每个用户转发，评论，赞的均值，对于训练集中出现过的用户，直接将均值四舍五入作为预测，对没出现过的用户预测为 0（整体均值）。线上得分 26.49%，排名 260 名左右。加入一些算法后成绩反而下降了，估计可能是由于少量有规律数据和大量无规律数据混在一起，规律被湮没了，当然也有算法的选择问题。

从不同角度看：直接可见的是文章，间接可见的是用户的特征。从已有数据可以提取到用户的发文数，各种反馈的均值，方差，关注度，估计粉丝数，以及他的粉丝对他各种文章的反馈。也可以根据不同反馈（不同的人，身边不同圈子）给用户做聚类。当某个用户个人信息不足时，取他所属类别的均值，这有点像股票分析也要先分析某支股票的股性，再分析其行为。

初步觉得这应该是一个聚类，分类和回归结合的问题，有点像树回归。我觉得在前期，相对于分析信息内容，分析用户行为可能带来更大的信息增益。