大数据竞赛平台——Kaggle 入门

#算法实战

在学习了一些数据挖掘和机器学习的算法之后，需要积累实际开发经验。在实践的过程中不仅需要自己摸索，还需要向牛人学习和请教。Kaggle 就提供这样的数据平台，企业或者研究者可以将数据、问题描述、期望的指标发布到 Kaggle 上，开发者其数据下载到本地，分析，处理后将结果上传，Kaggle 将结果排名显示，有的比赛设有资金。Kaggle 还有活跃的讨论区，供大家交流。

如何使用 Kaggle

我们先来看看，Kaggle 的具体使用方法。在竞赛界面中 https://www.kaggle.com/competitions，可看到比赛分类：Getting Start，Playground，Featured，Research 等（用不同颜色区分）．建议初学者从 Getting Start 级别开始，在这个级别上可以看到更多的教程和代码分享，题目也比较简单，适合入门．

以参赛队最多的 Tinanic 沉船问题为例．https://www.kaggle.com/c/titanic．它的目标是预测乘客是否幸存．

界面中提供了问题描述（Overview），数据下载（Data），示例代码（Kernels），讨论区（Discussion），排行榜（Leaderboard），和规则（Rules）．

数据一般是 csv 格式，它提供了含用条件和结果是训练样本（train.csv），只有条件没有结果的测试样本（test.csv），开发者用训练样本训练出模型，并对测试样本进行预测，预测的结果根据格式要求（gender_submission.csv）保存成文件，上传到 Kaggle 网站，网站给预测结果评分并排名。

Kernels 中有开发者共享的解题思路和代码，大多数是用 Python 或Ｒ语言实现的。

例如 Omar El Gabry 的 A Journey through Titanic 就是一个很好教程，它包含了读取数据，处理数据，导出结果的整个过程。用 seaborn 库图形化分析各个属性（见下图），使用 sklearn 库作为数据挖掘工具。其中有对数值类属性均值和标准差的计算，对枚举类属性的拆分/组合，处理各种缺失值，以及用人类常识调整特征，比如将父母兄弟配偶统一归入家庭关系，将 16 岁以下的男女统一归类为儿童等等，还计算了每个属性和结果的相关系数，是一个非常好的特征工程入门范例。在算法方面，它使用了 sklearn 提供的逻辑回归，SVM，随机森林，最近邻，朴素贝叶斯等方法训练。

训练之后开发者可通过 Submit Predictions 上传自己的预测结果（注意 Submit Predictions 按钮登录后才显示），就可以看到排名了。

这里提供了大量的数据，我们可以借此尝试求解各种类型的问题，同时参考他人的经验分享，快速提高实践能力。当再拿到一份新数据时，至少有一个思路。

为什么用 Kaggle

在网上看过一篇文章，题目大概是《Kaggle 对找工作有什么好处》，其中的答案是“没有”，因为初学者很难在 Kaggle 中拿到名次，参与程度可深可浅，无法通过它判断你的水平。我觉得 Kaggle 不是一个贴标签的东西，可以把它作为练习的场地，以及和高手学习机会。

我们之前看到的书基本都是一个算法，一个算法的讲，当学习了一些算法之后，它们是零散的点，需要在用的过程中把这些点串起来，具体应用中有很多坑，需要自己踩一遍，和照着书打代码是完全不同的，而 Kaggle 正好给我们提供了这样的数据和评价体系。

有人说，那我也可以自己拿爬虫抓数据啊，而且我可以找我更有兴趣的数据来做．对于自己找的数据，当对预测结果满意的时候，很难判断到底是数据本身的信息量不够，还是算法不好．Kaggle 上是很多人同时比赛，只要拿自己的成绩和 Top1 的比一比，就能判断是什么问题了，而且很多人会在 Kernels 中公布算法，在 Discussion 中讨论，我们也可以在其中提出自己的问题。最重要的是这个过程中，你和他们在思考同一个问题，这种学习即不是填压式的，又可以给你引导。如果能够做到排名靠前就更好了。

Kaggle 遇到的问题

使用 Kaggle 中遇到的最大问题连不上外网，比如：注册后，在邮箱中点击激活时，出现＂You did not enter the correct captcha response. Please try again＂，这是由于连接 google 失败导致的。不过只有在注册，下载，上传文件时需要连接外网。

现在访问外网越来越难了，建议买一些收费的流量（注册激活用不了一两兆），有的工具第一次注册会送你几百兆流量．比较麻烦的是 Kaggle 的数据都是存在 google storage 上的，所以下数据时也要连外网．不过像上例中的纯文本数据，也用不了几百 K.

实战大数据竞赛平台——Kaggle入门

大数据竞赛平台——Kaggle 入门

如何使用 Kaggle

为什么用 Kaggle

Kaggle 遇到的问题