avatar
Articles
829
Tags
252
Categories
168

Yan 的杂物志_个人主页分享
Search
Python海量数据处理之_Hadoop(一)集群搭建
Created2017-12-21|2_Note0_Technic3_编程Python大数据
Python 海量数据处理之 _Hadoop(一)集群搭建 1. 说明   数据处理时,可能会遇到数千万以及上亿条数据的情况。如果一次性处理所有数据,就会遇到内存不够,计算时间太长等问题。上篇《Python 海量数据处理之 _ 单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据,这里使用的工具是 Hadoop,内容太多,分为三部分介绍,本篇是第一部分集群搭建,后两部分分别是原理和 python 调用。 2. Hadoop 简介   如果有多台用于数据计算的机器,可以使用 Hadoop 框架建立集群,统一分配布属。Hadoop 是由 Apache 基金会所开发的分布式系统基础架构,最核心的设计是:HDFS 和 MapReduce。HDFS 为数据提供了存储,MapReduce 为数据提供了计算,其中 Mapper 指的就是拆分处理,Reducer 指的就是将结果合并。和单机一样,核心也是拆分,处理,再合并。   多台机器同时处理数据,相对更复杂,需要考虑:数据共享,同步,冲突,资源分析,计算顺序,以及主控宕机等等问题。 3. Hadoop 安装   首先, ...
Python海量数据处理之_单机优化
Created2017-12-20|2_Note0_Technic3_编程Python大数据
Python 海量数据处理之 _ 单机优化 1. 说明   数据处理时,可能会遇到数千万以及上亿条数据的情况。一次处理所有数据,会遇到内存不够,计算时间太长等问题。一般的解法是:先拆分,再处理,最后将处理的结果合并(当然数据少的时候不需要这么麻烦)。本文将介绍在单机上,只使用 Python 如何处理大量数据。 2. 实例   本例是天池大数据竞赛中的“淘宝穿衣搭配”比赛,这是一个新人赛,只要注册参赛,即可下载数据。目标是根据商品信息,专家推荐,用户购物信息,计算出最佳商品组合。   本例中处理的是用户购物信息“表 1”:每条记录包含用户号 uid,商品号 mid,购物时间 time。 1234uid,mid,time4371603,8,201504188034236,8,201505166135829,8,20150405 需要统计每个用户都购买了什么物品,即生成“表 2”:记录包含用户号 uid,商品组合 mids。 123uid,mids15 "1795974,1852545,98106,654166"20 "2639977,79267" ...
Python之DataFrame数据处理
Created2017-12-18|2_Note0_Technic3_编程Python大数据
Python 之 DataFrame 数据处理 1. 说明  DataFrame 是 Pandas 库中处理表的数据结构,可看作是 python 中的类似数据库的操作,是 Python 数据挖掘中最常用的工具。下面介绍 DataFrame 的一些常用方法。 2. 遍历 1) 代码 12345678import pandas as pdimport mathdf=pd.DataFrame({'key':['a','b','c'],'data1':[1,2,3],'data2':[4,5,6]}) print(df)for idx,item in df.iterrows(): print(idx) print(item) 2) 结果 12345678910 data1 data2 key0 1 4 a1 2 5 b2 3 6 c0data1 1data2 ...
实战微博互动预测之三_xgboost答疑解惑
Created2017-12-15|2_Note0_Technic2_算法4_机器学习实战
实战微博互动预测之三 _xgboost 答疑解惑 1. 说明   前两篇完成了特征工程的相关工作:加入用户的统计特征,分析文本信息内容,并作为新特征加入了数据集。 本篇我们来看看算法,实战微博互动预测(后简称本例)的评估算法如下:   公式中 f 代表转发,c 代表评论,l 代表赞,p 代表预测,r 代表真实值;deviation 是真实值与预测值的偏差,具体公式如下: precision 是准确率,根据偏差算出: sig 为符号函数,当 x>0 时 sig(x)=1,当 x<=0 时,sig(x) 为 0。Counti 为每篇的反馈总数,当 Counti>100 时,以按 100 计算。   与大多数评估算法不同,本例中每个实例有不同权重,反馈越多实例权重越大。而我们常用的算法比如 GBDT 是根据误差迭代改进的,默认情况下各实例权重是一样的,这块儿需要单独处理一下。   具体算法还是使用 xgboost 库,之前看到的大多数关于 xgboost 的文章,要么是讲数学原理,要么是参数的中文说明,xgboost 似乎还是一个黑盒,下面就结合具体问题看看 xgboo ...
实战微博互动预测之二_中文分析
Created2017-12-12|2_Note0_Technic2_算法4_机器学习实战
实战微博互动预测之二 _ 中文分析 #算法实战 #自然语言处理 1. 说明   前篇《实战微博互动预测之一 _ 问题分析》中,已经对微博的整体反馈情况,以及单个用户的反馈做了初步的分析。本篇将从微博的信息内容中提取更多特征。   文本分析是数据分析中的常用技术,使用范围很广,比如:信息搜索,内容推荐,文章分类,内容提取等等。其核心是分析连续的文本,抽取关键数据,再进行下一步分析。 2. 文本分析 1) TF-IDF 算法  TF-IDF 是一种统计方法,TF 指词频,IDF 是逆向文件频率。TF 好理解,就是词在文章中出现的频率,出现频率高的词更可能是文章的关键词。但有些词如:“是”,“的”,“了”(即停用词)在任何文章出现频率都高,于是使用 IDF。IDF 通过总文件数目除以包含该词语之文件的数目,再将商取对数得到,它弱化了常用词的权重。TF-IDF 倾向于过滤掉常见的词语,保留重要的词语。 2) 中文分词   中文分析一般以词为单位,与英文不同的是中文的词与词之间没有空格划分,所以处理时,首先要分词。简单的方法是把所有词放在一个词典中,通过正向匹配,逆向匹配,双向匹配等方式分词,这 ...
实战微博互动预测之一_问题分析
Created2017-12-08|2_Note0_Technic2_算法4_机器学习实战
实战微博互动预测之一 _ 问题分析 #算法实战 1. 天池竞赛平台   微博互动预测是一个天池平台的竞赛,和其它平台相比,天池的数据量更大,赛题更接近实际场景。微博互动比赛算是其中比较小的,训练数据也有 300 多M,上百万条记录(虽然数据较多,但也是普通开发机可以处理的量级)。数据内容也比较丰富,和提供匿名纯特征拼算法的竞赛相比,它需要研究业务,发挥的空间也更大。   天池平台的大多数比赛分为线下赛和线上赛。第一阶段线下赛和 Kaggle,DC 差不多,就是在本地计算,然后上传预测结果,线上评分排名(每天两次),如果第一阶段排名靠前,可进入第二阶段线上赛,线上赛使用天池平台算力和工具,海量数据,支持分布计算,但也被线上工具所限。 2. 新浪微博互动预测   微博互动预测是前两年的赛题,现在仍开放线下赛,可以上传预测结果,计分并排名。它代表了现实中的一大类应用:数据量大,需要参赛者提取特征,数据有现实中的意义,无规律数据占多数,可多维度分析等等。赛题具体见: https://tianchi.aliyun.com/getStart/introduction.htm?spm=5176.10 ...
实战人品预测之三_向高手学习
Created2017-12-06|2_Note0_Technic2_算法4_机器学习实战
实战人品预测之三 _ 向高手学习   这是本系列“实战人品预测”的最后一篇:向高手学习。在之前的两篇:《实战人品预测之一 _ 国内大数据竞赛平台》和《实战人品预测之二 _ 热门模型 xgboost》中我们尝试了 DataCastle 平台的“微额借款用户人品预测大赛”,对数据不做任何处理,仅用 xgboost 模型,经过 50000 次迭代,最终得分 0.70,据说该代码最高得分可到 0.717。距比赛中的最高分 0.734 仅 0.017 之差。前 400 名得分均在 0.70 以上,这最后的差距究竟在哪?   本篇以学习冠军“不得直视本王”(后简称大王)的竞赛报告书和代码的方式,向大王致敬,同时对比自己的不足,开拓思路,学习一些书本上没有的实战技巧。   竞赛报告书原文:http://blog.csdn.net/bryan__/article/details/50977513,内附源码地址。 ##1. 思路   我们看到大多数挖掘比赛都不修改模型,甚至上来就直接代入 xgboost。参赛者的主要的工作是:特征工程,模型调参,组合模型。模型调参在上篇上已经详细说过了,本篇以介绍特征工 ...
实战人品预测之二_热门模型xgboost
Created2017-12-06|2_Note0_Technic2_算法4_机器学习实战
实战人品预测之二 _ 热门模型 xgboost 1. 介绍 有人戏称数据挖掘比赛为 GBDT 调参大赛,因为在很多比赛后期,大家都使用 GBDT 类的算法,特征类似,只有模型参数不同,模型集成方法不同,最终大家的成绩差别也很小。 上篇《实战人品预测之一 _ 国内大数据竞赛平台》,介绍 DataCastle 平台的“微额借款用户人品预测大赛”比赛规则,以及一些初步的尝试。本篇说说最终获胜的,也是 GDBT 类算法中使用频率最高的 xgboost 算法的使用和调参方法。 2. xgboost 原理 之前在《机器学习 _ 集成算法》篇(http://www.jianshu.com/p/3c8cca3e1ca2)中介绍过 GBDT 类的算法,简单回顾一下:  Boosting 算法不断地使用同一算法(比如决策树)建立新模型,而新模型分配给上一次错分样本更大的权重,最终根据按成功度加权组合得到结果。由于引入了逐步改进的思想,重要属性会被加权。 Gradient Boosting Machine(GBM)梯度提升算法是目前比较流行的数据挖掘模型,它通过求损失函数在梯度方向下降的方法,层层改进,是泛 ...
实战人品预测之一_国内大数据竞赛平台
Created2017-12-05|2_Note0_Technic2_算法4_机器学习实战
实战人品预测之一 _ 国内大数据竞赛平台 1. 竞赛平台哪家强  Kaggle 是一个很好的竞赛平台,上面大牛很多,代码分享和思路讲解也很棒,但是它的用户信息和数据全都存在 google 服务器上,虽然网页能看到,但上传下载数据需要连外网,从当前的网络情况看来,只能用 VPN,用起来实在太麻烦了。   国内的大数据竞赛平台,DataCastle 和天池也不错,也有奖金。比赛结果后,排名靠前参加答辩的选手会将答辩 PPT 分享出来,有时也会分享代码。相对来说天池的数据包含丰富的业务场景,更粘近现实情况,有的比赛还提供在计算平台。   天池和 Kaggle 都有数据科学家的排行榜,以提供展示实力的途径。 2. 选择竞赛   从时效来看,建议一开始先选择参赛队多的往期题目,最好是获胜者提供了源代的。很多比赛在结束之后仍开放提交代码并提供线上评分(没有奖金),这样边做边学,速度更快,也不会陷入某个比赛无法自拔。   从难易来看,建议从简单的开始,如果影响因素太多,难以判别哪里出了问题。最好一开始选择纯数据的。 3. 典型问题   我觉得在实践的过程中,有几类典型问题是需要常试的: 以 xgb ...
机器学习_总结篇_十大经典算法与算法选择
Created2017-11-30|2_Note0_Technic2_算法4_机器学习经典算法
机器学习 _ 总结篇 _ 十大经典算法与算法选择 一、数据挖掘十大经典算法 最近写了一些机器学习的文档,对应数据挖掘经典算法,列表如下: 1. 聚类 K-Means 《机器学习_基于距离的算法KNN与K-Means》 2. 关联 Apriori 《机器学习_规则与关联规则模型Apriori、FP-Growth》 3. 最大期望 EM 《机器学习_隐马尔可夫模型HMM》 4. 决策树 DTree 《机器学习_决策树与信息熵》 5. CART: 分类与回归树 《机器学习_用树回归方法画股票趋势线》 6. 贝叶斯 Bayes 《机器学习_统计模型之(一)贝叶斯公式》 《机器学习_统计模型之(二)贝叶斯网络》 《机器学习_统计模型之(三)朴素贝叶斯》 7. 线性回归 logistic 《机器学习_最小二乘法,线性回归与逻辑回归》 8. 集成算法 adaBoost 《机器学习_集成算法》 ####9. 支持向量机 SVM 《机器学习_SVM支持向量机》 10. PageRank (没写) 11. 其它(特征工程) 《机器学习_用SVD奇异值分解给数据降维》 《机器学习_用PCA主成分分析给数据降 ...
1…626364…83
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
829
Tags
252
Categories
168
Follow Me
Announcement
This is my Blog
Recent Post
对谈_250610_抑郁2_少年的困境2025-07-07
对谈_250610_抑郁3_边缘叛逃者2025-07-07
对谈_250616_抑郁4_不合适的目标2025-07-07
对谈_250618_抑郁5_反刍2025-07-07
对谈_250530_钻空子2025-07-07
Categories
  • 0_IMO76
    • 工作1
    • 说给一个人听75
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
        • 行动与进化12
      • 02_情绪心理16
Tags
技术 自动驾驶 论文阅读 旅游 卡片 LLM 叙事心理学 神经网络 大语言模型 概率 Pytorch 成长 知识图/知识图谱 远程桌面 抑郁 数据分析 Android Python Linux 移动开发 关系 reading 视频处理 社会学 美食 大模型 阅读/育儿 开发 关系反转 开源许可 心理 writing 知识库 焦虑 咖啡拉花 人工智能 机器学习 社会现象 职场 大模型/应用
Archives
  • July 202520
  • June 202539
  • May 202530
  • April 202516
  • March 202512
  • February 20252
  • January 20256
  • December 20242
Info
Article :
829
Total Count :
1147.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database