avatar
Articles
878
Tags
282
Categories
185

Yan 的杂物志_个人主页分享
Search
Python爬虫
Created2018-06-10|2_Note0_Technic3_编程Python网络
Python 爬虫 1. 说明   做数据挖掘常常需要抓取网页内容,有些工具能通过分析 url 中的链接,把整个网站抓下来,也就是我们常说的爬虫工具。   有时候需要把交互网页的内容抓下来,比如:在 input 框中输入想查的内容,服务器端实时计算结果,或者从数据库中查询后返回结果。像整句翻译功能,查询食物的热量等等。下面介绍 Python 用 GET 和 POST 方式抓取实时内容的方法。 2. GET 方式  GET 方式把要查询的参数放在 url 地址中,非常简单。下例用 Python 程序,查询运单信息,写法如下: 123456import urllib.request url = 'http://cha.xxx.cn/?stype=kd&q=123456'req = urllib.request.Request(url) html = urllib.request.urlopen(req).read()print(html.decode("utf8"))  GET 方式,用问号和等号“addr?key=value”的方式 ...
数据挖掘之_后处理
Created2018-06-02|2_Note0_Technic2_算法3_数据数据分析
数据挖掘之 _ 后处理   常常听说数据预处理,后处理相对少见,本篇来说说何时需要后处理,以及后处理的一些简单方法。   数据挖掘的流程一般是:输入数据 ->特征工程 ->模型训练/预测 ->导出结果。后处理是将模型预测的结果进一步处理后,再导出。   先看一个例子:比如我们网购小包装的咖啡,一般的购买习惯是,在少量购买时,需要多少买多少:一包,两包,三包;买的较多的时候,可能是六包,八包,十包;买得更多的情况下,可能是十包,十五包,二十包;再往上是三十包,四十包,五十包,一百包……以此类推。   也就是说:数量大的时候,我们可能更倾向于取整,双数,五的倍数,十的倍数等等。如果不是针对人数买的话,一般不会出现 7, 19, 113 这样的购买数量。如下图示意:横轴代表购买数量,纵轴代表该数量出现的次数。蓝色为实际购买数据,橙色为预测数据。注意本图是结果 y 的分布图。    想在模型和预测处理中优化比较困难,因为对于测试集,并不知道预测的结果是多少,于是也无法将它是否靠近 2,5,10 的倍数作为特征代入模型。 此时可使用后处理,让橙线靠近蓝线,最简单的方法是手写判 ...
自然语言处理之_SentencePiece分词
Created2018-05-26|2_Note0_Technic2_算法6_自然语言分词
自然语言处理之 _SentencePiece 分词 #自然语言处理 1、说明  SentencePiece 是一个 google 开源的自然语言处理工具包。网上是这么描述它的:数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具。   那么它究竟是干什么的呢?先举个例子:假设在数据挖掘时,有一列特征 T 是文本描述,我们需要将其转成枚举型,或者多个布尔型代入模型,即:需要从文本中提供信息构造新特征。   首先,我们可以用标点将长句长分成短句,以短句作为关键词,看每个实例的特征 T 中是否包含该关键词,从而构造新的布尔型特征。但有时候表达同一个意思所使用的文本并不完全一致,比如“买三送一”和“买三送一啦!”是一个意思。   此时,我们可以用 SnowNLP 或者 jieba 分词把描述拆成单个词,看 T 是否包括该关键词。但这样用也有一个问题:可能把一个意思拆成了多个特征,比如“袖子较短,领子较大”被拆成了四个独立的特征“袖子”“较短”“领子”“较大”,组合效果没有了。   我们想要的效果是:如果“袖子较短”这个组合经常出现,就把它当成一个词处理。jieba ...
时序预测之四_Prophet时序模型
Created2018-05-20|2_Note0_Technic2_算法9_时序
时序预测之四 _Prophet 时序模型 1. 说明 Prophet 是 FaceBook 开源的时序框架。非常简单实用,你不需要理解复杂的公式,看图,调参,调用十几行代码即可完成从数据输入到分析的全部工作,可谓懒人之利器。 在效果方面,我在同一项目中尝试了 ARIMA,将星期和节假日作为特征代入 GBDT,Prophet,相对来说,Prophet 效果最好,当然这与数据有关,也不能一概而论。总之,Prophet 效果挺好的,训练速度也挺快。 Prophet 的原理是分析各种时间序列特征:周期性、趋势性、节假日效应,以及部分异常值。在趋势方面,它支持加入变化点,实现分段线性拟合。在周期方面,它使用傅里叶级数(Fourier series)来建立周期模型 (sin+cos),在节假和突发事件方面,用户可以通过表的方式指定节假日,及其前后相关的 N 天。可将 Prophet 视为一种针对时序的集成解决方案。 使用 Prophet 具体使用步骤就是:根据格式要求填入训练数据,节假日数据,指定要预测的时段,然后训练即可。除了预测具体数值,Prophet 还将预测结果拆分成 trend, yea ...
Python编程_在Matplotlib图中显示中文字体
Created2018-05-19|2_Note0_Technic3_编程Python大数据
Python 编程 _ 在 Matplotlib 图中显示中文字体 1. 说明   本篇主要针对在 Ubuntu 系统中,matplotlib 显示不了中文的问题,尤其是在无法安装系统字体的情况下,解决 Python 绘图时中文显示的问题。 2. 在系统中安装字体 1$ fc-list :lang=zh # 查看中文字体名称及其安装路径,相对于英文字体,中文字体文件一般较大。 如果无中文字体,可使用 apt-get 安装,具体方法如下: 1234567$ apt-cache search font|grep Chinese # 查看可安装的中文字体$ sudo apt-get install fonts-wqy-zenhei # 安装字体, 一般字体会被安装到/usr/share/fonts/的某个子目录下,也可以从windows中把ttf,ttc复制到fonts目录下。$ cd /usr/share/fonts/truetype/xxx/ # cd到字体安装目录下$ sudo mkfontscale$ sudo mkfontdir$ fc-cache -v # 更新字体$ fc-li ...
实战美年健康AI大赛之四_复赛使用数加平台
Created2018-05-13|2_Note0_Technic2_算法4_机器学习实战
实战美年健康 AI 大赛之四 _ 复赛使用数加平台 #算法实战 1. 说明   美年健康 AI 大赛的复赛是线上赛,只能使用数加平台。第一次用数加,也遇到一些问题,在此总结一下。 2. 问题及解答 (1) 如何登录?   得到复赛资格之后,天池赛题网页左侧的列表中就会多出一项“数加”,点击进入后,按提示得到 RAM 帐号,即可以登录“数据开发平台”和“机器学习平台”,注意登录帐号是用户名和企业别名的组合。   网页上提供的 Demo 有点旧了,是 2015 年的,那时候好像还叫“御膳房”。建议官方及时更新,这样大家可以节约点时间,技术支持人员也没那么累。 (2) 如何访问数据?   进入“数据开发平台”,点击上方的“数据管理”,即可进入数据界面,左侧的查找数据,可以通过关键字查找该项目下的表,像本题查找 meinian 就可以看到很多表,其中包括管理员建立的和其他参赛者建立的。具体的项目名和表名见“赛题与数据”中复赛的说明。需要注意的是一般先要把项目数据用 SQL 复制到自己的空间中,然后再进行下一步操作。详见“代码分享”部分。复制到自己空间后,就可以在“数据管理”->“个人帐号 ...
实战美年健康AI大赛之三_大数据量的简化
Created2018-05-10|2_Note0_Technic2_算法4_机器学习实战
实战美年健康 AI 大赛之三 _ 大数据量的简化 #算法实战 1. 说明   美年健康也是一个认真打的比赛,初赛B榜最高分 0.0279,排名 15.   最初是想用它实践一下自然语言处理,后面发现,另一个与之前比赛不同的地方,就是数据量很大,之前也做过几十上百万条记录的,但是特征少,这次 57000 多个记录,2700 多个特征.从提取特征到训练完成,我的代码要跑近三个小时,后来审核代码的阶段,在群里看到很多人代码都需要运行很长时间.   初赛 90% 以上的时间都花在自然语言处理上了,像去噪,特征筛选,调参,模型组合,结果分析几乎都没做,能刷到第 15,应该偷笑了.   在初赛结束后的几天里,开始尝试特征选择,希望优化整个过程,才发现数据量大的不能像之前那么处理.上述没做的那些,不是没有精力,是没时间.在大数据上做这些太花时间.在”大数据”里面,应该先要做一些简化,否则很多时间都浪费掉了.   本篇就来说说大数据和小数据的不同点以及应对方法. 2. 提取特征   这个题里面有些文本特征,和一些文本数值混合特征.首先要做的是清理和提取,尤其是”-1”,”正常”,”未见异常”,”阴性” ...
实战美年健康AI大赛之二_相关问题与思考
Created2018-05-01|2_Note0_Technic2_算法4_机器学习实战
实战美年健康 AI 大赛之二 _ 相关问题与思考 #算法实战 1. 说明   上次把钉钉号写回复里了,最近就有不少师兄加我,问一些关于比赛的问题,五一后可能也没啥时间回复了,下面就把常见的问题统一总结一下,只是我个人理解,欢迎大家纠正指导。 2. 你用了哪些方法做到 0.286?   说出来可能有人不信,我只用了五折的 lightgbm,参数都没怎么调,去缺失值,去噪,特征选择,归一化,模型融合,目前为止都没做,所有时间都花在 NLP 上了,其中很多试尝还在进行中,还未加入模型,也不知最终能不能提分。   目前的方案中,一方面是把一些数值字符混合型数据变成数值型代入模型,另外还有在做 NLP 时发现的一些关键性的字段,提取出了其中是否含有某个关键字作为新的特征,总共涉及不到 10 个特征。 3. 怎么提分?   常被问到的一个问题是被卡在某一瓶颈了,怎么提分?我觉得大多情况是特征不足。如果以数值为主,要多看看自然语言处理,再找些特征,毕竟特征决定了上限,而优化模型只能是不断接近该上限。 4. 不做 NLP 最高多少分?   这要看如何区分数值特征和文本特征,我的数值特征有 2000 多 ...
实战天池精准医疗大赛——观看答辩总结
Created2018-04-28|2_Note0_Technic2_算法4_机器学习实战
实战天池精准医疗大赛——观看答辩总结 #算法实战 1. 说明   今天是天池精准医疗大赛(糖尿病预测)的最终答辩,学习了一下前六名的经验分享.把自己没想到的列出来,如下. 2. 特征 多特征组合: 一般是现有特征加减乘除的组合,在特征多的情况下,先取强特征相互组合 . 数据分析: 常用分析方法:IV 值分析(information value),方差,残差,单变量分析,PCA 等等. 特征的相关性与去冗余:特征和结果的相关性分析可能找不出一些非线性相关,但是特征之间的强相关,可以帮助去掉一些冗余. 小数据集中某些特征,可能引起过拟合. 缺失值填充: Nuclear,MICE,最近邻填充. 对于不同缺失比例,可使用不同方法填充. 单指标特征概率相对分布图 衡量单变量在取值变化过程中,正负样本比例随取值变化的一个相对变化程度的总结(这个值与相关性差别很大).可以在去掉和不去掉缺失值的情况下,分别统计. 连续特征/离散特征使用不同的统计方法:QQPlot,四分位图. 将不同特征划分为不同的训练集和测试集. 这可能是一种人为的预分类. 3. 算法 因子分解机 FM 适合小 ...
实战美年健康AI大赛之一_自然语言处理
Created2018-04-20|2_Note0_Technic2_算法4_机器学习实战
实战美年健康 AI 大赛之一 _ 自然语言处理 1. 说明   一直想找个自然语言处理(NLP)相关的比赛.起始看到"美年健康 AI 大赛"的时候,觉得和之前糖尿病比赛很相似,还是 GBDT 调参大赛.解包一看几百兆数据,觉得自己机器可能跑不动(后来确实加了一条内存),都没打开看数据就放弃了.   后来两个朋友都推荐做这个比赛,说是 NLP 的,打开数据一看,欸~还挺有意思的.数据量大的好处是稳定,我线上线下基本是同增同减(只提交过三次,目前为止是同增同减),就是看那病情诊断看得心惊肉跳的,腿都软了. 2. 比赛介绍   言归正传,介绍一下比赛内容,比赛提供了涉及 5 万多人的 800 多万条各项体验数据,有数据型的,也有字符型的.体验项目名称经过了脱敏处理,检查结果的文字内容未脱敏,目标是预测:收缩压、舒张压、甘油三酯、高密度脂蛋白胆固醇和低密度脂蛋白胆固醇这五项指标,预测具体的值,是一个回归问题.简单说就是分析哪些指标与高血压/高血脂相关.   我使用的是 lightgbm 模型,简单调参,对字符串只做了一些简单的处理,过滤出一些我认为重要的文字特征,当前最好成绩是 0.03002 ...
1…646566…88
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
878
Tags
282
Categories
185
Follow Me
Announcement
This is my Blog
Recent Post
什么情况下使用强化学习2025-10-11
围棋经典算法与股票市场预测2025-10-11
强化学习工具及优化方法2025-10-11
强化学习的核心概念与实践应用2025-10-11
金融相关的强化学习工具2025-10-11
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
开发 Python 社会 Paper 模型工具 知识管理 多模态 法律 成长 文化反思 Android/theme 自动化 叙事治疗 #Python Python/股票 感知 健康 阅读/哲学 焦虑 角色扮演 加密货币 旅游 卡片 验光 #后端 社会文化 深度学习/模型结构 Arduino 叙事心理学 2023年 智能家居 Ubuntu 医学 插件推荐 情绪管理 视频编辑 大语言模型 职场 Python/少儿编程 数据管理
Archives
  • October 202515
  • September 20256
  • August 202518
  • July 202538
  • June 202537
  • May 202529
  • April 202516
  • March 20258
Info
Article :
878
Total Count :
1228.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database