avatar
Articles
878
Tags
282
Categories
185

Yan 的杂物志_个人主页分享
Search
实战药物分子筛选之一_初探
Created2018-04-13|2_Note0_Technic2_算法4_机器学习实战
实战药物分子筛选之一 _ 初探 #算法实战 ##1. 说明   基于人工智能的药物分子筛选,是最近在 DC 大数据平台上看到的一个新比赛.这个题目对于我这种半科盲来说好难.花了一些时间才弄明白它是干嘛的.这是一家药品公词举办的比赛.我理解题目是这样的:给出三种数据:致病蛋白信息(病),小分子信息(药),蛋白和小分子间的亲和力(药和病能否结合),预测N种没见过的致病蛋白与已知的小分子之间的亲和力.简单地说就是知道一些病和药的特征以及它们之间的关系,预测一些新的病用什么药治.具体数据如下: ­­ ##2. 数据分析   蛋白质由氨基酸组成,氨基酸一共有 20 种,每一种用一个英文字母表示.蛋白质有四级结构,一级结构是组成蛋白质的氨基酸序列,二三四级还有螺旋折叠什么时,这里我们只考虑其一级结构,即某个蛋白质由哪些氨基酸组成的,它们的长度以及前后顺序是怎样的.在给出的数据(df_protein*.csv)中,氨基酸序列形如:FCIPTSSTIEQQNSTRVRQNTREHPSTANTVDRTNHQLENLEAETAPLP 它是一个由字母组成的序列.最长的一项长度为 7023,最短的长度为 26 ...
实战量化投资大赛之二_GBDT模型
Created2018-04-08|2_Note0_Technic2_算法4_机器学习实战
实战量化投资大赛之二 _GBDT 模型 1. 说明   对股票预测这种典型的时序问题,使用梯度下降决策树,确实是有点生搬硬套.主要思路是想使用提供的特征值 f1-f87,看看哪些特征更加重要.   具体方法是把历史数据用计算趋势和移动平均线的方式添加到特征之中,此时记录的前后顺序就不再重要,用 122 天(半年)后的价格作为结果Y,随机将所有记录分成训练集和测试集,做回归模型.线上最高得分 47 左右. 2. 特征工程   用 GBDT 模型主要是特征工程和调参,一开始我只是加了一些趋势和与均线关系的特征,预测后取前 20,线上得分 34 左右.觉得这个模型几乎没法用.然后分析了取出的 top20 是怎样一些股票,发现其中多一半都包含停牌或者高送转.预测不成功的原因是:没做数据清洗,这里确实需要一些行业背景知识.   不只是 GBDT 模型,用统计模型也一样,这些特殊值都会成为干扰项.在去掉了高送转,次新股,停牌之后,同样的模型,RMSE 误差不到之前的 1/3,比之前靠谱多了.   具体工作如下: (1) 合并数据   把数据合成一个大文件,用 pickle 格式保存,pickle ...
实战量化投资大赛之一_baseline
Created2018-03-30|2_Note0_Technic2_算法4_机器学习实战
实战量化投资大赛之一 _baseline #算法实战 1. 说明   昨天在群里看到了:凤凰金融量化投资大赛,详情见:http://www.dcjingsai.com/common/cmpt/%E5%87%A4%E5%87%B0%E9%87%91%E8%9E%8D%E9%87%8F%E5%8C%96%E6%8A%95%E8%B5%84%E5%A4%A7%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html 看了一下数据,大概是利用过去两年N支股票的数据,预测未来半年的走势,然后再从这N支股票里选出 20-50 支作为组合,看谁的组合半年后收益最大,以此排名.数据包含股票代码,收盘价,和八十多个脱敏后的特征. 2. 一些想法   我关注的一支股票,昨天跌停了,今天该买还是该卖?单看涨跌和趋势线是没法判断.涨跌和很多因素有关,比如跌停日的交易量,消息面,基本面,外盘,大盘涨跌,近期趋势.一般跌停次日的涨跌的概率等等,人基本是通过这些因素综合判断.   估计上述的很多成分被包含在比赛提供的 80 多个特征之中(毕竟是专业人士给出的数据).于是特 ...
时序预测之三_傅立叶和小波变换
Created2018-03-28|2_Note0_Technic2_算法9_时序
时序预测之三 _ 傅立叶和小波变换 1. 说明   用傅立叶变换预测时序数据,原理是把时域数据转换到频域,再转换回来.python 的 numpy 和 scipy 里面都有现成的转换工具 fft() 和 ifft(),但使用时会遇到一个问题:比如 25 天的数据转到频域再转回时域,还是 25 天,虽然拟合了数据,但没法直接预测未来,本篇介绍用它实现预测的方法. 2. 傅立叶变换 (1) 相关知识   之前写过关于傅立叶变换原理的文档,这次就不再重复了,具体请见:https://www.jianshu.com/p/9e786be6dccb   本篇只从程序的角度看如何使用它.经过 FFT 转换的数据和转换前长度一致,每个数据分为实部和虚部两部分,假设时序时数长度为 N(N最好是 2 的整数次幂,这样算起来更快),用 fft() 转换后:下标为 0 和 N /2 的两个复数的虚数部分为 0,下标为 i 和 N - i 的两个复数共辄,也就是其虚部数值相同、符号相反。再用 ifft() 从频域转回时域之后,出现了由误差引起的很小的虚部,用 np.real() 取其实部即可.   由于一半是另 ...
时序预测之二_ARIMA
Created2018-03-23|2_Note0_Technic2_算法9_时序
时序预测之二 _ARIMA 1. 说明  ARMA 回归滑动平均模型 (Autoregressive Moving Average Model,简记 ARIMA),是研究时间序列的重要方法,由自回归模型(简称 AR 模型)与滑动平均模型(简称 MA 模型)为基础“混合”构成。常用于具有季节变动特征的销售量、市场规模的预测等。ARIMA 模型相对 ARMA 模型,仅多了差分操作。 2. 相关概念 (1) 自回归模型(AR)   自回归模型 autoregressive model,简称 AR.在时序分析中,描述时间序列{yt}自身某一时刻和前 p 个时刻之间相互关系的模型称自回归模型,其形式为:   其中Φ1, Φ2,…, Φp 是模型参数,εt 是白噪声序列,它反映了所有其它随机因素的干扰.其中 p 为模型阶次,即 yt 由前 p 个值决定. (2) 滑动平均模型(MA)   滑动平均模型 moving average model,也称移动平均模型,它将时间序列{yt}看成白噪声序列的线性组合,为什么误差能描述模型呢?假设某个值可通过之间前 N 个值的平均值预测,稍作变化,即实际值可 ...
时序预测之一_概述
Created2018-03-15|2_Note0_Technic2_算法9_时序
时序预测之一 _ 概述 1. 说明   前一段参加了天池的“盐城汽车上牌量预测“比赛。第一次面对大规模的时序问题,从比赛的过程,到赛后各位大佬的算法分享,收获很多。也将解决该类问题的套路在此总结一下。   本篇是总述,其中提到的具体算法,如:加窗,ARIMA,傅里叶/小波变换,LSTM 等等将在本系列的后续文章中一一详述。 2. 问题描述   上牌量预测是一个典型的时序问题,且数据简单清晰,以复赛A榜数据为例,它提供了前 3 年的 10 种品牌汽车每天的上牌量,预测未来半年中每天的各品牌的上牌量。   提供的信息只有之前的上牌量,日期数据和星期几,是一个单变量的预测问题(暂不计各品牌间的相互影响),比较困难的是:它不是预测一天,而是预测几百天,有些时序模型无法使用。 3. 步骤   对比一下自己和大家的解决方案,基本都可以拆解成以下步骤 (1) 还原日期   比赛数据对日期进行了脱敏处理,没给具体年月日,但提供了周几的信息,其中有些节假日上牌量为 0 的也没有给出对应记录。第一步大家都补全了日期,加入了真实日期,和节假日信息。   这里介绍两个相关阴历的时间转换库: chinese_c ...
PythonNotebook介绍
Created2018-03-13|2_Note0_Technic3_编程Python工具
Python Notebook (Jupyter Notebook) 介绍 1. 介绍   前一段跑别人的 python 代码,扩展名是 ipynb,不能直接用 python 命令执行,于是只好安装了 Jupyter notebook 软件,然后发现它是一个非常好用的程序写作工具。   对我来说,它最大的好处就是文档和程序可以写在一起了。在写程序的时候往往会有一些思路,解释,分析,运行结果等等,需要记下来,比较长的就不太适合在程序里面注释,记在其它地方又容易忘掉。Notebook 完美地解决了这个问题。当然它还有很多其它优点,下面简单介绍一下。 2. Jupyter Notebook  IPYNB 是 ipython notebook 的缩写,它开始只支持 python,后来又支持了其它 40 多种编辑语言,就改名叫 Jupyter notebook。  Notebook 存储 python 程序的文件是 ipynb,ipynb 一种文本文件,可以用 vi 直接打开,文件中除了程序和说明还有一些结构信息,不能直接用 python 执行,但在 notebook 界面中可以被导出成.py ...
实战天池精准医疗大赛——复赛总结
Created2018-03-09|2_Note0_Technic2_算法4_机器学习实战
实战天池精准医疗大赛——复赛总结 #算法实战 1. 说明   精准医疗复赛结束,最终排名在 20 左右。第一名的大神相当厉害,尤其是换数据之后,那分数简直是甩出其他人好几条街,非常想学习一下他的解决方案,可惜答辩定在七月,而且不一定公开,估计到时候都忘了。   我在复赛中用的是个中规中矩的方案,也在这里记录和分享一下,写得比较随性,各位就别当纯技术文档看了。 2. 特征工程 (1) 特征去噪   噪声数据是在最后一天才发现的,原因是训练集加入A榜答案之后,线下分数反而下降了,于是怀疑 A 榜数据是不是有什么问题?在检查过程中,阴错阳差地发现,有一些特殊值高出正常值几十倍,比如说有个 BUN(血尿素氮)为 2055,另外 ApoA1 和 ApoB1 存在数据单位不一致的问题,然后对它们进行了修正。   在本问题中,噪音数据比较容易发现,一方面是特征不多,可以人工过滤,别一方面体验指标有可参考范围,容易界定是否为异常值。如果数据多或者经过了脱敏处理,就需要一些更精确的算法,比如离群点检测等等。 (2) 特征分类   在本问题中,把特征分成两类:基因数据和其它数据。基因数据是以 SNP 开 ...
实战天池精准医疗大赛——复赛之妊娠糖尿病与基因数据分析
Created2018-03-01|2_Note0_Technic2_算法4_机器学习实战
实战天池精准医疗大赛——复赛之妊娠糖尿病与基因数据分析 1. 说明   初赛提供的是血常规,肝功能,肾功能,生化的检验结果,预测血糖的具体值。复赛加入了 SNP 的五十多个位点数据,预测被试者是否为妊娠糖尿病,是个二分类问题。下面做了一些简单的数据分析和相关资料采集。 2. 糖尿病相关的 SNP 数据重要性排序  SNP 数据取值为 1,2,3,为枚举值,没有大小关系,因此做 onehot 编码,转换为形如:SNP1_3,表示 SNP1 取值为 3 作为单一特征.相关性排序描述的是单个特征与结果的相关性,决策重要性描述的是单个特征与其它特征组合后与结果的相关性.下面均为重要性前十的特征,数字为重要性评分. 1) 相关性排序(负号为负相关): 2) 决策重要性排序(五次交叉验证模型评分累加): 3) 总结  SNP34,SNP37 在两种排序中均占前 4 位,可以说是重要性最高的特征,SNP21, SNP53,SNP40 在前十中同时出现,也有较高优先级. 3. 糖尿病相关的其它信息   表中表出重要性前十位的特征,数字为重要性评分 1) 相关性排序: 2) 决策重要性排序(五次交 ...
实战天池精准医疗大赛之一_数据分析
Created2018-01-30|2_Note0_Technic2_算法4_机器学习实战
实战天池精准医疗大赛之一 _ 数据分析 #算法实战 1. 赛题说明   天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测,这是明天即将开始的天池大数据比赛。赛题名字看起来很高深,其实是根据年龄,性别,肝功,血常规等体验指标,预测血糖值。数据挺少的,特征 40 个左右,训练集 5000 多个实例,测试集 1000 个实例。任何机器都能很快跑完。比赛地址: https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.57e6e8dfMg8Z8V&raceId=231638 2. 预处理 (1) 缺失数据   有大量的缺失值,特征分四类,分别是乙肝、血常规、肝功能、肾功能,一般的缺失值都是缺失整个类别数据(由于患者未做某项检查)。除血常规以外,其余三项都有大量的缺失值,尤其是乙肝类检查,多一半都是空值。如果去掉这些数据,将会损失 3/4 的数据量。假设:医生不要求做该项检查,说明他认为该项指标基本正常,则在指标的正常范围内取随机值填充。 (2) 其它操作   替换去掉其中中文字符 3. 数据 ...
1…656667…88
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
878
Tags
282
Categories
185
Follow Me
Announcement
This is my Blog
Recent Post
什么情况下使用强化学习2025-10-11
围棋经典算法与股票市场预测2025-10-11
强化学习工具及优化方法2025-10-11
强化学习的核心概念与实践应用2025-10-11
金融相关的强化学习工具2025-10-11
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
开发 Python 社会 Paper 模型工具 知识管理 多模态 法律 成长 文化反思 Android/theme 自动化 叙事治疗 #Python Python/股票 感知 健康 阅读/哲学 焦虑 角色扮演 加密货币 旅游 卡片 验光 #后端 社会文化 深度学习/模型结构 Arduino 叙事心理学 2023年 智能家居 Ubuntu 医学 插件推荐 情绪管理 视频编辑 大语言模型 职场 Python/少儿编程 数据管理
Archives
  • October 202515
  • September 20256
  • August 202518
  • July 202538
  • June 202537
  • May 202529
  • April 202516
  • March 20258
Info
Article :
878
Total Count :
1228.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database