avatar
Articles
878
Tags
282
Categories
185

Yan 的杂物志_个人主页分享
Search
Ubuntu笔记本双屏的切换
Created2018-12-15|2_Note0_Technic4_系统Linux系统
Ubuntu 笔记本双屏的切换 #操作系统/Linux 同屏 xrandr --output eDP-1 --same-as DP-2 --auto 分屏 xrandr --output eDP-1 --right-of DP-2 --auto
实战_瑞金医院MMC知识图谱大赛初赛
Created2018-12-01|2_Note0_Technic2_算法4_机器学习实战
实战 _ 瑞金医院 MMC 知识图谱大赛初赛 1. 说明  《瑞金医院 MMC 人工智能辅助构建知识图谱大赛》是一个天池的自然语言处理相关的比赛,初赛是命名实体识别(Named Entity Recognition,简称 NER)。具体说,就是从医学文档里标注出药名,疾病,病因,临床表现,检查方法等十二种实体的类别和位置。这是一个有监督学习,它的训练集是标注好的医学文档。   还是延续以往比赛的思路,找一个类似的简单项目,在其上修修改改,于是找到了 " 参考 1" 中的例程,它是一个在中文文本中标注地名,人名,组织名的程序,使用工具是 tensorflow,算法是 BiLSTM-CRF。   花了不到两天的时间,混进了复赛,虽说是在别人的代码上修修改改,但也不失为一个 NLP 相关的深度学习入门,顺便熟悉一下如何使用 tensorflow。我做的工作很简单:参考代码 2000 多行,修改了不到 200 行,主要就是把那套代码对这个项目做一个适配,没啥可说的,本文主要梳理了深度学习如何应用于自然语言处理,算法原理,以及 Tensorflow 的一些用法。 2. 深度学习能解决自然语言处理 ...
Dash入门
Created2018-11-25|2_Note0_Technic3_编程Python大数据
Dash 入门 1. 说明   大数据开发过程中,我们常常需要向别人展示一些统计结果,有时候还是实时的统计结果。最好能以网页方式提供,让别人在他的机器上,使用浏览器也能访问。这时候统计工具往往使用 Python,而把分析图表画出来使用 JavaScript,需要搭建 web 服务,还涉及中间过程的数据衔接。而 Dash 能帮我们实现以上所有的工作。  Dash 是 Python 的一个库,使用 pip 即可安装。用它可以启动一个 http server,python 调用它做图,而它内部将这些图置换成 JavaScript 显示,进行数据分析和展示。 2. 安装 1234$ pip install dash$ pip install dash-renderer$ pip install dash-html-components$ pip install dash-core-components   其中 html 与网页相关,比如用它实现 Title 显示及一些与用户的交互操作,core 是绘图部分,像我们常用的柱图,饼图,箱图,线图,都可以用它实现。 3. 简单 demo (1) 代 ...
数据迁移工具Kettle
Created2018-11-10|2_Note0_Technic3_编程其它编程
数据迁移工具 Kettle 1. 背景知识 (1) 什么是 ETL  ETL 是 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。 (2) Kettle 简介  Kettle 是一款国外开源的 ETL 工具,纯 java 编写,可以在 Window、Linux、Unix 上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。我们常用它定时将一些库的数据稍做转换后存入其它库。 (3) 工作机制  Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。 2. 安装和运行 (1) 安装  kettle 的最新下载地址:http://community.pentaho.com/projects/data-integration/ 我在 linux 下安装,机器之前已装好 java 环境,将 ...
几种常见的数学分布
Created2018-11-03|2_Note0_Technic2_算法3_数据分布
几种常见的数学分布 #数学 1. 什么是数学期望   举个例子:某城市有 10 万个家庭,没有孩子的家庭有 1000 个,有一个孩子的家庭有 9 万个,有两个孩子的家庭有 6000 个,有 3 个孩子的家庭有 3000 个 (0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11   数学期望 (mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和 0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11 2. 概率密度与累积分布   概率密度一般的写法是:P(X=a) = …,即 X 等于某个值 a 的可能性   累积分布一般的写法是:P(X<=a) = …,即 X 小于等于某个值 a 的所有可能性累加之和   这二者千万别弄混,否则就会被各种公式绕晕。下图是增量分布的概率密度图(橙色)和累积分布图(蓝色)。 3. 常见的分布 (1) 离散分布: 伯努利分布(零一分布,两点分布),二项分布,几何分布,泊松分布(Poisson 分布) (2) 连续分布: ...
调度工具Airflow
Created2018-10-27|2_Note0_Technic3_编程其它编程
调度工具 Airflow 1. 什么是 Airflow  Airflow 是 Airbnb 开源的 data pipeline 调度和监控工作流的平台,用于用来创建、监控和调整 data pipeline(ETL)。 2. 简单的定时任务 cron   假设我们想要定时调用一个程序,比如说:每天定时从 Web 抓数据,我们可以使用 cron。cron 是一个 Linux 下的后台服务,用来定期的执行一些任务,在/etc/crontab 中设置后即可,基本写法如下: 12# 分钟 小时 日 月 周 用户 命令 17 * * * * root date >> /tmp/time.log   它的意思是每个小时的第 18 分钟,将当前时间写入 log 文件,注意各值的取值范围(分钟 0 - 59,小时 0 - 23,天 1 - 31,月 1 - 12,星期 0 - 6,0 表示星期天)修改/etc/crontab 后,还需要用 $ sudo service cron restart 命令重启 crontab 任务,才能生效。 3. 为什么要用 Airflow   有了 cro ...
机器学习之_逻辑回归
Created2018-10-13|2_Note0_Technic2_算法4_机器学习经典算法
机器学习之 _ 逻辑回归 逻辑回归又称 logistic 回归,逻辑斯谛回归,是一种广义的线性回归分析模型。 1. Sigmod 函数  Sigmoid 函数也是神经网络中常用的函数,用于把 x 从负无穷到正无穷压缩到 y 从 0 到 1 之间。画出来就是一条 S 型曲线,如下图中的蓝色曲线:   它以 0 点为中心对称,公式如下:   当 x 值接近负无穷时,分母很大,S(x) 接近 0,当 x 接近正无穷时,分母接近 1,S(x) 接近 1,当 x 为 0 时,S(x) 为 1/2 在正中间。S 曲线的弯曲程度由 e 决定。它的导数是上图中的橙色曲线:   导数的意义是变化率,当 x 很大时或很小时,S’(x) 接近 0,而在 x 接近 0 时,S’(x) 值最大,即 S 曲线在 0 点处变化剧烈,它勾勒出了 y 在 0 与 1 之间模棱两可的区域。 2. 逻辑斯谛分布   必须满足逻辑斯谛分布,才能用逻辑回归。那么什么是逻辑斯谛分布? 逻辑斯谛分布即增长分布,增长分布的分布函数是“增长函数”,公式如下:   可以看到,它把 (x-μ)/γ代入 Sigmoid 函数。其中μ ...
XGboost_增量学习
Created2018-10-06|2_Note0_Technic2_算法4_机器学习XGBoost
Xgboost 之增量学习 1. 说明 当我们的训练数据非常多,并且还在不断增加时,每次都用全量训练,数据过多,时间过长,此时就可以使用增量训练:用新增的数据微调校正模型。 2. 全量与增量的差异 在使用增量训练时,最关心的问题是:全量和增量的差别,从而确定增量训练的使用场景。 假设有 200 条数据,第一次训练 150 条,第二次训练 50 条,和直接用 200 条训练的差异在于:在第二次训练 50 条时,前 150 条数据已经不存在了,模型更拟合于后面的数据。如果我们定期增量训练,那么离当前时间越近的数据对模型影响越大,这也是我们想要的结果。但如果最后一批数据质量非常差,就可能覆盖之前的正确实例的训练结果,把模型带偏。 同理,如果我们按时间把数据分成几部分,然后按从早到晚的顺序多次训练模型,每个模型在上一个模型基础上训练,也间接地参加了后期实例的权重。 Xgboost 提供两种增量训练的方式,一种是在当前迭代树的基础上增加新树,原树不变;另一种是当前迭代树结构不变,重新计算叶节点权重,同时也可增加新树。 对于已存在的决策树,早期训练的实例决定了模型的结构(选择哪些特征及分裂点),后 ...
XGboost_调试方法
Created2018-10-06|2_Note0_Technic2_算法4_机器学习XGBoost
Xgboost 调试方法 1. 调试 test 目录下的测试用例   在测试程序后面加入以下代码,即可启动调试程序 12if __name__ == "__main__": unittest.main() 2. 显示树结构 1234import matplotlib.pyplot as plt fig,ax = plt.subplots()xgb.plot_tree(gbdt_03a, ax = ax, num_trees=0) # 显示模型中的第一棵树plt.show() 3. 打印详细调试信息   在 xgb 的 params 中设置: 12'silent': 0,'debug_verbose': 5 4. 修改源码   修改 c++ 源码后如果运行 c++ 程序,在 xgboost 目录下执行编译命令 make,重新生成二进制程序 xgboost,运行即可。   修改 c++ 源码后如果运行 Python 程序,需要将 xgboost/lib/libxgboost.so,复制到 python 对应的库目录下(如:/ ...
Python的Debug工具
Created2018-10-04|2_Note0_Technic3_编程Python工具
Python 的 Debug 工具 1. 命令行使用 pdb (1) 我们先写个简单的 python 程序 a.py 如下: 1234for i in range(0,3): print(i) print("@@@@") print("###") (2) 用 pdb 调试 1$ pdb a.py # 此后看到 > 提示符,即可以输入命令调试 2. 常用 pdb 命令 pdb 命令和 gdb 差不多,最常用的命令如下: 单步调试(进入函数):s(tep) 单步调试(不进入函数):n(ext) 继续往后执行,直到下个断点:c(ont(inue)) 运行到函数结束:r(eturn) 运行到当前循环结束:unt(il) 设置断点:b(reak) 文件名: 行号(或行号,或函数名) 显示当前调用关系:w(here) 显示当前代码段:l(ist) 显示变量:p(rint) 变量名 显示当前函数的参数:a(rgs) 显示帮助信息:h(elp) 退出:q(uit) 3. Notebook 使用 pdb (1) 单步调试   用 No ...
1…626364…88
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
878
Tags
282
Categories
185
Follow Me
Announcement
This is my Blog
Recent Post
什么情况下使用强化学习2025-10-11
围棋经典算法与股票市场预测2025-10-11
强化学习工具及优化方法2025-10-11
强化学习的核心概念与实践应用2025-10-11
金融相关的强化学习工具2025-10-11
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
开发 Python 社会 Paper 模型工具 知识管理 多模态 法律 成长 文化反思 Android/theme 自动化 叙事治疗 #Python Python/股票 感知 健康 阅读/哲学 焦虑 角色扮演 加密货币 旅游 卡片 验光 #后端 社会文化 深度学习/模型结构 Arduino 叙事心理学 2023年 智能家居 Ubuntu 医学 插件推荐 情绪管理 视频编辑 大语言模型 职场 Python/少儿编程 数据管理
Archives
  • October 202515
  • September 20256
  • August 202518
  • July 202538
  • June 202537
  • May 202529
  • April 202516
  • March 20258
Info
Article :
878
Total Count :
1228.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database