从正态分布到T检验
从正态分布到 T 检验
1.说明
接上次的 《几种常见的数学分布》。这次说说
T 分布和 T 检验,用词不够严谨,大家就领会精神为主吧~
2.什么是抽样
如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。
比如说,一个班有 20
个人,我们可以把所有人的身高加一起,除以人数,计算均值,如果有 2000000
人,就无法把所有人身高都统计一遍再除以总数,一般情况下,就是取其中一部分,计算其均值,认为他们能代表全部。
3.正态分布
先复习一下正态分布,比如说女人的身高一般在 160 左右,150, 170
的比较少,140,180
的更少,把身高当做横轴,人数作为纵轴画图,就可看到一个中间高两边低的钟形曲线,也就是正态分布。
那什么不是正态分布呢?比如人的空腹血糖一般在 4-6 之间,而血糖高的
7,8,9 的很多,而低到 3,2,1
的就很少,不样一边多一边少的,就不是正态分布。
4.正态分布和 T 分布
如果只有 20 个人画一下算一下,就是正态分布;如果有 2000000
人,从中随机取出 20 个,画一图也就 ...
一些零碎的mathplotlib小技巧
一些零碎的 mathplotlib
小技巧
说明
一些零碎的 mathplotlib 小技巧
怎么让图显得更高级 1.
改字体大小:标题,子标题,标注分别不用同大小的字体,一遍文章中所有图都有相同的
style。 2. 注意子图的间距 3. 注意对齐方向:居中,居左 4.
注意配色:不使用红绿蓝等纯色 5. 柱图,线图,饼图使用至少两种以上 6.
对一组图使用相同的 X,Y 轴范围 7. 注意线的粗细,点的大小
线的粗细点的大小
plt.plot(xx, linewidth=1.0)
plt.plot(xx, 'o', markersize=1)
横轴显示时间日期
df['datetime'] = df['datestr'].apply(lambda x:
datetime.datetime.strptime(x, "%Y-%m-%d"))
字体大小
figure.suptitle('xxxx', fontsize=15)
plt.tick_params(labelsize=6)
显示高分辨率
figure = plt.figure(figsize=(8,6), dpi=300)
其 ...
图像处理之_增强现实工具ARToolKit
图像处理之 _ 增强现实工具
ARToolKit
#图形图像
1. 增强现实
增强现实(AR)是将电脑虚拟的图像覆盖到真实世界画面中,这个技术在工业和理论研究方面都存在着极大的潜能。
2. 相关概念
(1) ARToolkit
ARToolkit,是一个开源的 AR(增强现实)SDK。它是用 C/C++
语言编写的库,通过它可以很容易地编写增强现实应用程序。增强现实中最困难的部分在于实时的将虚拟图像覆盖到用户视口,并且和真实世界中的对象精确对齐。ARToolKit
使用电脑图像技术计算摄像机和标记卡之间的相对位置,从而使程序员能够将他们的虚拟对象覆盖到标记卡上面。ARToolKit
提供的快速和准确的标记跟踪,能够让你快速的开发出许多更新更有趣的 AR
程序。
(2) OpenGL
OpenGL 是 Open Graphics Library,用于渲染 2D、3D
矢量图形的跨语言、跨平台的应用程序编程接口(API),可绘制从简单的图形到复杂的三维景象。
(3) OpenCV
OpenCV 是 Open Source Computer Vision
Library。它提供图像 ...
Ubuntu支持Thinkpad无线网卡
Ubuntu 支持 Thinkpad
无线网卡
#操作系统/Linux
最近新入了一个 Thinkpad,安装 ubuntu16.04
之后,不能识别无线网卡,解法如下:
1.查看无线网卡型号
1$ lspci
我无线网卡的型号是 Realtek Semiconductor Co., Ltd. Device c821
2.下载驱动程序,编译内核模块
12345$ git clone https://github.com/tomaspinho/rtl8821ce$ cd rtl8821ce$ chmod +x dkms-install.sh$ chmod +x dkms-remove.sh$ sudo ./dkms-install.sh
如果网卡型号和我的不同,可以试试 realtek 的其它驱动包: git clone
https://github.com/lwfinger/rtlwifi_new
3.加载网卡驱动
查看驱动模块是否被加载
1$ lspci -v
这时看到 Device c821 设备下面有 Kernal modeles, 但是没有 Moder driver
in u ...
Ubuntu笔记本双屏的切换
Ubuntu 笔记本双屏的切换
#操作系统/Linux
同屏
xrandr --output eDP-1 --same-as DP-2 --auto
分屏
xrandr --output eDP-1 --right-of DP-2 --auto
实战_瑞金医院MMC知识图谱大赛初赛
实战 _ 瑞金医院 MMC
知识图谱大赛初赛
1. 说明
《瑞金医院 MMC
人工智能辅助构建知识图谱大赛》是一个天池的自然语言处理相关的比赛,初赛是命名实体识别(Named
Entity Recognition,简称
NER)。具体说,就是从医学文档里标注出药名,疾病,病因,临床表现,检查方法等十二种实体的类别和位置。这是一个有监督学习,它的训练集是标注好的医学文档。
还是延续以往比赛的思路,找一个类似的简单项目,在其上修修改改,于是找到了
" 参考 1"
中的例程,它是一个在中文文本中标注地名,人名,组织名的程序,使用工具是
tensorflow,算法是 BiLSTM-CRF。
花了不到两天的时间,混进了复赛,虽说是在别人的代码上修修改改,但也不失为一个
NLP 相关的深度学习入门,顺便熟悉一下如何使用
tensorflow。我做的工作很简单:参考代码 2000 多行,修改了不到 200
行,主要就是把那套代码对这个项目做一个适配,没啥可说的,本文主要梳理了深度学习如何应用于自然语言处理,算法原理,以及
Tensorflow 的一些用法。
2.
深度学习能解决自然语言处理 ...
Dash入门
Dash 入门
1. 说明
大数据开发过程中,我们常常需要向别人展示一些统计结果,有时候还是实时的统计结果。最好能以网页方式提供,让别人在他的机器上,使用浏览器也能访问。这时候统计工具往往使用
Python,而把分析图表画出来使用 JavaScript,需要搭建 web
服务,还涉及中间过程的数据衔接。而 Dash 能帮我们实现以上所有的工作。
Dash 是 Python 的一个库,使用 pip 即可安装。用它可以启动一个 http
server,python 调用它做图,而它内部将这些图置换成 JavaScript
显示,进行数据分析和展示。
2. 安装
1234$ pip install dash$ pip install dash-renderer$ pip install dash-html-components$ pip install dash-core-components
其中 html 与网页相关,比如用它实现 Title
显示及一些与用户的交互操作,core
是绘图部分,像我们常用的柱图,饼图,箱图,线图,都可以用它实现。
3. 简单 demo
(1) 代 ...
数据迁移工具Kettle
数据迁移工具 Kettle
1. 背景知识
(1) 什么是 ETL
ETL 是 Extract-Transform-Load
的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
(2) Kettle 简介
Kettle 是一款国外开源的 ETL 工具,纯 java 编写,可以在
Window、Linux、Unix 上运行,数据抽取高效稳定。Kettle
中文名称叫水壶,该项目的主程序员 MATT
希望把各种数据放到一个壶里,然后以一种指定的格式流出。我们常用它定时将一些库的数据稍做转换后存入其它库。
(3) 工作机制
Kettle 中有两种脚本文件,transformation 和 job,transformation
完成针对数据的基础转换,job 则完成整个工作流的控制。
2. 安装和运行
(1) 安装
kettle 的最新下载地址:http://community.pentaho.com/projects/data-integration/
我在 linux 下安装,机器之前已装好 java
环境,将 ...
几种常见的数学分布
几种常见的数学分布
#数学
1. 什么是数学期望
举个例子:某城市有 10 万个家庭,没有孩子的家庭有 1000
个,有一个孩子的家庭有 9 万个,有两个孩子的家庭有 6000 个,有 3
个孩子的家庭有 3000 个
(0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11
数学期望
(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和
0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11
2. 概率密度与累积分布
概率密度一般的写法是:P(X=a) = …,即 X 等于某个值 a 的可能性
累积分布一般的写法是:P(X<=a) = …,即 X 小于等于某个值 a
的所有可能性累加之和
这二者千万别弄混,否则就会被各种公式绕晕。下图是增量分布的概率密度图(橙色)和累积分布图(蓝色)。
3. 常见的分布
(1) 离散分布:
伯努利分布(零一分布,两点分布),二项分布,几何分布,泊松分布(Poisson
分布)
(2) 连续分布: ...
调度工具Airflow
调度工具 Airflow
1. 什么是 Airflow
Airflow 是 Airbnb 开源的 data pipeline
调度和监控工作流的平台,用于用来创建、监控和调整 data
pipeline(ETL)。
2. 简单的定时任务 cron
假设我们想要定时调用一个程序,比如说:每天定时从 Web
抓数据,我们可以使用 cron。cron 是一个 Linux
下的后台服务,用来定期的执行一些任务,在/etc/crontab
中设置后即可,基本写法如下:
12# 分钟 小时 日 月 周 用户 命令 17 * * * * root date >> /tmp/time.log
它的意思是每个小时的第 18 分钟,将当前时间写入 log
文件,注意各值的取值范围(分钟 0 - 59,小时 0 - 23,天 1 - 31,月 1 -
12,星期 0 - 6,0 表示星期天)修改/etc/crontab 后,还需要用 $ sudo
service cron restart 命令重启 crontab 任务,才能生效。
3. 为什么要用 Airflow
有了 cro ...