Stata 中常用的数据分析命令

1. 常用的数据分析工具

 Stata、SPSS、SAS、R、Python,甚至 Excel 都可以做数据分析工作。R 和 Python 是程序员的首选,可以通过编写程序实现成整体的数据清洗、分析、挖掘,还可以增加扩展支持,把一套代码应用于类似的数据分析场景中。对于专业人士(如生物、医疗领域)来说,掌握编程语言的学习成本太高,他们更关注通过工具,方便快捷地得到分析结果,SPSS 和 Stata 主要是图形界面的软件操作,相对来说更为合适。很多专业领域,发论文时都使用了 Stata 和 SPSS 软件的分析结果,久而久之,也使该软件成为了该领域的数据分析标准工具。

###2. Stata 安装和运行
  我下载的是 Stata 15.1 Linux 版本,下载到本地解包后,可看到工具 stata 和 xstata,它们分别是命令行版本和图形界面版本,图形界面中也可以使用命令,运行 xstata:

1
$ ./xstata

  可在其下方的框内输入 Stata 命令回车运行,该软件中最常用的三个菜单是:Data(数据处理)、Graphic(画图)和 Statistic(统计)。功能非常丰富,包括很多二级三级子菜单,下文将介绍一些最常用的功能。

3. Stata 数据导入

 Stata 数据导入主要有两种方式,一种是从文件导入,另一种是手动编辑内容。用文件菜单中的 Open 打开文件,支持 Stata 定义的数据’.dta’,图表’.gph’等文件类型(Python 的 Pandas 支持导出 Stata 文件类型,但默认不支持中文字段名),还可通过文件菜单中的 Import 导入 Excel、csv、dbf 等常用格式数据。另外,也可以通过界面上方的 New Do-file Editer 或 Data Editer 手动创建新的数据,以及编辑现有数据,编辑界面支持复制粘贴功能。可以看到,每次通过菜单操作后,界面中间的窗口中都显示出操作对应的命令,我们可以把常用的命令记录下来,以便后期通过命令行方式快速调用。

4. Stata 常用数据分析命令

(1) 变量相关

生成新变量

1
. gen a=3 

改变量名

1
. rename a b 

改变量值

1
. replace b=5

删除变量

1
. drop b 

计算器

1
. display 2+3

(2) 文件目录相关

切换目录

1
. cd /tmp/ 

查看目录下文件

1
. ls 

打开数据文件

1
. use xxx.dta 

导入 excel 文件中名为“首页”的 sheet 页

1
. import excel "/tmp/xxx.xlsx", sheet("首页") 

保存文件

1
. save /tmp/a.dta 

退出

1
. exit

(3) 数据表相关
展示当前数据表内容

1
. list

看当前数据格式

1
. describe

查看统计数据,包含:例数 (Obs)、变量的平均值 (Mean)、标准差、最小值和最大值

1
. sum

计算尔尔森系数

1
. pwcorr y x,sig 

计算斯皮尔曼系数

1
. spearman y x 

计算 kwallis 检验值

1
. kwallis y,by(x)

计算 F 检验值

1
. oneway y x 

多元线性回归

1
. regress y x1 x2 x3…