数据分析软件 SPSS 及数据挖掘软件 WEKA 使用

#数据分析

1. 说明
从数据表中读入数据,用 SPSS 进行数据处理,然后用 WEKA 进行数据分析。

2. EXCEL

  1. 目的
    用 java 将其它数据写入 EXCEL

  2. 读写 excel 的 jar 包 jexcelapi 从此处下载
    [http://www.andykhan.com/jexcelapi/download.html

](http://www.andykhan.com/jexcelapi/download.html)

  1. java 读写 excel 例程示例
    http://www.javaeye.com/topic/55844
    [http://mengqingyu.javaeye.com/blog/440358

](http://mengqingyu.javaeye.com/blog/440358)

3. 数据分析软件 SPSS(占据 90% 市场分额)

  1. 目的
    整理数据,分析数据,结果展示

  2. 读入数据

  1. 方法一:从 excel 中复制单元格,粘贴在 SPSS 中

  2. 直接打开 excel 文件 (*.xls),注意因为版本原因,用 java 写的 xls 有的需要再用 excel

转存一下才能供 SPSS 使用

  1. 操作数据
  1. 数据处理
  1. 修改字段类型
    从 SPSS 左下角的进入 Variable View 选项卡,可改变字段的类型值
    Meature 数据量度: Scale(数值), Ordinal(可排序), Nominal(离散)

  2. 计算新变量
    菜单 Transform->Compute varliable,将根据现有列计算出新列

  3. 排序
    菜单 Transform->Rank cases 生成新列,新列中是排序号

  4. 修改内容
    菜单 Transform->Record into xxx,根据某列数据通过某种算法产生新数据

  5. 文件操作
    菜单 Data->Merge File

  6. 数据整理: 菜单 Data->Select Cases,数据选择
    菜单 Data->Weight Cases,数据加权

  1. 数据分析
  1. 生成关系矩阵
    菜单 Analyze->Correlate->Bivariate,生成矩阵,数越大,相关性越大

  2. 生成 K 均值聚簇
    菜单 Analyze->Classify->K-Means cluster,将需计算的数据放入 Variables,说明列放入 Label

Cases by,在 Iterate 中设置迭代次数,Number of clusters 中输入簇数,选中 Save

中项,以生成列(记录属于哪个簇,与簇心的距离)

  1. 数据描述,结果展示: 菜单 Graphs

  2. 注意:开始使用时,数据最好转成 int 型,以便于计算

  1. 菜单说明
    Data 菜单:操作行
    Transform 菜单:操作列
    Analyze 菜单:数据分析,主要是聚类和分类方法

4. 数据挖掘软件 WEKA

  1. 目的
    数据分析

  2. 读入数据

  1. 使用 SPSS 和 Excel 保存为 csv 文件 (文本格式的数据文件)

  2. 在预处理选项卡中用 Open file 打开 csv 文件,注意 csv 中不能含有特殊字符

  3. WEKA 中默认的文本格式为 arff,也是一种文本格式的数据文件

  1. 操作数据
  1. 分类
    选项卡 Classify 选择 Choose->trees->J48 或 ID3 (ID3 只能处理离散值),生成决策树

  2. 关联
    选项卡 Associate 选择 Choose->apriori,在按钮右侧通过点击设置支持度 (lowerBoundMinSuport)

,可信度 (upperBoundMinSupport),apriori 需要离散化数据

5. 参考

  1. 《spss 数据统计分析与实践》pdf 文档