安装Weka

java环境
安装包
- 选择适合你电脑系统的版本。

Explorer界面

对于这门课程指用到Exploer界面。

Experimenter界面针对基于不同数据集的不同机器学习方法的大规模性能比较。
KnowlegeFlow界面是Weka的图形界面
和命令行界面。

Weka界面上方有五个不同的面板（Panel）
Preprocess：预处理
Classify：分类面板
Cluster：据类面板
Associate：关联规则
Select attributes：属性选择
Visualize：可视化面板
在这门课中，我们只学习使用预处理面板打开文件，用分类面板做数据分类，用可视化面板来打开一个数据集。

数据集

eg：天气数据集

14个样本，14天的天气，五个属性，其中四个与天气相关，第五个属性Play（玩），代表适不适合做某件事。

我们要做的就是同个其他属性来预测可以Play（玩）的可能性。

打开数据集

[图片上传中...(image.png-ca03db-1600935667732-0)]

通过open file打开数据集，例子中的数据集在Weka安装目录中的data中。

数据集在Weka的展示

属性值的数量

先不管彩色的图像是什么。
我们看左边的信息。
有15个Instances（实例、样本），每个样本有5个属性。
分别是outlook（阴晴）、temperature、humidity、windy、play。
我们点击了一个属性之后，右上方可以看看到属性的数值有哪些。
如图，outlook，属性为sunny有5个，overcast（多云）有4个，rainy有5个。一共就十四个样本。
点击其他属性就可以看到不同属性的属性值在样本中所占的数量。

Weka柱状图的含义

我们点击play属性，可以看到。

图像play的属性显示了9个yes，5个no。

回到outlook，就可以看到

属性值为sunny的样本有5个，其中3个样本play属性值为no（红色），2个样本为yes（蓝色）。outlook属性值为cloudy的时候4个样本play的属性值都是yes（蓝色）

编辑面板

点击Edit就可以打开编辑面板直接修改数据集的数值。

编辑完之后点击Save就会保存（这里不要点，之后实验还需要用到这个数据集）

Weka在数据挖掘中的运用 02 Getting Started with Weka