Weka在数据挖掘中的运用 02 Getting Started with Weka

Weka的发音不是Weaker


  • 安装Weka
  • 研究“Explorer”接口
  • 研究一些数据集
  • 创建一个分类器
  • 解释输出
  • 使用 filters(过滤器)
  • 可视化数据集

安装Weka

  • java环境
  • 安装包
    • 选择适合你电脑系统的版本。

Explorer界面


对于这门课程指用到Exploer界面。

  • Experimenter界面针对基于不同数据集的不同机器学习方法的大规模性能比较。
  • KnowlegeFlow界面是Weka的图形界面
    和命令行界面。

Weka界面上方有五个不同的面板(Panel)
Preprocess:预处理
Classify:分类面板
Cluster:据类面板
Associate:关联规则
Select attributes:属性选择
Visualize:可视化面板
在这门课中,我们只学习使用预处理面板打开文件,用分类面板做数据分类,用可视化面板来打开一个数据集。

数据集

eg:天气数据集


14个样本,14天的天气,五个属性,其中四个与天气相关,第五个属性Play(玩),代表适不适合做某件事。

我们要做的就是同个其他属性来预测可以Play(玩)的可能性。

打开数据集

[图片上传中...(image.png-ca03db-1600935667732-0)]

通过open file打开数据集,例子中的数据集在Weka安装目录中的data中。

数据集在Weka的展示

属性值的数量

先不管彩色的图像是什么。
我们看左边的信息。
有15个Instances(实例、样本),每个样本有5个属性。
分别是outlook(阴晴)、temperature、humidity、windy、play。
我们点击了一个属性之后, 右上方可以看看到属性的数值有哪些。
如图,outlook,属性为sunny有5个,overcast(多云)有4个,rainy有5个。一共就十四个样本。
点击其他属性就可以看到不同属性的属性值在样本中所占的数量。

Weka柱状图的含义

我们点击play属性,可以看到。



图像play的属性显示了9个yes,5个no。

回到outlook,就可以看到


属性值为sunny的样本有5个,其中3个样本play属性值为no(红色),2个样本为yes(蓝色)。outlook属性值为cloudy的时候4个样本play的属性值都是yes(蓝色)

编辑面板



点击Edit就可以打开编辑面板直接修改数据集的数值。



编辑完之后点击Save就会保存(这里不要点,之后实验还需要用到这个数据集)

你可能感兴趣的:(Weka在数据挖掘中的运用 02 Getting Started with Weka)