基于Hadoop2.6.0的Mahout0.12.1的配置与使用

一. Mahout的安装

1.下载

http://mirror.bit.edu.cn/apache/mahout/0.12.1/下载地址中下载apache-mahout-distribution-0.12.1.tar.gz

2.解压

tar -C /opt/Mahout -zxvf mahout-distribution-0.12.1.tar.gz   

(我将压缩包解压到了/opt/Mahout目录下,用户可以根据自己的需要选择合适的解压目录)

3、环境变量

在/etc/profile中配置环境变量。


4、验证Mahout是否安装成功

执行mahout命令,若出现一些算法,说明安装成功。

基于Hadoop2.6.0的Mahout0.12.1的配置与使用_第1张图片

二.Mahout的使用

1、下载测试数据
从http://archive.ics.uci.edu/ml/databases/synthetic_control/中下载synthetic_control.data的数据。
2、上传测试数据
将下载下来的数据上传到/user/root/testdata这个目录下。
(我将下载下来的数据改名为kmeans.txt,并暂存在/home/panky这个目录下)

基于Hadoop2.6.0的Mahout0.12.1的配置与使用_第2张图片

3、使用Mahout中的kmeans聚类算法

执行如下命令


4、若出现以下结果,说明运行成功

基于Hadoop2.6.0的Mahout0.12.1的配置与使用_第3张图片

三.错误

问题:

Error: org.apache.mahout.math.CardinalityException: Required cardinality 10 but got 30

解决:
如果出现以上问题,说明数据源被损坏或者不完整,重新下载数据并上传即可。


你可能感兴趣的:(Hadoop)