Utopia_1919

mahout之推荐系统源码笔记（3） ---执行推荐之RecommenderJob

mahout之推荐系统源码笔记（3） —执行推荐之RecommenderJob

本笔记承接笔记二。

在笔记2中我们通过RowSimilarityJob获取了所有物品之间的相似度矩阵，通过这个矩阵，接下来我们就可以开始推荐了~

首先我们回到RecommenderJob。RecommenderJob在执行RowSimilarityJob之后执行了下面这个job：

    Job partialMultiply = new Job(getConf(), "partialMultiply");
    Configuration partialMultiplyConf = partialMultiply.getConfiguration();
    //两个map
    MultipleInputs.addInputPath(partialMultiply, similarityMatrixPath, SequenceFileInputFormat.class,
            SimilarityMatrixRowWrapperMapper.class);
    MultipleInputs.addInputPath(partialMultiply, new Path(prepPath, PreparePreferenceMatrixJob.USER_VECTORS),
            SequenceFileInputFormat.class, UserVectorSplitterMapper.class);
    partialMultiply.setJarByClass(ToVectorAndPrefReducer.class);
    partialMultiply.setMapOutputKeyClass(VarIntWritable.class);
    partialMultiply.setMapOutputValueClass(VectorOrPrefWritable.class);
    //两个map在这里reduce
    partialMultiply.setReducerClass(ToVectorAndPrefReducer.class);
    partialMultiply.setOutputFormatClass(SequenceFileOutputFormat.class);
    partialMultiply.setOutputKeyClass(VarIntWritable.class);
    partialMultiply.setOutputValueClass(VectorAndPrefsWritable.class);
    partialMultiplyConf.setBoolean("mapred.compress.map.output", true);
    partialMultiplyConf.set("mapred.output.dir", partialMultiplyPath.toString());

我们看到这个job有点奇怪，为什么呢？因为他有两个inputPath的设置，那么我们就可以知道它是两个map然后将数据总和reduce。
两个map分别是：SimilarityMatrixRowWrapperMapper、UserVectorSplitterMapper
通过之上的代码可以看到，SimilarityMatrixRowWrapperMapper的输入数据是之前我们RecommenderJob得到的相似矩阵，而UserVectorSplitterMapper的输入数据是我们再笔记1中的预备job中得到的user-item，pref矩阵。
首先我们看SimilarityMatrixRowWrapperMapper的代码：

public final class SimilarityMatrixRowWrapperMapper extends
    Mapper<IntWritable,VectorWritable,VarIntWritable,VectorOrPrefWritable> {

  private final VarIntWritable index = new VarIntWritable();
  private final VectorOrPrefWritable vectorOrPref = new VectorOrPrefWritable();

  @Override
  protected void map(IntWritable key,
                     VectorWritable value,
                     Context context) throws IOException, InterruptedException {
    Vector similarityMatrixRow = value.get();
    /* remove self similarity */
    //这里它将item关于自己的相似度设为NaN，其实并不是这一步remove
    //而是通过设置自己的相似度为最大在之后的计算中不在考虑，通过这种间接的方法remove
    similarityMatrixRow.set(key.get(), Double.NaN);

    index.set(key.get());
    vectorOrPref.set(similarityMatrixRow);
    context.write(index, vectorOrPref);
  }

这里有一个小细节，我们可以看到，vectorOrPref的类型已经不是普通的Vector了，而是变为了VectorOrPrefWritable，那么这个VectorOrPrefWritable是什么呢？我们跟进代码可以看到：

public final class VectorOrPrefWritable implements Writable {

  private Vector vector;
  private long userID;
  private float value;

  ...
  void set(Vector vector) {
    this.vector = vector;
    this.userID = Long.MIN_VALUE;
    this.value = Float.NaN;
  }

可以看到这个类型拥有三个成员，分别是一个Vector，一个long存放userID，一个float存放Value，而我们之上的map中的vectorOrPref对Vector进行赋值，其他两个变量的值根据set函数可以看到设置成了极小。接下来我们看另一个map，UserVectorSplitterMapper：

public final class UserVectorSplitterMapper extends
    Mapper<VarLongWritable,VectorWritable, VarIntWritable,VectorOrPrefWritable> {

  ...

  @Override
  protected void map(VarLongWritable key,
                     VectorWritable value,
                     Context context) throws IOException, InterruptedException {
    long userID = key.get();

    log.info("UserID = {}", userID);

    if (usersToRecommendFor != null && !usersToRecommendFor.contains(userID)) {
      return;
    }

    //通过跟进函数可以知道这个函数是一个小型的剪枝函数，减去我们考虑值范围之外的小的偏好值
    Vector userVector = maybePruneUserVector(value.get());

    //翻转为item-user并且放在vectorOrPref中，这个我们之后会说。
    for (Element e : userVector.nonZeroes()) {
      itemIndexWritable.set(e.index());
      vectorOrPref.set(userID, (float) e.get());
      context.write(itemIndexWritable, vectorOrPref);
    }
  }

  private Vector maybePruneUserVector(Vector userVector) {
    if (userVector.getNumNondefaultElements() <= maxPrefsPerUserConsidered) {
      return userVector;
    }

    float smallestLargeValue = findSmallestLargeValue(userVector);

    // "Blank out" small-sized prefs to reduce the amount of partial products
    // generated later. They're not zeroed, but NaN-ed, so they come through
    // and can be used to exclude these items from prefs.
    //可以看到他将用户定义或者默认的最大关注值之外的的所有偏小的偏好评价设置为NaN
    //之前说过，设置为NaN的条目我们就会不会考虑所以通过这种方式达到剪枝的目的
    for (Element e : userVector.nonZeroes()) {
      float absValue = Math.abs((float) e.get());
      if (absValue < smallestLargeValue) {
        e.set(Float.NaN);
      }
    }

    return userVector;
  }

  private float findSmallestLargeValue(Vector userVector) {

    PriorityQueue topPrefValues = new PriorityQueue(maxPrefsPerUserConsidered) {
      @Override
      protected boolean lessThan(Float f1, Float f2) {
        return f1 < f2;
      }
    };

    //找到在数量maxPrefsPerUserConsidered外的偏好条目偏好最小的最大值
    for (Element e : userVector.nonZeroes()) {
      float absValue = Math.abs((float) e.get());
      topPrefValues.insertWithOverflow(absValue);
    }
    return topPrefValues.top();
  }

}

可以看到这里也出现了vectorOrPref，找到声明：
private final VectorOrPrefWritable vectorOrPref = new VectorOrPrefWritable();”
可以看到它的类型也是VectorOrPrefWritable ，这里的set代码如下：

public void set(long userID, float value) {
    this.vector = null;
    this.userID = userID;
    this.value = value;
  }

可以看到它将Vector设置为null。为什么要使用这种结构？其实就是为了使两个map不同的结果进行合并，通过一个reduce得到合并的结果，如果模糊我们接下来看这两个map的reduce就明白了。
在此之前我们引入另一个mahout自定义的类VectorAndPrefsWritable，可以看到类声明如下：

public final class VectorAndPrefsWritable implements Writable {

  private Vector vector;
  private List userIDs;
  private List values;

  ...
  public void set(Vector vector, List userIDs, List values) {
    this.vector = vector;
    this.userIDs = userIDs;
    this.values = values;
  }
  ...

可以清晰得看到这个结构，接下来我们看reduce：ToVectorAndPrefReducer的代码：

public final class ToVectorAndPrefReducer extends
    Reducer<VarIntWritable,VectorOrPrefWritable,VarIntWritable,VectorAndPrefsWritable> {

  private final VectorAndPrefsWritable vectorAndPrefs = new VectorAndPrefsWritable();

  @Override
  protected void reduce(VarIntWritable key,
                        Iterable values,
                        Context context) throws IOException, InterruptedException {

    //使用List容器存放userID和pref
    List userIDs = new ArrayList<>();
    List prefValues = new ArrayList<>();
    Vector similarityMatrixColumn = null;
    for (VectorOrPrefWritable value : values) {
      if (value.getVector() == null) {
        // Then this is a user-pref value
        userIDs.add(value.getUserID());
        prefValues.add(value.getValue());
      } else {
        // Then this is the column vector
        if (similarityMatrixColumn != null) {
          throw new IllegalStateException("Found two similarity-matrix columns for item index " + key.get());
        }
        similarityMatrixColumn = value.getVector();
      }
    }

    if (similarityMatrixColumn == null) {
      return;
    }

    vectorAndPrefs.set(similarityMatrixColumn, userIDs, prefValues);
    context.write(key, vectorAndPrefs);
  }

}

这个reduce并不难理解，其实就是通过对VectorOrPrefWritable类型的三个成员判断来对两个map的结果进行融合合并。具体步骤可以表达如下：

map1:
补全[itemA ,Vector]中关于自己的所有相似度，并置为NaN: [itemA ,Vector]
-> 构建VectorOrPrefWritable格式，将Vector添加进VectorOrPrefWritable.vector
-> 整合得到[itemA , VectorOrPrefWritable(Vector,NaN,NaN)]

map2:
[userID,Vector] 
-> 构建VectorOrPrefWritable格式，将userID和Pref添加进VectorOrPrefWritable
-> [itemID , VectorOrPrefWritable(null , userID, Pref)]

reduce:

->[itemA , VectorAndPrefsWritable (Vector , List, List)]

解释一下，这里的userList存放着所有与itemA相关的用户，prefList存放着所有相关的偏好。而vector存放关于itemA的相似度向量。

我们得到了关于每个item的相似矩阵、相关用户、偏好值，接下来我们就可以开始推荐了，RecommenderJob中下一个job代码如下：

Job aggregateAndRecommend = prepareJob(
            new Path(aggregateAndRecommendInput), outputPath, SequenceFileInputFormat.class,
            PartialMultiplyMapper.class, VarLongWritable.class, PrefAndSimilarityColumnWritable.class,
            AggregateAndRecommendReducer.class, VarLongWritable.class, RecommendedItemsWritable.class,
            outputFormat);
    Configuration aggregateAndRecommendConf = aggregateAndRecommend.getConfiguration();

job的mapreduce分别为（PartialMultiplyMapper，AggregateAndRecommendReducer）
首先我们看到这里的输入路径是aggregateAndRecommendInput，根据 String aggregateAndRecommendInput = partialMultiplyPath.toString();我们知道其实就是partialMultiplyPath，而partialMultiplyPath正是上一个mapreduce的输出，也就是我们刚才得到的那个关于item的信息集合。
然后我们跟进PartialMultiplyMapper可以看到代码如下：

public final class PartialMultiplyMapper extends
    Mapper<VarIntWritable,VectorAndPrefsWritable,VarLongWritable,PrefAndSimilarityColumnWritable> {

  private final VarLongWritable userIDWritable = new VarLongWritable();
  private final PrefAndSimilarityColumnWritable prefAndSimilarityColumn = new PrefAndSimilarityColumnWritable();

  @Override
  protected void map(VarIntWritable key,
                     VectorAndPrefsWritable vectorAndPrefsWritable,
                     Context context) throws IOException, InterruptedException {

    Vector similarityMatrixColumn = vectorAndPrefsWritable.getVector();
    List userIDs = vectorAndPrefsWritable.getUserIDs();
    List prefValues = vectorAndPrefsWritable.getValues();

    //通过对下面for循环分析可以知道
    //其将输入格式变为了[userid ,  >]
    //即基于用户操作记录的所有item的相似度以及其偏好。
    for (int i = 0; i < userIDs.size(); i++) {
      long userID = userIDs.get(i);
      float prefValue = prefValues.get(i);
      if (!Float.isNaN(prefValue)) {
        prefAndSimilarityColumn.set(prefValue, similarityMatrixColumn);
        userIDWritable.set(userID);
        context.write(userIDWritable, prefAndSimilarityColumn);
      }
    }
  }

得到基于用户操作记录的所有item的相似度以及其偏好之后我们接下来跟进AggregateAndRecommendReducer。
由于AggregateAndRecommendReducer代码比较长，我们分阶段步骤进行分析，首先我们来看AggregateAndRecommendReducer的reduce代码：

  protected void reduce(VarLongWritable userID,
                        Iterable values,
                        Context context) throws IOException, InterruptedException {
    //判断是否具有偏好值
    if (booleanData) {
      reduceBooleanData(userID, values, context);
    } else {
      reduceNonBooleanData(userID, values, context);
    }
  }

可以看到这个reduce极其简单，根据是否具有偏好值将处理函数分为reduceBooleanData和reduceNonBooleanData进行处理，传入reduce的key和value，接下来我们先来看reduceBooleanData，也就是不具有偏好划分的数据，mahout是怎么处理的，跟进reduceBooleanData：

private void reduceBooleanData(VarLongWritable userID,
                                 Iterable values,
                                 Context context) throws IOException, InterruptedException {
    //输入格式：[userID ,   Iterable< pref , Vector >]

    /* having boolean data, each estimated preference can only be 1,
     * however we can't use this to rank the recommended items,
     * so we use the sum of similarities for that. */
    //这里英文注释已经说得很清楚了，什么意思呢？
    //就是说因为所有偏好评分我们都设置成了1
    //所以通过正常的根据相似度*偏好评分/相似度的加权平均的方式求得的值全部为1
    //这样就没有排名性了，怎么解决呢？
    //mahout对于这个问题，他通过将所有的相似度相加得到总的相似度来作为预测分数。
    //进而通过预测分数进行排名
    //这样做的从推荐系统的角度来看，他其实是根据两个item基于user的操作来划分预测排名的
    Iterator columns = values.iterator();
    Vector predictions = columns.next().getSimilarityColumn();
    while (columns.hasNext()) {
      //这里用到一个assign函数，函数实现比较复杂，篇幅限制就不再一一跟进
      //他是什么作用呢？其实从他的参数可以看出来
      //通过传进去的Functions对this（当前predictions）的vector和第一个参数Vector进行向量和
      //也就是对当前的predictions指向的vector和getSimilarityColumn得到的vector
      //根据相同的itemIndex将sim相似度值进行加和得到终的结果
      predictions.assign(columns.next().getSimilarityColumn(), Functions.PLUS);
    }

    //以上mahout通过对于每一个user，将与其相关的item的相似度加和，得到一个最终的预测
    //输出格式 [userID,Vector]
    writeRecommendedItems(userID, predictions, context);
  }

总结一下，这个reduce输入格式为：
[userID , Iterable< 1 , Vector< itemID , sim> >] （因为是BooleanData ，所以pref是1）
然后我们将所有项根据userID 与 itemID加和，得到最后输出的相似度。

接下来我们看具有偏好值得reduceNonBooleanData，代码：

private void reduceNonBooleanData(VarLongWritable userID,
                                    Iterable values,
                                    Context context) throws IOException, InterruptedException {

    //输入格式：[userID ,   Iterable< pref , Vector >]
    /* each entry here is the sum in the numerator of the prediction formula */
    //用来做加权平均的分子向量
    Vector numerators = null;
    /* each entry here is the sum in the denominator of the prediction formula */
    //用来做加权平均的分母向量
    Vector denominators = null;
    /* each entry here is the number of similar items used in the prediction formula */
    //统计在同一个user相关的所有物品出现的次数。
    Vector numberOfSimilarItemsUsed = new RandomAccessSparseVector(Integer.MAX_VALUE, 100);

    //两个for循环，其实就是对value的iterator中的每一个的偏好向量中的每一维（每一行）进行计算
    for (PrefAndSimilarityColumnWritable prefAndSimilarityColumn : values) {
      Vector simColumn = prefAndSimilarityColumn.getSimilarityColumn();
      float prefValue = prefAndSimilarityColumn.getPrefValue();
      /* count the number of items used for each prediction */
      for (Element e : simColumn.nonZeroes()) {
        int itemIDIndex = e.index();
        numberOfSimilarItemsUsed.setQuick(itemIDIndex, numberOfSimilarItemsUsed.getQuick(itemIDIndex) + 1);
      }

      if (denominators == null) {
        denominators = simColumn.clone();
      } else {
        //这里计算关于本userID的所有itemID相同的所有item相似度和的绝对值，作为加权平均的分母
        denominators.assign(simColumn, Functions.PLUS_ABS);
      }

      //这里计算关于本userID的所有itemID相同的所有item相似度*prefvalue和的绝对值
      //作为加权平均的分子
      //这里的prefvalue是什么呢？其实就是上一个mapreduce变换以后省略的itemA的用户偏好值
      if (numerators == null) {
        numerators = simColumn.clone();
        if (prefValue != BOOLEAN_PREF_VALUE) {
          numerators.assign(Functions.MULT, prefValue);
        }
      } else {
        if (prefValue != BOOLEAN_PREF_VALUE) {
          simColumn.assign(Functions.MULT, prefValue);
        }
        numerators.assign(simColumn, Functions.PLUS);
      }

    }

    if (numerators == null) {
      return;
    }

    Vector recommendationVector = new RandomAccessSparseVector(Integer.MAX_VALUE, 100);
    for (Element element : numerators.nonZeroes()) {
      int itemIDIndex = element.index();
      /* preference estimations must be based on at least 2 datapoints */
      if (numberOfSimilarItemsUsed.getQuick(itemIDIndex) > 1) {
        /* compute normalized prediction */

        //可以看到在这里加权平均
        double prediction = element.get() / denominators.getQuick(itemIDIndex);
        recommendationVector.setQuick(itemIDIndex, prediction);
      }
    }

    //writeRecommendedItems这个函数的作用是：
    //对我们得到的预测分数排序，推荐出topN个（这个topN用户可以自定义）推荐item
    //然后将item的ID映射回原来输入ID
    writeRecommendedItems(userID, recommendationVector, context);
  }

这样推荐过程就介绍完了，鉴于代码明细和可视化效果不怎么好，以下我模拟了一个例子来演化一下本recommenderjob的过程：
具有偏好：

userID                              pref                           itemID      Sim
                                                                     1         0.2
                                     4                               2         0.5
                                                                     3         NaN
A                                   
                                                                     1         0.3
                                     5                               2         0.4
                                                                     4         NaN

可以看到上图就是经过map以后的基本格式，然后我们需要进行分数预测，那么根据之前的代码，我们这样计算：

itme1 = (0.2*4 + 0.3*5)/(0.2 + 0.3)
item2 = (0.5*4 + 0.4*5)/(0.5 + 0.4)
item3 = (NaN*4)/NaN
item3 = (NaN*5)/NaN

接下来我们看不具有偏好的布尔类型的数据。
不具有偏好（偏好值为1）：

userID                              pref                           itemID      Sim
                                                                     1         0.2
                                     1                               2         0.5
                                                                     3         NaN
A                                   
                                                                     1         0.3
                                     1                               2         0.4
                                                                     4         NaN

可以看到上图就是经过map以后的基本格式，然后我们需要进行分数预测，那么根据之前的代码，我们这样计算：

itme1 = 0.2 + 0.3
item2 = 0.5 + 0.4
item3 = NaN
item3 = NaN

通过以上模拟我们大概知道了mahout是怎么预测推荐的，同时我们通过这个模拟也可以对之前的[itemA , < itemA , NaN >]即将每个item相对于自己的相似度设置为NaN做一个解释。
解释之前，我们先要引入一个问题，这个问题就是，通过以上的推荐，mahout如何做到不给user推荐他已经操作或者说评分过的item？经过一整套分析，我们并没有看到mahout在什么地方做过过滤操作，那么他是怎么是别的呢？
答案就在这个 [itemA , < itemA , NaN >]的处理动作（见上文），在第一个mapreduce中我们将每个item关于自己的item的相似度设置为NaN，这样在接下来的整合、变换中，每个相似度矩阵都保留着这个信息，这个信息从另一个角度说明了该矩阵是关于哪个物品的相似度信息。如上面的例子，我们可以看到第一个相似度矩阵是关于item3的而第二个相似度矩阵是关于item4的。
说了这么半天还是没有说为什么可以排除已经评分过的item。这里我们可以回忆这个转化：

[itemA ,(Vector<itemB , sim> , List<userID> , List<Pref>)]
-> [userID , (Pref , Vector<itemB , sim>)]

可以看到，是根据每个user对itemA的信息进行了拆分，拆分后的信息中并没有itemA，那么我们是丢失了itemA的ID信息吗？并不是，通过[itemA , < itemA , NaN >]的处理，Vector< itemB , sim>中依旧保留着itemA的ID信息，就是那个sim为NaN的那个，这样所有相对于当前userID所评分过的itemA的相似度全部都变成了NaN，这样我们接下来的计算中，所有user已经评分过的item项的相似度都变成了NaN，在预测分数的时候就会自动过滤，因为NaN/NaN = NaN。在计算预测评价的时候我们就直接过滤了这些我们已经打过分的项。

就这样，源于mahout的推荐系统基于hadoop的源码部分我就全部解析完了。接下来还会有一个总结，总体上看一下mahout的hadoop推荐系统做了些什么操作。

转载请注明出处：http://blog.csdn.net/Utopia_1919/article/details/51836903

传统推荐算法库使用--mahout初体验 Huterox 推荐算法算法机器学习
文章目录前言环境准备调用混合总结前言郑重声明：本博文做法仅限毕设糊弄老师使用，不建议生产环境使用！！！老项目缝缝补补又是三年，本来是打算直接重写写个社区然后给毕设使用的。但是怎么说呢，毕竟毕设的主角不是xx社区，这个社区是为我的编译器服务的，为了推广这个编译器，然后我才做了这个社区。然而不幸的是，开题答辩的时候，各位“专家”叫我以xx社区为主，听起来高级。于是没有办法，我只能强行做个社区，怎么做呢
基于音乐/电影/图书的协同过滤推荐算法代码实现 74b3a3e489d4
基于音乐/电影/图书的协同过滤推荐算法代码实现一、开发工具及使用技术MyEclipse10、jdk1.7、tomcat7、jsp、javascript、jquery、bootstrap、webuploader、layer、ssh、mysql、navicat、mahoutAPI等。二、开发过程1、本文主要介绍基于音乐的协同过滤推荐算法代码实现，电影、图书等推荐原理相同。2、本文使用的推荐算法有：基于
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
【大数据分析与挖掘技术】概述 Francek Chen 大数据技术基础数据分析数据挖掘 Mahout
目录一、数据挖掘简介（一）数据挖掘对象（二）数据挖掘流程（三）数据挖掘的分析方法（四）经典算法二、Mahout（一）Mahout简介（二）主要特性（三）Mahout安装与配置一、数据挖掘简介需要是发明之母。近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量数据，可以广泛使用，并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用，包括商务管理，生产控制，市
【大数据分析与挖掘技术】Mahout推荐算法 Francek Chen 大数据技术基础数据分析人工智能数据挖掘 Mahout
目录一、推荐的定义与评估（一）推荐的定义（二）推荐的评估二、Mahout中的常见推荐算法（一）基于用户的推荐算法（二）基于物品的推荐算法（三）基于SVD的推荐算法（四）基于线性插值的推荐算法（五）基于聚类的推荐算法三、对GroupLens数据集进行推荐与评价（一）如何使用推荐器进行推荐（二）如何评估推荐器的好坏推荐是Mahout机器学习算法的主题之一，它极大地渗透到了人们日常生活的方方面面，比如，
计算机毕业设计之全网独家Spark租房爬虫数据分析与推荐系统租房大数据租房app 租房数据分析租房爬虫房源推荐系统房源数据分析房源可视化 haochengxu2022 数据分析爬虫推荐系统 spark 爬虫数据分析推荐系统
一、网站·登录与注册、注销·短信验证码修改密码·我的信息：身份证实名认证·租房业务流程（预约+看房+支付+完成+评价）、进度步骤条展示·支付宝沙箱支付·房屋浏览、中介信息查看·房屋推荐（基于mahout协同过滤算法）·房屋评价、点赞与收藏二、后端·统计主页、个人信息（带头像上传）、权限管理、用户管理、资讯管理、通知管理、日志管理、评论管理、轮播图管理、房屋管理、中介管理、订单管理。·中介权限可以登
推荐系统中协同过滤算法实现分析 weixin_33853794 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>原创博客，欢迎转载，转载请注明：http://my.oschina.net/BreathL/blog/62519最近研究Mahout比较多，特别是里面协同过滤算法；于是把协同过滤算法的这个实现思路与数据流程，总结了一下，以便以后对系统做优化时，有个清晰的思路，这样才能知道该如何优化且优化后数据亦能正确。推荐中的协同过滤算法简单说明下：首先，通过
大数据分析- 基于Hadoop/Mahout的大数据挖掘 shenmanli 大数据 hadoop 数据挖掘行业应用开发人员
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop平台。Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。一、培训对象1，系统架构师、系
“大数据分析挖掘-基于Hadoop/Mahout/Mllib的大数据挖掘（含Spark、Storm和Docker应用介绍）”培训 shenmanli 培训课程公开课企业培训大数据 hadoop spark
随着互联网、移动互联网和物联网的发展，我们已经切实地迎来了一个大数据的时代。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合，对大数据的分析已经成为一个非常重要且紧迫的需求。目前对大数据的分析工具，首选的是Hadoop/Yarn平台。Hadoop/Yarn在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。为解决广大
springboot集成mahout实现简单基于协同过滤算法的文章推荐算法程序个人练习生开源项目学习算法 spring boot 推荐算法
文章目录参考文章前言1.建表并且生成一些数据首先，建立一个用户文章操作表（user_article_operation）使用casewhen语句简单统计数据2.代码与测试只需要根据表生成相应实体类（注意要加一个value属性来存储分数）主要代码如下，其实就两个方法userArticleOperationMapper.getAllUserPreference()方法收集数据mapper文件如下测试算
java电影推荐系统_基于Mahout的电影推荐系统语文乌托邦 java电影推荐系统
1.Mahout简介ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在Mahout的最近版本中还加入了对ApacheHadoop的支持，使这些算法可以更高效的运行在云计算环境中。2.Taste简介T
mahout 源码解析之聚类--聚类迭代模型 theonlytank2011 数据挖掘 mahout源码 mahout源码解析
在前面讲聚类策略时，包org.apache.mahout.clustering.iterator里面还有几个类没有进行讲解，这次做下收尾工作。ClusterIterator利用ClusterClassifier和指定的迭代次数将样本进行聚类。其中有三个具体的函数。iterate主要对内存中的数据进行聚类，输入就为一个Vector类型的迭代器。publicClusterClassifieritera
理论学习--【Hadoop生态原理学习】 zenas_yuan Hadoop hadoop
一、Hadoop原理1.核心：HDFS(存储)、MapReduce(分析)解决大量数据存储与处理的问题离线分析：hive实现查询：hbaseBI分析：Mahout2.版本1.0mapreduce还进行资源调度2.0mapreduce=yarn（资源调度）+mapreduce（进行计算运行在yarn上），HDfs:nn,ha2.1.2yarn还支持strom、spark、。。选择考虑因素：是否开源、
推荐系统-基于物品协同过滤算法代码实现 Moutai码农大数据推荐系统算法推荐算法大数据 spark
1、简介当前Spark没有像mahout那样，严格区分基于物品的协同过滤推荐（ItemCF）和基于用户的协同过滤推荐（UserCF），只有基于模型的协同过滤推荐算法ALS（model-basedCF）。但ALS算法对于一些特定的问题(用户数量较小的场景，以及物品数量明显小于用户数量的场景)，效果并不理想，不像mahout提供了各种推荐算法选择。为了充分利用spark在速度上带来的提升同时为满足一些
java+jsp+mysql实现在线电影推荐系统movieCFWeb mahout实现基于用户的协同过滤推荐算法基于项目的协同过滤推荐算法 74b3a3e489d4
java+jsp+mysql实现在线电影推荐系统movieCFWeb一、项目简介http://localhost:8080/movieCFWeb/前台http://localhost:8080/movieCFWeb/admin后台自定义数据，mahout实现基于用户的协同过滤推荐算法前台包含用户注册、登录、搜索电影、分页、电影详情、评分、修改信息、评分列表、推荐电影等功能后台包括用户、电影、评分、
2.3 初探Hadoop世界 howard2005 数据清洗和预处理大数据离线分析 hadoop 大数据分布式
文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop的前世今生1、Google处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程（二）Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性（三）Hadoop的生态体系1、HDFS分布式文件系统2、MapReduce分布式计算框架3、Yarn资源管理框架4、Sqoop数据迁移工具5、Mahout数据挖
「大数据集群的搭建和使用」背景知识：大数据Hadoop生态圈介绍优秀的Athena在休息大数据集群的搭建和使用大数据 hadoop 分布式
目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.HBase7.HCatalog8.Avro9.Thrift10.Drill11.Mahout12.Sqoop13.Flume14.Ambari15.Zookeeper四、Hadoop优缺点五、Hadoop学
【大数据】Hadoop 生态系统及其组件 G皮T #Hadoop hadoop big data 大数据 hdfs hive mapreduce yarn
Hadoop生态系统及其组件1.Hadoop生态系统的组成2.Hadoop生态系统简介2.1HDFS2.2MapReduce2.3YARN2.4Hive2.5Pig2.6HBase2.7HCatalog2.8Avro2.9Thrift2.10Drill2.11Mahout2.12Sqoop2.13Flume2.14Ambari2.15Zookeeper2.16Oozie1.Hadoop生态系统的组
26Hbase介绍及其数据模型和架构（hbase学习1）文茶君
Hbase介绍Hadoop生态系统spark已经替代mahouthbase简介：非关系型数据库知识面扩展cassandra、hbase、mongodb（文档型数据库）、rediscouchdb，文件存储数据库Neo4j非关系型图数据库HbaseHadoopDatabase，是一个高可靠性、高性能、面向列（面向列的KV数据库）、可伸缩（动态扩展机器。不需要停服务）、实时读写的分布式数据库利用Hado
Item-Based Recommendations with Hadoop liuyuan185442111 Old Hadoop hadoop 大数据分布式
Mahout在MapReduce上实现了Item-BasedCollaborativeFiltering，这里我尝试运行一下。安装Hadoop从下载Mahout并解压准备数据下载1MillionMovieLensDataset，解压得到ratings.dat，用sed‘s/:[0-9]{1,}):[0-9]{1})::[0-9]{1,}$/,\1,\2/’ratings.dat处理成需要的格式。运
【大数据毕设】基于Hadoop的音乐推荐系统论文(三) Maynor996 #课设＆毕设大数据课程设计 hadoop
博主介绍：✌全网粉丝6W+,csdn特邀作者、博客专家、大数据领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战✌文末获取项目联系摘要本文基于Hadoop技术，设计并实现了一个名为“酷酷音乐网站”的系统，用于音乐资源的存储、管理和推荐。该系统采用Hadoop生态系统中的组件，包括HDFS、MapReduce、HBase和Mahout等，实现
如何使用Java进行机器学习? 玥沐春风 java 机器学习开发语言
在Java中进行机器学习，可以使用各种开源机器学习库和框架来实现。以下是一些常用的Java机器学习库：Weka：Weka是一个非常流行的机器学习库，提供了大量的算法和工具，以及用于数据预处理、特征选择和可视化的功能。Deeplearning4j：Deeplearning4j是一个用于深度学习的开源库，支持多种神经网络模型和训练算法，可以用于图像分类、文本分析等任务。ApacheMahout：Apa
阿里云上部署java8和hadoop3.0、spark、hive及Mahout karwik 大数据
1.安装JDK1.8到oracle官网：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmllinux是64位的，安装jdk-8u131-linux-x64.tar.gz安装及配置参考http://blog.csdn.net/rchm8519/article/details/48721
【大数据】图解 Hadoop 生态系统及其组件 G皮T #Hadoop 大数据 hadoop 分布式 hdfs mapreduce yarn hive
图解Hadoop生态系统及其组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12.Ambari13.Spark在了解Hadoop生态系统及其组件之前，我们首先了解一下Hadoop的三大组件，即HDFS、MapReduce、YARN，它们共同构成了Hadoop分布式计算框架的核心
斯皮尔曼相关性 —— Spearman Correlation ifnoelse 推荐算法 user cache action 存储
斯皮尔曼相关性可以理解为是排列后（Rank）用户喜好值之间的Pearson相关度。《MahoutinAction》中有这样的解释：假设对于每个用户，我们找到他最不喜欢的物品，重写他的评分值为“1”；然后找到下一个最不喜欢的物品，重写评分值为“2”，以此类推。然后我们对这些转换后的值求Pearson相关系数，这就是Spearman相关系数。斯皮尔曼相关度的计算舍弃了一些重要信息，即真实的评分值。但它
java+jsp+mysql实现个性化租车推荐系统carcfrs mahout实现基于用户、项目的协同过滤推荐算法 SSH（spring+struts+hibernate）开发框架 74b3a3e489d4
java+jsp+mysql实现个性化租车推荐系统carcfrs一、项目简介只有前台用户，没有管理员，功能是用户登录、注册、评论、评分、收藏、热点推荐、基于用户根据评分进行协同过滤推荐算法，数据爬虫爬取一嗨租车数据。二、项目展示
Mahout教程_编程入门自学教程_菜鸟教程-免费教程分享菜鸟一记笔记
教程简介Mahout是ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。Mahout教程-使用此入门教程，从简介，机器學習，环境，推荐，聚
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop mahout实现基于用户、项目的协同过滤推荐算法个性化购物推荐系统 74b3a3e489d4
SSH（Spring+Hibernate+Struts）开发框架开发购物商城推荐系统shop项目简介1、前台：http://localhost:8080/ComputerRecom/后台：http://localhost:8080/ComputerRecom/admin/login.jsp用户名：admin密码：admin；2、推荐使用mahout接口实现基于用户、项目的协同过滤推荐算法，ssh开
大数据学习记录（hadoop hive flume azkaban sqoop）左上晨大数据 hadoop hive flume azkaban
大数据学习记录（hadoophiveflumeazkabansqoop）1.hadoop对海量数据进行分布式处理2.核心组件：HDFS（分布式文件系统）、YARN（运算资源调度系统）、MAPREDUCE（分布式运算编程框架）3.HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具4.HBASE：基于HADOOP的分布式海量数据库5.Mahout：基于mapreduce/spark/f
构建智能电商推荐系统：大数据实战中的Kudu、Flink和Mahout应用【上进小菜猪大数据】上进小菜猪大数据专栏合集大数据 flink 人工智能
上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。本文将介绍如何利用Kudu、Flink和Mahout这三种技术构建一个强大的大数据分析平台。我们将详细讨论这些技术的特点和优势，并提供代码示例，帮助读者了解如何在实际项目中应用它们。通过本文的指导，读者将能够掌握如何使用这些工具来处理大规模数据集，并进行智能分析。在当今的信息时代，大数据分析成为了各行各业中不可或缺的一环。为了有效地处理海量
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

mahout之推荐系统源码笔记（3） ---执行推荐之RecommenderJob

mahout之推荐系统源码笔记（3） —执行推荐之RecommenderJob

你可能感兴趣的:(mahout)