小胡说人工智能

基于LDA主题+协同过滤+矩阵分解算法的智能电影推荐系统——机器学习算法应用(含python、JavaScript工程源码)+MovieLens数据集（三）

前言
总体设计
- 系统整体结构图
- 系统流程图
运行环境
模块实现
- 1. 数据爬取及处理
- 2. 模型训练及保存
- - 1）协同过滤
  - 2）矩阵分解
  - 3）LDA主题模型
- 3. 接口实现
- - 1）流行电影推荐
  - 2）相邻用户推荐
  - 3）相似内容推荐
相关其它博客
工程源代码下载
其它资料下载

前言

前段时间，博主分享过关于一篇使用协同过滤算法进行智能电影推荐系统的博文《基于TensorFlow+CNN+协同过滤算法的智能电影推荐系统——深度学习算法应用(含微信小程序、ipynb工程源码)+MovieLens数据集》，有读者反映该项目有点复杂，于是我决定再给大家分享个使用机器学习算法简单实现电影推荐的项目。

本项目基于Movielens数据集，采用协同过滤、矩阵分解以及建立LDA主题模型等机器学习算法，旨在设计和训练一个合适的智能电影推荐模型。最终的目标是根据电影的相似性以及用户的历史行为，生成一个个性化的电影推荐列表，从而实现网站为用户提供精准电影推荐的功能。

首先，项目收集了Movielens数据集，其中包含了大量用户对电影的评分和评论。这个数据集提供了有关用户和电影之间互动的信息，是推荐系统的核心数据。

然后，项目使用协同过滤算法，这可以是基于用户的协同过滤（User-Based Collaborative Filtering）或基于item的协同过滤（Item-Based Collaborative Filtering）。这些算法分析用户之间的相似性或电影之间的相似性，以提供个性化推荐。

此外，矩阵分解技术也被应用，用于分解用户-电影交互矩阵，以发现潜在的用户和电影特征。这些特征可以用于更准确地进行推荐。

另外，项目还使用了LDA主题模型，以理解电影的主题和用户的兴趣。这有助于更深入地理解电影和用户之间的关联。

最终，根据电影的相似性和用户的历史行为，系统生成了一个个性化的电影推荐列表。这个列表可以根据用户的兴趣和偏好提供电影推荐，从而提高用户体验。

总结来说，这个项目结合了协同过滤、矩阵分解和主题建模等技术，以实现一个个性化电影推荐系统。这种系统有助于提高用户在网站上的互动和满意度，同时也有助于电影网站提供更精准的内容推荐。

总体设计

本部分包括系统整体结构图和系统流程图。

系统整体结构图

系统整体结构如图所示。

系统流程图

系统流程如图所示。

运行环境

本部分包括 Python 环境、Pycharm 环境及数据库环境。

详见博客。

模块实现

本项目包括5个模块：数据爬取及处理、模型训练及保存、接口实现、收集数据、界面设计。下面分别介绍各模块的功能及相关代码。

1. 数据爬取及处理

详见博客。

2. 模型训练及保存

输入命令构建模型并训练：

python -m Builder.item_similarity_calculator
python -m Builder.matrix_factorization_calculator
python -m Builder.lda_model_calculator

以上三行命令分别代表基于协同过滤、矩阵分解、LDA主题模型。

1）协同过滤

相关代码如下：

import os
from tqdm import tqdm
from datetime import datetime
import pandas as pd
import psycopg2
from scipy.sparse import coo_matrix, csr_matrix
import numpy as np

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "Recs.settings")
import django
django.setup()

from Analytics.models import Rating
from Recs import settings

class ItemSimilarityMatrixBuilder(object):
    def __init__(self, min_overlap=15, min_sim=0.2):
        # 同时对 item1 和 item2 有过评分的最小用户数
        self.min_overlap = min_overlap
        # 最小相似度
        self.min_sim = min_sim
        self.db = settings.DATABASES['default']['ENGINE']

    # ratings 评分数据，save 是否保存到数据库，默认保存
    def build(self, ratings, save=True):
        print("Calculating similarities ... using {} ratings".format(len(ratings))
        start_time = datetime.now()
        print("Creating ratings matrix")
        ratings['rating'] = ratings['rating'].astype(float)
        # 计算每个 user_id 的平均评分，并做归一化处理
        ratings['avg'] = ratings.groupby('user_id')['rating'].transform(lambda x: normalize(x))
        # 把 user_id，movie_id 转为 pandas 的类别，以便去重
        ratings['avg'] = ratings['avg'].astype(float)
        ratings['user_id'] = ratings['user_id'].astype('category')
        ratings['movie_id'] = ratings['movie_id'].astype('category')
        # 构建稀疏评分矩阵，没有评分的数据全部用 0 填充
        coo = coo_matrix((ratings['avg'].astype(float),
            (ratings['movie_id'].cat.codes.copy(),
            ratings['user_id'].cat.codes.copy()))
        # 计算两个 item 间的重叠个数，同时对 item1 和 item2 有过评分的用户数
        print("Calculating overlaps between the items")
        overlap_matrix = coo.astype(bool).astype(int).dot(coo.transpose().astype(bool).astype(int))
        # 重叠部分大于 min_overlap 的 item 数量
        number_of_overlaps = (overlap_matrix > self.min_overlap).count_nonzero()
        print("Overlap matrix leaves {} out of {} with {}".format(number_of_overlaps, overlap_matrix.count_nonzero(), self.min_overlap))
        print("Rating matrix (size {}x{}) finished, in {} seconds".format
            (coo.shape[0], coo.shape[1], datetime.now() - start_time))
        sparsity_level = 1 - (ratings.shape[0] / (coo.shape[0] * coo.shape[1]))
        print("Sparsity level is {}".format(sparsity_level))
        start_time = datetime.now()
        # 初始化一个为 0 的相似度矩阵
        print("Calculating similarity between the items")
        cor = self.calculating_similarity(coo)
        # cor = cosine_similarity(coo, dense_output=False)
        # print(type(cor))
        # print(cor)
        # 相似度大于最小相似度的元素，进行对应位置相乘
        cor = cor.multiply(cor > self.min_sim)
        # 相似度大于最小重叠度的元素，进行对应位置相乘
        cor = cor.multiply(overlap_matrix > self.min_overlap)
        print(cor)
        movies = dict(enumerate(ratings['movie_id'].cat.categories))
        print('Correlation is finished, done in {} seconds'.format(datetime.now() - start_time))
        if save:
            start_time = datetime.now()
            print('save starting')
            if self.db == 'django.db.backends.postgresql':
                self.save_similarity(cor, movies)
            print('save finished, done in {} seconds'.format(datetime.now() - start_time))
        return cor, movies

    # 计算相似度优化算法，从 SKlearn 得到启发
    def calculating_similarity(self, coo):
        # 稀疏矩阵转 Numpy 数组
        data_array = coo.toarray()
        data_array = check_array(data_array)
        # 爱因斯坦求和约定，即对两个矩阵按元素位置对应相乘，按行求和
        norms = np.einsum('ij,ij->i', data_array, data_array)
        np.sqrt(norms, norms)
        norms[norms == 0.0] = 1.0
        data_array /= norms[:, np.newaxis]
        # 运算之后把 numpy 的多维数组或矩阵转为 scipy 的稀疏矩阵进行计算，否则汇报内存溢出
        array_sparse = csr_matrix(data_array)
        sim_matrix = array_sparse @ array_sparse.transpose()
        return sim_matrix

    def save_similarity(self, sim_matrix, index, created=datetime.now()):
        # 设置开始时间
        start_time = datetime.now(
        print('truncating table in {} seconds'.format(datetime.now() - start_time))
        sims = []
        no_saved = 0
        start_time = datetime.now()
        print('instantiation of coo_matrix in {} seconds'.format(datetime.now() - start_time))
        # 计算相似度矩阵
        coo = coo_matrix(sim_matrix)
        csr = coo.tocsr()
        query="insert into similarity (created,source,target,similarity) values %s;"
        conn = self.get_connect()
        cur = conn.cursor()
        cur.execute('truncate table similarity')
        print('{} similarities to save'.format(coo.count_nonzero()))
        # 初始化相似度矩阵
        xs, ys = coo.nonzero()
        for x, y in tqdm(zip(xs, ys), leave=True):
            if x == y:
                continue
            sim = csr[x, y]
            # 寻找相似度最高的用户
            if sim < self.min_sim:
                continue
            if (len(sims)) == 500000:
                psycopg2.extras.execute_values(cur, query, sims)
                sims = []
                print("{} saved in {}".format(no_saved, datetime.now() - start_time))
            # 创建相似度矩阵
            new_similarity = (str(created), index[x], index[y], sim)
            no_saved += 1
            sims.append(new_similarity)
        psycopg2.extras.execute_values(cur, query, sims, template=None, page_size=1000)
        conn.commit()
        print('{} Similarity items saved, done in {} seconds'.format(no_saved, datetime.now() - start_time))

    @staticmethod
    # 获取用户名和密码
    def get_connect():
        if settings.DATABASES['default']['ENGINE'] == 'django.db.backends.postgresql':
            dbUsername = settings.DATABASES['default']['USER']
            dbPassword = settings.DATABASES['default']['PASSWORD']
            dbName = settings.DATABASES['default']['NAME']
            # 用户名和密码校验
            conn_str = "dbname={} user={} password={}".format(dbName, dbUsername, dbPassword)
            conn = psycopg2.connect(conn_str)
            return conn

    # 检查数据类型
    def check_array(array, dtype="numeric", order=None):
        array_orig = array
        dtype_numeric = isinstance(dtype, str) and dtype == "numeric"
        dtype_orig = getattr(array, "dtype", None)
        if dtype_numeric:
            if dtype_orig is not None and dtype_orig.kind == "O":
                # 如果输入为一个对象，转换为浮点型
                dtype = np.float64
            else:
                dtype = None
            if np.may_share_memory(array, array_orig):
                array = np.array(array, dtype=dtype, order=order)
        return array

    # 归一化
    def normalize(x):
        x = x.astype(float)
        x_sum = x.sum()  # 计算 value 的和
        x_num = x.astype(bool).sum()  # 计算大于 0 的元素
        x_mean = 0
        if x_num > 0:
            x_mean = x_sum / x_num  # 计算均值
        if x_num == 1 or x.std() == 0:
            return 0.0
        return (x - x_mean) / (x.max() - x.min())

    # 加载评分数据
    def load_all_ratings(min_ratings=1):
        # 提取相关列的数据
        columns = ['user_id', 'movie_id', 'rating', 'type']
        ratings_data = Rating.objects.filter(user_id__range=(0, 30000)).values(*columns)
        ratings = pd.DataFrame.from_records(ratings_data, columns=columns)
        # 通过 user_id 分类，统计每个 user_id 评分过的 item 数量
        user_count = ratings[['user_id', 'movie_id']].groupby('user_id').count()
        user_count = user_count.reset_index()
        # 取出评分 item 数量超过 min_ratings 的所有 user_id
        user_ids = user_count[user_count['movie_id'] > min_ratings]['user_id']
        # 取出 user_ids 的评分数据记录
        ratings = ratings[ratings['user_id'].isin(user_ids)]
        # 将评分数据转换成 float 类型
        ratings['rating'] = ratings['rating'].astype(float)
        return ratings

def main():
    print("Calculation of item similarity")
    all_ratings = load_all_ratings()
    ItemSimilarityMatrixBuilder().build(all_ratings)

if __name__ == '__main__':
    main()

2）矩阵分解

相关代码如下：

#导入需要的包
import numpy as np
import pandas as pd
import os
import psycopg2
from tqdm import tqdm
from datetime import datetime
from scipy.sparse import coo_matrix
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "Recs.settings")
import django
django.setup()
#导入评分数据
from Analytics.models import Rating
from Recs import settings
class MatrixFactorization(object):
#创建评分矩阵
	def __init__(self, min_sim=0.1):
		self.min_sim = min_sim
		self.db = settings.DATABASES['default']['ENGINE']
	def train(self, c_ui, factors = 50, regularization = 0.01, iterations=15):
		print("calculating Matrix ... using {} ratings".format(len(c_ui)))
		start_time = datetime.now()
		print("Creating ratings matrix")
		c_ui['rating'] = (c_ui['rating'] - c_ui['rating'].min()) / (c_ui['rating'].max() - c_ui['rating'].min())
		c_ui['rating'] = c_ui['rating'].astype(float)
		#计算每个user_id的平均评分，并做归一化处理
		#c_ui['avg'] = c_ui.groupby('user_id')['rating'].transform(lambda x: normalize(x))
		#把user_id， movie_id转为pandas的类别，以便去重
		#c_ui['avg'] = c_ui['avg'].astype(float)
		c_ui['user_id'] = c_ui['user_id'].astype('category')
		c_ui['movie_id'] = c_ui['movie_id'].astype('category')
     #构建稀疏评分矩阵，没有评分的数据全部用0填充
		coo = coo_matrix((c_ui['rating'].astype(float),
		                           (c_ui['movie_id'].cat.codes.copy(),
		                            c_ui['user_id'].cat.codes.copy())))
		users, items = coo.shape
		print("Ratings matrix finished,in{} seconds".format(datetime.now() - start_time))
		start_time = datetime.now()
		print("Calculating ALS....")
		#随机初始化两个隐语义矩阵X,Y
		X = np.random.rand(users, factors) * 0.01
		Y = np.random.rand(items, factors) * 0.01
		cui, ciu = coo.tocsr(), coo.T.tocsr()
		for iteration in range(iterations):
			self.least_squares_cg(cui=cui,X=X,Y=Y, regularization=regularization,)
			self.least_squares_cg(cui=ciu,X=Y,Y=X, regularization=regularization,)
			print("Rating matrix (size {}x{}) finished, in {} seconds".format(coo.shape[0],                                                                          coo.shape[1], datetime.now() - start_time))
			#用户的相似度计算
			sim = np.dot(X, Y.T)
			movies_ = dict(enumerate(c_ui['movie_id'].cat.categories))
			users_ = dict(enumerate(c_ui['user_id'].cat.categories))
			self.save_similarity(sim_matrix=sim, movies=movies_, users=users_)
			#print(sim)
			#self.rmse(coo, sim)
		return X, Y
	#ALS算法/共轭梯度法
	#创建三元组   
	def least_squares_cg(self, cui, X, Y, regularization, cg_steps=3):
	   #用户因子
	   users, factors = X.shape
	   YtY = Y.T.dot(Y) + regularization * np.eye(factors)
	   for u in range(users):
		   #基于用户历史
		   x = X[u]
		   #计算残差r = (YtCuPu - (YtCuY.dot(Xu),并不计算 YtCuY
		   r = -YtY.dot(x)
	   for i, confidence in self.nonzeros(cui, u):
		   r += (confidence - (confidence - 1) * Y[i].dot(x)) * Y[i]
		   p = r.copy()
		   rsold = r.dot(r)
		for it in range(cg_steps): 
		#计算 Ap = YtCuYp -并非实际计算YtCuY
		   Ap = YtY.dot(p)
		   for i, confidence in self.nonzeros(cui, u):
				Ap += (confidence - 1) * Y[i].dot(p) * Y[i]
				#更新CG标准
	            alpha = rsold / p.dot(Ap)
	            x += alpha * p
	            r -= alpha * Ap
	            rsnew = r.dot(r)
	            p = r + (rsnew / rsold) * p
	            rsold = rsnew
	            X[u] = x
    #返回CSR矩阵非零元素的索引和值
    def nonzeros(self, m, row):
        """ returns the non zeroes of a row in csr_matrix """
        for index in range(m.indptr[row], m.indptr[row + 1]):
            yield m.indices[index], m.data[index]
    def rmse(self, coo, sim):
        #取出评分大于0的数据
        start_time = datetime.now()
        print('instantiation of coo_matrix in {} seconds'.format(datetime.now() - start_time))
        csr = coo.tocsr()
        print('Calculating rmse....')
       #计算最小均方误差
        mse = 0.0
        xs, ys = coo.nonzero()
        number = len(coo.data)
        for x, y in tqdm(zip(xs, ys), leave=True):
            y_r = csr[x, y]
            if y_r > 0:
                y_hat = sim[x][y]
                square_error = (y_r - y_hat) ** 2
                mse += square_error
        print('RMSE {}'.format((mse / number) ** 0.5))
	@staticmethod
	#用户连接登录
    def get_connect():
 		if settings.DATABASES['default']['ENGINE']=='django.db.backends.postgresql':
     #获取用户名和密码
            dbUsername = settings.DATABASES['default']['USER']
            dbPassword = settings.DATABASES['default']['PASSWORD']
            dbName = settings.DATABASES['default']['NAME']
     #用户名和密码校验
            conn_str = "dbname={} user={} password={}".format(dbName,
                                                              dbUsername,
                                                              dbPassword)
            conn = psycopg2.connect(conn_str)
        return conn
     #用户相似度的计算和保存
  def save_similarity(self, sim_matrix, movies, users, created=datetime.now()):
        start_time = datetime.now()
  		print('truncating table in {} seconds'.format(datetime.now() - start_time))
        sims = []
        no_saved = 0
        start_time = datetime.now()
        print('instantiation of coo_matrix in {} seconds'.format(datetime.now() - start_time))
        query = "insert into similarity_mf (created, user_id, movie_id, similarity) values %s;"
        conn = self.get_connect()
        cur = conn.cursor()
        cur.execute('truncate table similarity_mf')
        print('{} similarities to save'.format(len(sim_matrix)))
        #用户相似度匹配
        row, column = sim_matrix.shape
        for i in tqdm(range(row)):
            for j in range(column):
                sim = sim_matrix[i][j]
                if sim < self.min_sim:
					continue
				if (len(sims)) == 500000:
					psycopg2.extras.execute_values(cur, query, sims)
					sims = []
					print("{} saved in {}".format(no_saved,datetime.now() - start_time)) 
					#用户评分相似度矩阵创建
					new_similarity = (str(created), users[j], movies[i], sim)
					no_saved += 1
					sims.append(new_similarity)
					psycopg2.extras.execute_values(cur, query, sims, template=None, page_size=1000)
					conn.commit()
					print('{} Similarity items saved, done in {} seconds'.format(no_saved, datetime.now() - start_time))
#获取评分数据
def load_all_ratings(min_ratings=1):
	columns=['user_id','movie_id','rating', 'type', 'rating_timestamp']
	ratings_data = Rating.objects.all().values(*columns)
	ratings = pd.DataFrame.from_records(ratings_data, columns=columns)
	user_count=ratings[['user_id', 'movie_id']].groupby('user_id').count()
	user_count = user_count.reset_index()
	user_ids=user_count[user_count['movie_id']>min_ratings]
	['user_id']
	#获取评分高的相应用户名
	ratings = ratings[ratings['user_id'].isin(user_ids)]
	ratings['rating'] = ratings['rating'].astype(float)
	return ratings
	
if __name__ == '__main__':
	all_ratings = load_all_ratings()
	model = MatrixFactorization(min_sim=0.1)
	X, Y = model.train(c_ui=all_ratings, factors=50, regularization=0.01, iterations=1)

3）LDA主题模型

相关代码如下：

#导入需要的包
import os
from tqdm import tqdm
import psycopg2
from datetime import datetime
from scipy.sparse import coo_matrix
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "Recs.settings")
import django
from Recs import settings
import numpy as np
django.setup()
from nltk.tokenize import RegexpTokenizer
from stop_words import get_stop_words
from gensim import corpora, models, similarities
from  Recommender.models import MovieDecriptions, LdaSimilarity
#建立主题模型
class LdaModel(object):
    def __init__(self, min_sim=0.1):
        self.min_sim = min_sim;
        self.db = settings.DATABASES['default']['ENGINE']
   def train(self, data=None, docs=None):
#数据准备
        if data is None:
            data, docs = load_data()
        NUM_TOPICS = 10
        self.build_lda_model(data, docs, NUM_TOPICS)
    def build_lda_model(self, data, docs, n_topics=5):
	    texts = []
	    # 英文分词
	    tokenizer = RegexpTokenizer(r'\w+')
	    for d in tqdm(data):
	        raw = d.lower()
	        tokens = tokenizer.tokenize(raw)
	        # 去除停用词
	        stop_tokens = self.remove_stopwords(tokens)
	        stemmed_tokens = stop_tokens
	        texts.append(stemmed_tokens)
	    # 构建词典
	    dictionary = corpora.Dictionary(texts)
	    # 生成语料库
	    corpus = [dictionary.doc2bow(text) for text in texts]
	    lda_model = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=n_topics)
	    index = similarities.MatrixSimilarity(corpus)
	    self.save_similarities_with_postgresql(index, docs)
	    return dictionary, texts, lda_model

    @staticmethod
    def remove_stopwords(tokenized_data):
     #去除停用词
        en_stop = get_stop_words('en')
        stop_tokens = [token for token in tokenized_data if token not in en_stop]
        return stop_tokens
#保留相似度
def save_similarities_with_postgresql(self, index, docs, created=datetime.now()):
        start_time = datetime.now()
        print(f'truncating table in {datetime.now() - start_time} seconds')
        sims = []
        no_saved = 0
        start_time = datetime.now()
        #创建稀疏矩阵
        coo = coo_matrix(index)
        csr = coo.tocsr()
        print(f'instantiation of coo_matrix in {datetime.now() - start_time} seconds')
        query = "insert into lda_similarity (created, source, target, similarity) values %s;"
        conn = self.get_conn()
        cur = conn.cursor()
        #cur.execute('drop table lda_similarity')
        #cur.execute('ALTER TABLE lda_similarity ADD COLUMN similarity decimal(8, 7) NOT NULL')
        cur.execute('truncate table lda_similarity')
        print(f'{coo.count_nonzero()} similarities to save')
#相似度对比
        xs, ys = coo.nonzero()
        for x, y in zip(xs, ys):
            if x == y:
                continue
            sim = float(csr[x, y])
            x_id = str(docs[x].movie_id)
            y_id = str(docs[y].movie_id)
                 #取出评分sim数量超过min_sim的所有sim
            if sim < self.min_sim:
                continue
            if len(sims) == 100000:
                psycopg2.extras.execute_values(cur, query, sims)
                sims = []
                print(f"{no_saved} saved in {datetime.now() - start_time}")
            new_similarity = (str(created), x_id, y_id, sim)
            no_saved += 1
            sims.append(new_similarity)
        psycopg2.extras.execute_values(cur, query, sims, template=None, page_size=1000)
        conn.commit()
        print('{} Similarity items saved, done in {} seconds'.format(no_saved, datetime.now() - start_time))
	#获取用户名和密码
    @staticmethod
    def get_conn():
        dbUsername = settings.DATABASES['default']['USER']
        dbPassword = settings.DATABASES['default']['PASSWORD']
        dbName = settings.DATABASES['default']['NAME']
#用户名和密码校验
        conn_str = "dbname={} user={} password={}".format(dbName,
                                                          dbUsername,
                                                          dbPassword)
        conn = psycopg2.connect(conn_str)
        return conn
#获取电影数据
def load_data():
     docs = list(MovieDecriptions.objects.all())
     data = ["{}, {}, {}".format(d.title, d.genres, d.description) for d in docs]
     if len(data) == 0:
         print("No descriptions were found, run populate_sample_of_descriptions")
     return data, docs
if __name__ == '__main__':
    print("Calculating lda model...")
    data, docs = load_data()
    lda = LdaModel()
    lda.train(data, docs)

3. 接口实现

在定义模型架构和训练保存后,电影推荐系统接口实现如下。

1）流行电影推荐

相关代码如下：

#导入需要的包
from decimal import Decimal
from Collector.models import Log
from django.db.models import Count
from django.db.models import Q
from django.db.models import Avg
from Recsmodel.baseModel import baseModel
#流行度推荐
class Popularity(baseModel):
    def predict_score(self, user_id, item_id):
        return None
    def recommend_items(self, user_id, num=6):
        return None
    @staticmethod
#推荐六部流行度最高的电影
    def recommend_items_from_log(num=6):
        items = Log.objects.values('content_id')
        items = items.filter(event='like').annotate(Count("user_id"))
        sorted_items = sorted(items, key=lambda item: -float(item['user_id__count']))
        return sorted_items[:num]

2）相邻用户推荐

相关代码如下：

#导入需要的包
from Recsmodel.baseModel import baseModel
from Analytics.models import Rating
from django.db.models import Q
import time
from decimal import Decimal
from Recommender.models import Similarity
class NeighborhoodRecs(baseModel):
    def __init__(self, neighborhood_size=10, min_sim=0.1):
        #最近邻个数，最小相似度，最大候选集个数
        self.neighborhood_size = neighborhood_size
        self.min_sim = min_sim
        self.max_candidates = 100
    def recommend_items(self, user_id, num=6):
        #取出用户有过的评分信息
        active_user_items = Rating.objects.filter(user_id=user_id).order_by('-rating')[0: self.max_candidates]
        #print(user_id, active_user_items.values())
        return self.recommend_item_by_ratings(active_user_items.values(), num)
     #推荐
    def recommend_item_by_ratings(self, active_user_items, num=6):
        #如果没有评过分的则返回空
        if len(active_user_items) == 0:
            return {}
        #标记时间
        start = time.time()
        movie_ids = {movie['movie_id']: movie['rating'] for movie in active_user_items}
        #用户平均评分
        user_mean = sum(movie_ids.values()) / len(movie_ids)
        candidate_items = Similarity.objects.filter(Q(source__in=movie_ids.keys())& ~Q(target__in=movie_ids.keys())& Q(similarity__gt=self.min_sim))
        #print(candidate_items)
        candidate_items = candidate_items.order_by('-similarity')[:self.max_candidates]
        recs = dict()
        for candidate in candidate_items:
            target = candidate.target
            pre = 0
            sim_sum = 0
            rated_items = [i for i in candidate_items if i.target == target][:self.neighborhood_size]
            #print(rated_items)
            if len(rated_items) > 0:
                for sim_item in rated_items:
                    r = Decimal(movie_ids[sim_item.source] - user_mean)
                    pre += sim_item.similarity * r
                    sim_sum += sim_item.similarity
#取出相似度最高的所有item
      if sim_sum > 0:
     recs[target] = {'prediction': Decimal(user_mean) + pre / sim_sum,
                     'sim_items': [r.source for r in rated_items]}
     #对筛选出来的item进行分类
     sorted_items = sorted(recs.items(), key=lambda item: -float(item[1]['prediction']))[:num]
        return sorted_items
    #评分预测
def predict_score(self, user_id, item_id):
  user_items = Rating.objects.filter(user_id=user_id)
user_items = user_items.exclude(movie_id=item_id).order_by('-rating')[:100]
        movie_ids = {movie.movie_id: movie.rating for movie in user_items}
        return self.predict_score_by_ratings(item_id, movie_ids)
    def predict_score_by_ratings(self, item_id, movie_ids):
        top = Decimal(0.0)
        bottom = Decimal(0.0)
        ids = movie_ids.keys()
        mc = self.max_candidates
#候选电影名单
candidate_items = (Similarity.objects.filter(source__in= ids)
                                             .exclude(source=item_id)
                                             .filter(target=item_id))
candidate_items = candidate_items.distinct().order_by('-similarity')[:mc]
        if len(candidate_items) == 0:
            return 0
        for sim_item in candidate_items:
            r = movie_ids[sim_item.source]
            top += sim_item.similarity * r
            bottom += sim_item.similarity
        return Decimal(top/bottom)

3）相似内容推荐

相关代码如下：

#导入需要的包
from decimal import Decimal
from django.db.models import Q
from Analytics.models import Rating
from Recommender.models import MovieDecriptions,LdaSimilarity
from Recsmodel.baseModel import baseModel
#建立基本推荐模型
class ContentBasedRecs(baseModel):
    def __init__(self, min_sim= 0.1):
        self.min_sim = min_sim
        self.max_candidates = 100
#基于用户内容的协同过滤
    def recommend_items(self, user_id, num=6):
active_user_items = Rating.objects.filter(user_id=user_id).order_by('-rating')[:100]
return self.recommend_items_by_ratings(user_id, active_user_items.values(), num)
    def recommend_items_by_ratings(self,user_id,active_user_items,num=6):
        if len(active_user_items) == 0:
            return {}
        movie_ids = {movie['movie_id']: movie['rating'] for movie in active_user_items}
        user_mean = sum(movie_ids.values()) / len(movie_ids)
#计算用户内容的相似度
        sims =LdaSimilarity.objects.filter(Q(source__in=movie_ids.keys())
                                        &~Q(target__in=movie_ids.keys())
                                        &Q(similarity__gt=self.min_sim))
        print(active_user_items)
        sims = sims.order_by('-similarity')[:self.max_candidates]
        recs = dict()
        targets = set(s.target for s in sims if not s.target == '')
        for target in targets:
            pre = 0
            sim_sum = 0
            rated_items = [i for i in sims if i.target == target]
            if len(rated_items) > 0:
                for sim_item in rated_items:
                    r = Decimal(movie_ids[sim_item.source] - user_mean)
                    pre += sim_item.similarity * r
                    sim_sum += sim_item.similarity
                    if sim_sum > 0:
        recs[target] = {'prediction': Decimal(user_mean) + pre / sim_sum,
                                'sim_items': [r.source for r in rated_items]}
        return sorted(recs.items(), key=lambda item: -float(item[1]['prediction']))[:num]
    def predict_score(self, user_id, item_id):
        return None

工程源代码下载

详见本人博客资源下载页

其它资料下载

如果大家想继续了解人工智能相关学习路线和知识体系，欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线，所有资料免关注免套路直接网盘下载》
这篇博客参考了Github知名开源平台，AI技术平台以及相关领域专家：Datawhale，ApacheCN，AI有道和黄海广博士等约有近100G相关资料，希望能帮助到所有小伙伴们。

你可能感兴趣的:(机器学习,推荐系统,学习路线,机器学习,python,javascript,html,django,人工智能,协同过滤)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用代码生成艺术字：设计个性化海报的秘密
本文围绕“用代码生成艺术字：设计个性化海报的秘密”展开，先概述代码生成艺术字在海报设计中的独特价值，接着介绍常用的代码工具（如HTML、CSS、JavaScript等），详细阐述从构思到实现的完整流程，包括字体样式设计、动态效果添加等，还分享了提升艺术字质感的技巧及实际案例。最后总结代码生成艺术字的优势，为设计师提供打造个性化海报的实用指南，助力提升海报设计的独特性与吸引力，符合搜索引擎SEO标准
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
前端面试每日 3+1 —— 第39天浪子神剑
今天的面试题(2019.05.25)——第39天[html]title与h1、b与strong、i与em的区别分别是什么？[css]写出你知道的CSS水平和垂直居中的方法[js]说说你对模块化的理解[软技能]公钥加密和私钥加密是什么？《论语》，曾子曰：“吾日三省吾身”（我每天多次反省自己）。前端面试每日3+1题，以面试题来驱动学习，每天进步一点！让努力成为一种习惯，让奋斗成为一种享受！欢迎在Iss
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

基于LDA主题+协同过滤+矩阵分解算法的智能电影推荐系统——机器学习算法应用(含python、JavaScript工程源码)+MovieLens数据集（三）

目录

前言

总体设计

系统整体结构图

系统流程图

运行环境

模块实现

1. 数据爬取及处理

2. 模型训练及保存

1）协同过滤

2）矩阵分解

3）LDA主题模型

3. 接口实现

1）流行电影推荐

2）相邻用户推荐

3）相似内容推荐

相关其它博客

工程源代码下载

其它资料下载

你可能感兴趣的:(机器学习,推荐系统,学习路线,机器学习,python,javascript,html,django,人工智能,协同过滤)