CC‘s World

【推荐算法】深度学习推荐算法综述 Deep Learning based Recommender System: A Survey and New Perspectives

一、MLP based Recommender System

1. Deep Crossing模型

Deep Crossing模型完整的解决了从特征工程、稀疏向量稠密化、多层神经网络进行优化目标拟合等一系列深度学习在推荐系统中的应用问题。

为完成端到端的训练Deep Crossing模型要在其内部解决如下问题：

离散类特征编码后过于稀疏，不利于直接输入神经网络进行训练，如何解决稀疏特征向量稠密化的问题
如何解决特征自动交叉的问题
如何在输出层中打成问题设定的优化目标

通过加入embedding层将稀疏特征转化为低维稠密特征，用stacking layer，或者叫做concat layer将分段的特征向量连接起来，再通过多层神经网络完成特征的组合、转换，最终用scoring layer完成CTR的计算。跟经典DNN有所不同的是，Deep crossing采用的multilayer perceptron是由残差网络组成的。

Embedding层：将稀疏的类别性特征转换成稠密的Embedding向量，以经典的全连接层结构为主。通常，Embedding向量的维度应该远小于原始稀疏特征向量。这里Feature #2世纪代表了数值型特征，可以看到，数值型特征不需要经过Embedding层，直接进入了Stacking层。

Stacking层：Stacking层（堆叠层）的作用比较简单，是把不同的Embedding特征和数值型特征拼接在一起，也被称为连接（concatenate）层。

Multiple Residual Units层：主要结构时多层感知机，相比标准的多层感知机为基本单元的神经网络，Deep Crossing模型采用了多层残差网络（Multi-Layer Residual Network）作为MLP的具体实现。通过多层残差网络对特征向量各个维度进行充分的交叉组合。

Scoring层：Scoring层作为输出层，就是为了拟合优化目标，对CTR预估这类二分类问题，Scoring层往往使用的是逻辑回归模型，对于图像等多分类问题，Scoring层往往采用softmax模型。

2. Neural Collaborative Filtering

2.1 基础NCF模型

若将矩阵分解层的用户隐向量和物品隐向量看作是一种Embedding方法，最终的“Scoring层”就是将用户隐向量和物品隐向量进行内积操作后得到的“相似度”，这里的相似度就是对评分的预测。在实际应用中，往往发现模型容易欠拟合，主要原因是MF的模型结构相对简单，尤其“Scoring层”，无法对优化目标进行有效的拟合。

NeuralCF用“多层神经网络+输出层”的结构替代了MF中简单的内积操作，优点如下：1、让用户向量和物品向量左更充分的交叉；2、引入更多的非线性特征。

事实上，用户向量和物品向量的互操作层可以被任意的互操作形式所替代，即所谓的广义矩阵分解模型（Generalized Matrix Factorization）。为了让向量在各维度上进行更充分的交叉，可以通过“元素积”（element-wise product，长度相同的两个向量按元素乘得到新的同维度的向量）进行交互，再通过逻辑回归等输出层拟合最终预测目标。

2.2 NCF混合模型

再进一步，可以把通过不同互操作网络得到的特征向量拼接起来，交由输出层进行目标拟合。

2.3 CCCFNet

再进一步来说，还可以使用Cross Domain跨领域推荐——假设跨领域存在一些一致的模式(如不同的domain共享user-side sub-network)，因此可以从相对密集的辅助领域获取知识，如：CCCFNet (Cross-domain Content-boosted Collaborative Filtering neural Network)
其框架图如下：

总的来说，NCF的优点是对于用户向量和物品向量这俩Embedding层可以自由的选择不同互操作层的拼接。但是也有缺点——基于协同过滤的思想，没有引入更多其他类型的特征。

3. PNN模型

PNN模型的框架为：

与Deep Crossing模型相比，PNN模型在输入、Embedding层、多层神经网络，以及最终的输出层部分并没有结构上的不同。唯一的区别在于PNN模型用乘积层（Product Layer）代替了Deep Crossing模型中的Stacking层，即不同特征的Embedding向量不再是简单的拼接，而是利用Product操作进行两两交互。

另外，相比于NeuralCF，PNN模型的输入不仅包括用户和物品信息，还可以有更多不同形式、不同来源的特征，通过embedding层的编码生成同样长度的稠密特征embedding向量。

PNN 模型对于深度学习结构的创新主要在于乘积层的引入。具体地说，PNN 模型的乘积层由线性内积操作部分(图中乘积层的 z 部分，对各特征向量进行线性拼接)和乘积外积(outer product) 操作部分(图中乘积层的 p 部分)组成。其中，乘积特征交叉部分又分为内积操作和还是外积操作，使用内积操作的PNN模型被称为IPNN（Inner Product-based Neural Network），使用外积操作的PNN被称为OPNN（Outer Product-based Neural Network）。

无论是内积操作还是外积操作，都是对不同的特征embedding向量进行两两组合。为保证乘积操作能够顺利进行，各embedding向量的维度必须相同。

内积操作就是经典的向量内积运算： $g_{inner}(f_i,f_j)=$

外积操作是对输入特征向量 $f_i,f_j$ 的各维度进行两两交叉，生成特征交叉矩阵： $g_{outer}(f_i,f_j)=f_i f_j^T>$

外积互操作生成的是特征向量 $f_i,f_j$ 各维度两两交叉而成的一个MxM的方形矩阵。这样的外积操作无疑会直接将问题的复杂度从原来的M提升到 $M^2$ ，为了在一定程度上减小模型训练的负担，PNN模型的论文中介绍了一种降维的方法，就是把所有两两特征embedding向量外积互操作的结果叠加，形成一个叠加外积互操作矩阵p：
$p=\sum_{i=1}^{N}\sum_{j=1}^{N}g_{outer}(f_i,f_j)=\sum_{i=1}^{N}\sum_{j=1}^{N}f_if_j^T=\sum_{i=1}^{N}f_i\sum_{j=1}^{N}f_j^T=f_{\Sigma} f_{\Sigma}^T$
其中， $f_{\Sigma}=\sum_{i=1}^{N}f_i$

叠加矩阵p的最终形式类似于让所有特征embedding向量通过一个平均池化层后，在进行外积互操作。

在实际应用中，还应对平均池化操作谨慎对待。因为把不同特征对应维度进行平均，实际上是假设不同特征的对应维度有类似的含义。很显然，如果一个特征是年龄，一个特征是地域，那么这两个特征在经过各自的embedding层后，二者的embedding向量不在一个向量空间中，显然不具备任何可比性。这时，把二者平均起来，会模糊很多有价值的信息。平均池化的操作经常发生在同类embedding上，例如，将用户浏览过的多个物品的embedding进行平均。因此，PNN模型额外积池化操作也需要谨慎，在训练效率和模型效果上进行权衡。

优点：特征Embedding向量之间的交叉方式是多样的

缺点：实践中，会对外积操作做一系列简化；对所有特征无差别的交叉忽略了原始特征向量中包含的有价值的信息。

4. Wide & Deep Learning

4.1 Wide & Deep

Wide部分主要作用是让模型具备较强的“记忆能力”；Deep部分的主要作用是让模型具有“泛化能力”。正是这样的结构特点，使模型兼具了逻辑回归和深度神经网络的优点——能够快速处理并记忆大量历史行为特征，并且具有强大的表达能力。

“记忆能力”：模型直接学习并利用历史数据中的物品或者强特征的“共现频率”的能力。一般来说，协同过滤、逻辑回归等简单模型具有较强的“记忆能力”。这类模型结构简单，没有过多的特征交叉，原始数据往往可以直接影响推荐结果，产生类似于”若点击过A则推荐B“这类规则式的推荐，相当于模型直接记住了历史数据的分布特点，并利用这些记忆进行推荐。多层神经网络特征会被多层处理，不断与其他特征交叉，使得模型对原始强特征的记忆反而不如简单模型。像逻辑回归这类简单模型，如果发现这样的“强特征”，则其相应的权重就会在模型训练过程中被调整得非常大，这样就实现了对这个特征的直接记忆。相反，对于多层神经网络来说，特征会被多层处理，不断与其它特征进行交叉，因此模型对这个强特征的记忆反而没有简单模型深刻。

“泛化能力”：模型传递特征的相关性，以及发觉稀疏甚至从未出现过的稀有特征与最终标签相关性的能力。矩阵分解比协同过滤的泛化能力强，因为MF引入了隐向量，使得数据稀少的用户或者物品也能生成隐向量，从而获得由数据支撑的推荐得分，这就是典型的将全局数据传递到稀有物品上，从而提高泛化能力。再如，深度神经网络通过特征次组合，可以发掘数据中潜在的模式，即使非常稀疏的特征向量输入，也能得到较稳定平滑的推荐概率。

单层的Wide部分擅长处理大量稀疏的id类特征；Deep部分利用神经网络强大的表达能力，进行深层的特征交叉，挖掘藏在特征背后的数据模式。

上图是Google Play的推荐模型，Deep部分的输入是全量的特征向量，包括用户年龄、已安装应用数量、设备类型、已安装应用、曝光应用等特征。已安装应用、曝光应用等类别型特征，需要经过Embedding层输入连接层，拼接成1200维的Embedding向量，再依次经过3层ReLU全连接层，最终输入LogLoss输出层。

Wide部分的输入仅仅是已安装应用和曝光应用两类特征，其中已安装应用代表用户的历史行为，而曝光应用代表当前的待推荐应用。选择这两类特征的原因是充分发挥Wide部分“记忆能力”强的优势。

Wide部分组合“已安装应用”和“曝光应用”两个特征的函数被称为交叉积变换：

$c_{ki}$ 是一个布尔变量，当第i个特征属于第k个组合特征时， $c_{ki}$ 的值为1，否则为0； $x_i$ 是第i个特征的值。例如，对于"AND(user_installed_app=netflix, impression_app=pandora)"这个组合特征来说，只有当user_installed_app=netflix和impression_app=pandora这两个特征同时为1时，其对应的交叉积变换层的结果才为1，否则为0。

在通过交叉积变换层操作完成特征组合之后，Wide部分将组合特征输入最终的LogLoss层，与Deep部分的输出一同参与最后的目标拟合。

4.2 Deep & Cross

Wide & Deep模型可以进化为 Deep & Cross模型，Deep&Cross模型主要思路是使用Cross网络代替了原来的Wide部分。Cross部分是为了增加特征之间的交互力度，使用多层交叉层对输入向量进行特征交叉，设第l层交叉层的输出向量是 $x_l$ ，则第l+1层的输出向量为：

可以看出特征交叉的感觉，但是交叉层在增加参数方面还是比较克制的，每一层仅增加了一个n维（输入向量的维度）的权重向量 $w_l$ ，并且每一层均保留了原始输入向量，所以输出与输入之间的变化不会太明显。

5. FM与深度学习模型的结合

5.1 FNN——用FM的隐向量完成embedding层初始化

FNN 的模型结构初步看是一个类似 Deep Crossing 模型的经典深度神经网络，从稀疏输入向量到稠密向量的转换过程也是经典的 Embedding 层的结构。

FNN 模型到底在哪里与 FM 模型进行了结合呢？问题的关键还在于 Embedding 层的改进。在神经网络的参数初始化过程中，往往采用随机初始化这种不包含任何先验信息的初始化方法。由于 Embedding 层的输入极端稀疏化，导致 Embedding 层的收敛速度非常缓慢。再加上 Embedding 层的参数数量往往占整个神经网络参数数量的大半以上，因此模型的收敛速度往往受限于 Embedding 层。

针对 Embedding 层收敛速度的难题，FNN 模型的解决思路是用 FM 模型训练好的各特征隐向量初始化 Embedding 层的参数，相当于在初始化神经网络参数时，已经引入了有价值的先验信息。也就是说，神经网络训练的起点更接近目标最优店，自然加速了整个神经网络的收敛过程。

FM的数学形式为：

下面用图示的方法显示 FM 各参数和 FNN 中 Embedding 层各参数的对应关系 (在 FNN 模型中，特征被分成了不同特征域，因此每个特征域具有对应的 Embedding 层，并且每个特征域 Embedding 的维度都应与 FM 隐向量维度保持一致。

5.2 DeepFM —— 用 FM 代替 Wide 部分

DeepFM 用 FM 替换了 Wide&Deep 模型原来的 Wide 部分，加强了浅层网络部分特征组合的能力。如下图所示，左边的 FM 部分与右边的深度神经网络部分共享相同的 Embedding 层。左侧的 FM 部分对不同的特征域的 Embedding 进行了两两交叉, 也就是将 Embedding 向量当作原 FM 中的特征隐向量。最后将 FM 的输出与 Deep 部分的输出一同输入最后的输出层，参与最后的目标拟合

与Wide&Deep模型相比，DeepFM模型的改进主要是针对Wide部分不具备自动的特征组合能力的缺陷进行的。

5.3 NFM —— FM的神经网络化尝试

无论是FM，还是其改进模型FFM，归根结底是一个二阶特征交叉的模型。受组合爆炸问题的困扰，FM几乎不可能扩展到三阶以上，这就不可避免的限制了FM模型的表达能力。
NFM 利用深度神经网络更强的表达能力改进 FM 模型，用一个表达能力更强的函数替代原 FM 中二阶隐向量内积的部分：

在进入深度学习时代后，由于深度学习网络理论上有拟合任何复杂函数的能力，f(x)的构造工作可以交由某个深度学习网络来完成，并通过梯度反向传播来学习。

上面的 NFM 架构图省略了其一阶部分。如果把 NFM 的一阶部分视为一个线性模型，那么 NFM 的架构也可以视为 Wide&Deep 模型的进化。相比原始的 Wide&Deep 模型，NFM 模型对其 Deep 部分加人了特征交叉池化层，加强了特征交叉。这是理解 NFM 模型的另一个角度。

沿着特征工程自动化的思路，深度学习模型从 PNN 一路走来，经过了 Wide&Deep、Deep&Cross、FNN、DeepFM、NFM 等模型，进行了大量的、基于不同特征互操作思路的尝试。但特征工程的思路走到这里几乎已经穷尽了可能的尝试，模型进一步提升的空间非常小，这也是这类模型的局限性所在。

从这之后，越来越多的深度学习推荐模型开始探索更多 “结构” 上的尝试，诸如注意力机制、序列模型、强化学习等在其他领域大放异彩的模型结构也逐渐进入推荐系统领域，并且在推荐模型的效果提升上成果显著。

6. 注意力机制在推荐模型中的应用

6.1 AFM—— 引入注意力机制的 FM

AFM 模型可以被认为是 NFM 模型的延续。在 NFM 模型中，不同域的特征 Embedding 向量经过特征交叉池化层的交叉，将各交叉特征向量进行 “加和”，输入最后由多层神经网络组成的输出层。问题的关键在于加和池化操作，它相当于 “一视同仁” 地对待所有交叉特征，不考虑不同特征对结果的影响程度，事实上消解了大量有价值的信息。

这里 “注意力机制” 就派上了用场，它基于假设 – 不同的交叉特征对于结果的影响程度不同，以更直观的业务场景为例，用户对不同交叉特征的关注程度应是不同的。举例来说，如果应用场景是预测一位男性用户是否购买一款键盘的可能性，那么 “性别=男且购买历史包含鼠标” 这一交叉特征，很可能比 “性别=男且用户年龄=30” 这一交叉特征更重要，模型投入了更多的 “注意力” 在前面的特征上。

具体地说，AFM模型引入注意力及知识通过在特征交叉层和最终的输出层之间加入注意力网络实现的，注意力网络的作用是为每一个交叉特征提供权重。

6.2 DIN – 引入注意力机制的深度学习网络

相比于之前很多 “学术风” 的深度学习模型，阿里巴巴提出的 DIN 模型显然更具业务气息。它的应用场景是阿里巴巴的电商广告推荐，因此在计算一个用户是否点击一个广告 a 时，模型的输入特征自然分为两大部分：一部分是用户 u 的特征组，另一部分是候选广告 a 的特征组。无论是用户还是广告，都含有两个非常重要的特征：商品 id (good_id) 和商铺 id (shop_id)。用户特征里的商品 id 是一个序列，代表用户曾经点击过的商品集合，商铺 id 同理；而广告特征里的商品 id 和商铺 id 就是广告对应的商品 id 和商铺 id。

在原来的基础模型中，用户特征组中的商品序列和商铺序列经过简单的平均池化操作后就进入上层神经网络进行下一步训练，序列中的商品既没有区分重要程度，也和广告特征中的商品 id 没有关系。

然而事实上，广告特征和用户特征的关联程度是非常强的。假设广告中的商品是键盘，用户的点击商品序列中有几个不同的商品 id 分别是鼠标、T 恤和洗面奶。从常识出发，“鼠标” 这个历史商品 id 对预测 “键盘” 广告的点击率的重要程度应大于后两者。从模型的角度来说，在建模过程中投给不同特征的 “注意力” 理应有所不同，而且 “注意力得分” 的计算理应与广告特征有相关性。

将上述注意力的思想反映到模型中也是直观的，利用候选商品和历史行为商品之间的相关性计算出一个权重，这个权重就到表了注意力的强弱：
$V_u=f(V_a)=\sum_{i=1}^{N}w_i\cdot V_i=\sum_{i=1}^Ng(V_i,V_a)\cdot V_i$

其中， $V_u$ 是用户的embedding向量， $V_a$
是候选广告商品的embedding向量， $V_i$ 是用户u的第i次行为的embedding向量。

7. DIEN——序列模型与推荐系统的结合

无论是电商购买行为，还是视频网站的观看行为，或是新闻应用的阅读行为，特定用户的历史行为都是一个随时间排序的序列。既然是时间相关的序列，就一定存在或深或浅的前后依赖关系，这样的序列信息对于推荐过程无疑是有价值的。

例如，上周一位用户在挑选一双篮球鞋，这位用户上周的行为序列都会集中在篮球鞋这个品类的商品上，但在他完成购买后，本周他的购物兴趣可能变成买一个机械键盘。序列信息的重要性在于：

它加强了最近行为对下次行为预测的影响。在这个例子中，用户近期购买机械键盘的概率会明显高于再买一双篮球鞋或购买其他商品的概率。
序列模型能够学习到购买趋势的信息。在这个例子中，序列模型能够在一定程度上建立 “篮球鞋” 到 “机械键盘” 的转移概率。如果这个转移概率在全局统计意义上是足够高的，那么在用户购买篮球鞋时，推荐机械键盘也会成为一个不错的选项。直观上，二者的用户群体很有可能是一致的。

兴趣进化网络分为三层，从下至上依次是:

行为序列层 (Behavior Layer, 浅绿色部分)：其主要作用是把原始的 id 类行为序列转换成 Embedding 行为序列。
兴趣抽取层 (Interest Extractor Layer, 米黄色部分)：其主要作用是通过模拟用户兴趣迁移过程，抽取用户兴趣。兴趣抽取层的基本结构是 GRU (Gated Recurrent Unit, 门循环单元) 网络。过由 GRU 组成的兴趣抽取层后，用户的行为向量被进一步抽象化，形成了兴趣状态向量。
兴趣进化层 (Interest Evolving Layer, 浅红色部分)：其主要作用是通过在兴趣抽取层基础上加入注意力机制，模拟与当前目标广告相关的兴趣进化过程。DIEN 兴趣进化层相比兴趣抽取层最大的特点是加入了注意力机制，其中 Attention Score 的生成过程与 DIN 完全一致, 都是当前状态向量与目标广告向量进行互作用的结果，因此在兴趣抽取层之上再加上兴趣进化层就是为了更有针对性地模拟与目标广告相关的兴趣进化路径。由于阿里巴巴这类综合电商的特点，用户非常有可能同时购买多品类商品，例如在购买 “机械键盘” 的同时还在查看 “衣服” 品类下的商品，那么这时注意力机制就显得格外重要了。当目标广告是某个电子产品时，用户购买 “机械键盘” 相关的兴趣演化路径显然比购买“衣服” 的演化路径重要，这样的筛选功能兴趣抽取层没有。

8. 强化学习与推荐系统的结合

智能体：推荐系统本身，它包括基于深度学习的推荐模型、探索 (explore) 策略，以及相关的数据存储
环境：由新闻网站或 App、用户组成的整个推荐系统外部环境。在环境中，用户接收推荐的结果并做出相应反馈
行动：对一个新闻推荐系统来说，“行动” 指的就是推荐系统进行新闻排序后推送给用户的动作
反馈：用户收到推荐结果后，进行正向的或负向的反馈。例如，点击行为被认为是一个典型的正反馈，曝光未点击则是负反馈的信号。此外，用户的活跃程度，用户打开应用的间隔时间也被认为是有价值的反馈信号
状态：状态指的是对环境及自身当前所处具体情况的刻画。在新闻推荐场景中，状态可以被看作已收到所有行动和反馈，以及用户和新闻的所有相关信息的特征向量表示。站在传统机器学习的角度，“状态” 可以被看作已收到的、可用于训练的所有数据的集合

在这样的强化学习框架下，模型的学习过程可以不断地迭代，迭代过程主要有如下几步：

初始化推荐系统 (智能体)
推荐系统基于当前已收集的数据 (状态) 进行新闻排序 (行动)，并推送到网站或 App (环境) 中
用户收到推荐列表，点击或者忽略 (反馈) 某推荐结果
推荐系统收到反馈，更新当前状态或通过模型训练更新模型
重复第 2 步

在 DRN 框架中，智能体部分中扮演 “大脑” 角色的是 DQN (Deep Q-Network)，网络结构如下图所示，在特征工程中套用强化学习状态向量和行动向量的概念，把用户特征 (user features) 和环境特征 (context features) 归为状态向量，因为它们与具体的行动无关；把用户-新闻交叉特征和新闻特征归为行动特征，因为其与推荐新闻这一行动相关。

按照从左至右的时间顺序，依次描绘 DRN 学习过程中的重要步骤：

在离线部分，根据历史数据训练好 DQN 模型，作为智能体的初始化模型
在 t1 → t2 阶段，利用初始化模型进行一段时间的推送 (push) 服务，积累反馈 (feedback) 数据
在 t2 时间点，利用 t1 → t2 阶段积累的用户点击数据，进行模型微更新 (minor update) (竞争梯度下降算法, Dueling Bandit Gradient Descent Algorithm)
在 t4 时间点，利用 t1 → t4 阶段的用户点击数据及用户活跃度数据进行模型的主更新 (major update)。模型主更新操作可以理解为利用历史数据的重新训练，用训练好的模型替代现有模型
重复第 2~4 步

DRN的在线学习方法——竞争梯度下降算法的流程如图所示：

9. 基于规则和MLP的推荐

《DLTSR: A Deep Learning Framework for Recommendation of Long-tail Web Services》这篇论文提出了一种基于MLP的推荐模型。这项工作使用两个相同的MLP，分别为labeled examples和专家规则建模。通过最小化两个网络输出之间的差异，同时更新这两个网络的参数，它展示了在MLP框架中采用专家知识指导推荐学习过程的有效性，虽然专业知识的获取需要大量的人力参与，但它是非常精确的。

二、AutoEncoder based Recommender System

将自编码器应用于推荐系统有两种方法：

使用自编码器在bottleneck层学习低维特征表示；
直接在重建层中填充评级矩阵的空白

1. AutoRec

AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。

AutoRec解决的问题是构建一个重建函数 $h (r; θ)$ ，是所有该重建函数生成的评分向量与原评分向量的平方残差和最小，如(1)式所示，此后还要经过评分预估和排序的过程才能得到最终的推荐列表。

假设有m个用户，n个物品，用户会对n个物品中的一个或几个进行评分，未评分的物品分值可用默认值或平均分值表示，则所有m个用户对物品的评分可以形成一个mxn维的评分矩阵，也就是协同过滤中的共现矩阵。

对一个物品i来说，所有m个用户对它的评分可形成一个m维的向量 $r^{(i)}=(R_{1i}, ..., R_{mi})^T$ ，AutoRec要解决的问题是构建一个重建函数 $h (r; θ)$ ，使所有该重建函数生成的评分向量与原评分向量的平方残差和最小。

AutoRec模型的结构为：

当输入物品i的评分向量 $r^{(i)}$ 时，模型的输出向量 $h(r^{(i)}; \theta)$ 就是所有用户对物品i的评分预测，其中第u维就是用户u对物品i的预测 $\hat{R}_{ui}$ :

通过遍历输入物品向量就可以得到用户u对所有物品的评分预测，进而依据评分预测进行排序得到推荐列表。

同协同过滤，AutoRec也分为基于物品的AutoRec（I-AutoRec）和基于用户的AutoRec（U-AutoRec），U-AutoRec是将用户的评分向量作为输入数据，在生成推荐列表的时候，U-AutoRec相比I-AutoRec优点是只需要输入一次目标用户的用户向量，而I-AutoRec需要遍历整个物品评分向量；缺点是用户向量的稀疏性可能会影响模型效果。

2. Collaborative Denoising Auto-Encoder (CDAE)

【推荐算法论文阅读】Collaborative Filtering with Stacked Denoising AutoEncoders and Sparse Inputs

亮点：

使用自编码器利用sparse rating matrix重建dense rating matrix；
使用降噪自编码器，通过引入高斯噪声/masking noise/椒盐噪声来提高鲁棒性；
巧妙地通过损失函数的设计来平衡去噪和重构的损失

损失函数设计如下：

它基于两个主要的超参数 α、β，平衡了网络是专注于去噪输入还是重建输入。

三、CNN based Recommender System

1. Attention based CNN

见【推荐算法论文阅读】Hashtag Recommendation Using Attention-Based Convolutional Neural Network

【背景】
在微博上，用户用有限数量的字去记录生活或者表达感情。因此，微博被广泛用于舆情分析，预测等许多其他的应用。微博包含一种元数据标签形式（metadata tag, hashtag），hashtag是一串前缀为#的字符串。在微博内，Hashtags被当做关键字或者话题，有着广泛的应用，比如微博检索（microblog retrieval），查询展开（query expansion），情感分析（sentiment analysis）。

可是，只有很少的用户才会为微博打上hashtags，因此，自动推荐hashtags的任务变成了很重要的研究课题，最近几年受到了很大的关注。针对这一任务，研究人员使用了多个模型的特征进行建模，协同过滤（collaborative filtering），生成式模型（generativemodels），深度神经网络等。

大多数方法通常基于词汇级特征，如BoW等，有研究表明word trigger的有效性。这意味着一个给定句子的实质内容可以通过其中的一些重要词语来实现。

【亮点】
为了使用word trigger机制，本文提出了一种新的基于注意力的CNN结构，该结构结合了local attention channel 和 global attention channel。

在全局通道中，所有单词都将被编码；而在局部注意通道中，只编码几个触发单词，这取决于gate score。

【模型具体结构】

1.1 局部注意通道

首先在第i步，会对第i个词在文本上下文的重要程度进行计算，这里的window size设为5：

并且设置一个阈值，达到该阈值的词会被视为触发词（trigger words）。局部注意层使得提取微博中最重要的单词成为可能。接下来的计算就只会考虑到触发词。

接下来是一个折叠层，目的在于提取触发词的特征。z依旧是word embedding的维度。

1.2. 全局通道

在全局通道里，捕获的是文本全局的特征表示，z是对l个单词word embedding的卷积：

为了获得多个特征，我们在模型中使用具有不同窗口大小的多个过滤器。本文设置的是1、2、3，对于每种window size，feature map的数量设为100。

然后使用池化操作，可以为每个特征映射提取最重要的特征，并可以处理不同长度的微博。

1.3. 分类层

在局部注意通道和全局注意通道后，我们使用具有多个特征映射的卷积层来组合局部注意通道和全局注意通道的输出：

最后是分类器：

根据全连接层输出的分数，我们可以对每个微博的标签进行排名，并向用户推荐排名靠前的标签。

2. Personalized CNN Tag Recommendation

利用卷积和最大池化操作从图像中获取视觉特征，注入用户信息以生成个性化推荐。

3. Deep Cooperative Neural Network (DeepCoNN)

采用两个并行的卷积神经网络对用户行为和item属性进行建模。在最后一层，应用因子分解机捕获它们之间的交互作用，以进行评级预测。

四、RNN based Recommender System

1. Session-based recommendation with RNN

见【推荐算法论文阅读】Session-based recommendations with recurrent neural networks

【背景】
基于会话的推荐方法，主要有基于物品的协同过滤和基于马尔可夫决策过程的方法。

基于物品的协同过滤，需要维护一张物品的相似度矩阵，当用户在一个session中点击了某一个物品时，基于相似度矩阵得到相似的物品推荐给用户。这种方法简单有效，并被广泛应用，但是这种方法只把用户上一次的点击考虑进去，而没有把前面多次的点击都考虑进去。

基于马尔可夫决策过程的推荐方法，也就是强化学习方法，其主要学习的是状态转移概率，即点击了物品A之后，下一次点击的物品是B的概率，并基于这个状态转移概率进行推荐。这样的缺陷主要是随着物品的增加，建模所有的可能的点击序列是十分困难的。

【亮点】

使用RNN建模基于会话的推荐系统，建模多次点击序列；
使用ranking loss来训练模型
为了提高训练的效率，采用mini-batch并行训练和负采样的策略

【模型具体结构】

【ranking loss】
本文使用ranking loss，ranking可以是逐点(pointwise)、成对(pairwise)或列表(listwise)：

逐点排名独立地估计item的得分或排名，损失的定义方式应确保相关item的排名较低。
成对排名比较一个positive item和negative item的得分或成对排名，损失的定义方式应确保positive item的排名低于negative item的排名。
列表排名使用所有item的得分或排名，并将其与perfect ordering进行比较。由于它包括排序，因此通常计算成本更高，因此不经常使用。

本文中，作者发现逐点排名不稳定，而成对排名的损失表现良好。

贝叶斯个性化排名(Beyesian Personalized Ranking，BPR)
本文使用的ranking loss

$r_{s,j}$ 是负样本的点击概率， $r_{s,i}$ 是正样本的点击概率，若 $r_{s,j}$ < $r_{s,i}$ ，则 $L_s$ 会比较小。加入正则项是为了稳定性，由于正样本也会被用作负样本。

【mini-batch并行化训练】
为了更好的并行计算，论文采用了 mini-batch 的处理，即把不同的session拼接起来：

可以看到，Session1的长度为4，Session2的长度为2，Session3的长度为6，Session4的长度为2，Session5的长度为3。假设Batch-Size为3，那么我们首先用前三个Session进行训练，不过当训练到第三个物品时，Session2已经结束了，那么我们便将Session4来接替上，不过这里要注意将GRU中的状态重新初化。

【负采样】
物品数量如果过多的话，模型输出的维度过多，计算量会十分庞大，因此在实践中一般采取负采样的方法。

对user-item matrix中任意缺失event的自然解释是：用户不知道该项的存在，因此没有交互。但是，由于用户不喜欢该项目，因此用户知道该项目并选择不进行交互的可能性很低。

item越受欢迎，user越有可能知道它，因此丢失的event越有可能表示不喜欢。在本文中，作者没有为每个训练实例生成单独的负样本，而是使用mini-batch中其他训练实例中的item作为负样本。这种方法的好处是：我们可以通过跳过采样进一步减少计算时间。同时，这种方法也是基于受欢迎程度的抽样，因为一个item出现在mini-batch的其它训练实例中的可能性与其受欢迎程度成正比。

2. Contextual Sequence Modeling for Recommendation with RNN

见【推荐算法论文阅读】Contextual Sequence Modeling for Recommendation with Recurrent Neural Networks

【背景】
当前的RNN建模方法仅通过考虑用户在过去与之交互的item序列来总结用户状态，而不考虑其他必要类型的上下文信息，例如相关的user-item交互类型，事件之间的时间间隔和每个交互的时间间隔。如：

在过去item ID的相同序列上，事件类型的差异导致最有可能的下一个item出现较大差异。最上面的未标记序列代表表示标准RNN可用的信息，导致下面两种可能结果之间的平均预测。在下面的标记序列中，我们观察到用户在上一次活动中购买了手机，因此最有可能访问的下一个项目是补充item，如耳机。在底部标记的序列中，用户将手机添加到购物车中，因此下一个最有可能的事件是用户购买手机。

在过去的项目ID的相同序列上，时间间隔的差异导致最有可能的下一个项目出现较大差异。这一次知道最后一个事件与之前的其他事件之间有很大的差距，导致可能性发生很大的变化。

为了解决这个问题，本文提出了一类新的上下文递归推荐神经网络（CRNNs），它可以考虑输入层和输出层的上下文信息，并通过将上下文嵌入与item嵌入相结合来修改RNN的行为，更明确地说，在动态模型中，通过将hidden单元参数化转换为上下文信息的函数。

【亮点】
本文研究了在序列模型中引入上下文的两种方法：

上下文相关的输入/输出模型，其中item表示通过一系列非线性变换与上下文相结合；
上下文相关的动态模型，其中上下文用于参数化隐藏状态转换的dynamics

【模型具体结构】
给定输入序列 $X=\{(x_t,c_t), t=1,...,T\}$ ，
其中， $x_t∈R^{V_x}$ ，是t时刻的item id的one-hot编码
$c_t∈R^{V_c}$ ，是t时刻的上下文向量

为此定义了序列P(X)上的概率分布，联合概率P(X)可以使用链式规则分解为条件概率的乘积：

因此，我们的任务简化为在给定当前上下文以及item和上下文的历史的情况下建模下一个item的概率。

整个模型由输入模块、循环结构模块、输出模块组成，模型架构为：

2.1. 输入模块

输入模块是把稀疏的原始输入数据转化成密集的输入数据。

2.2. 循环结构模块

用当前输入和上一个输入更新隐藏状态向量，即：

2.3. 输出模块

基于更新的状态向量和下一个上下文向量返回item的概率分布：

最终基于输出向量 $o_t$ 的softmax给出item的概率分布：

优化目标为：

【上下文条件的应用】
A. 上下文相关的输入/输出表示
concatenation假设补充信息对输入表示没有影响。而乘法交互为item表示提供了更紧密的上下文绑定，比如能捕获相似性。

B. 上下文相关的隐藏动态
大多数循环结构共享同样的计算block：

通过修改这个计算块来引入上下文相关的转换

对于GRU cell，计算块修改为：

3. Recurrent Recommender Networks (RRN)

见【推荐算法论文阅读】Recurrent Recommender Networks

【背景】
推荐系统传统的解决方案对数据的时间效应和因果属性缺乏处理，典型情景如：

用户对电影的看法是随时间变化的，这种变化会使得一些垃圾电影变为流行电影
季节时令性：浪漫喜剧，圣诞电影，夏日大片等类型的movie的季节性尤其突出。
用户兴趣：这个变化因素就更多了，通常很难显式建模。

【亮点】

使用两个LSTM网络来建模动态的user state和item state
同时，考虑到用户长期兴趣和item静态特征等固定属性，还使用矩阵分解建模用户和item的静态潜在属性
由于每个评分 $r_{ij}$ 都取决于user state RNN和item state RNN，但是通过2个序列的反向传播在计算上是禁止的。因此本文提出了一种交替子空间下降策略。

【模型具体结构】

以用户序列为例，给定M部电影， $x_t ∈ R^M$ 表示用户在t时刻的rating vector，其中，如果用户在时间步t用分数k评价项目j，则 $x_{tj}=k$ ，否则 $x_{tj}=0$ 。此外，使用 $τ_t$ ， $τ_{t−1}$ 表示在t及t-1时刻的状态，并使用 $1_newbie=1$ 表示用户是新用户。
用户LSTM模型的输入为：

每一步LSTM为：

即使用户和item状态可能是time-varying，但是仍然应该有一些固定的组件编码固定的属性，例如个人资料、用户的长期偏好或item属性类型等。为了实现这一点，我们分别用stationary向量 $u_i, m_j$ 来补充time-varying向量 $u_{it}, m_{jt}$ 。则：

其中， $u_i, m_j$ 是矩阵分解得到的结果，而 $u_{it}, m_{jt}$ 是LSTM建模得到的结果。

【交替子空间下降策略】
由于每个评分 $r_{ij}$ 都取决于user state RNN和item state RNN，但是通过2个序列的反向传播在计算上是禁止的。因此本文提出了一种交替子空间下降策略。也就是说，仍然一次反向传播用户所有ratings的梯度以及更新用户序列参数，但是假设item状态是固定的，因此不需要将梯度传播到这些item序列中。然后在更新用户序列和item序列之间进行交替。

五、Deep Semantic Similarity based Recommender System

Deep Semantic Similarity Model(DSSM) 将不同的实体投影到一个公共低维空间，并使用余弦函数计算他们的相似性：

参考资料

浪潮之巅-深度学习在推荐系统中的应用（深度学习推荐系统学习笔记）
深度学习推荐系统王喆编著中国工信出版集团
Deep Learning based Recommender System: A Survey and New Perspectives
推荐系统 (三): 浪潮之巅 – 深度学习在推荐系统中的应用
基于CNN和attention的标签推荐（IJCAI 2016）
论文笔记：Hashtag Recommendation for Multimodal Microblog Using Co-Attention Network
推荐系统遇上深度学习(四十)-SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS
论文阅读——《Contextual Sequence Modeling for Recommendation with Recurrent Neural Networks》
论文阅读笔记：Recurrent recommender networks

你可能感兴趣的:(推荐算法,深度学习,推荐算法,机器学习)

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
大模型【进阶】（一）MoE（mixture of experts）混合专家结构 ReinaXue 人工智能笔记语言模型神经网络
什么是MoE结构？MoE（MixtureofExperts，专家混合模型）是一种深度学习模型架构，通常用于处理大规模模型和计算资源效率的挑战。在MoE结构中，模型由多个“专家”组成，每个专家处理不同的任务或输入数据的不同部分，而不是让所有专家都参与每次计算。这种方式提高了计算效率，并在某些情况下有助于增强模型的表现。MoE结构的核心思想专家：在MoE模型中，专家通常指的是网络中的子模型，每个专家具
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_