【论文笔记】U-BERT: Pre-training User Representations for Improved Recommendation

原文作者：Zhaopeng Qiu, Xian Wu, Jingyue Gao, Wei Fan

原文标题：U-BERT: Pre-training User Representations for Improved Recommendation

原文来源：AAAI 2021

原文链接：https://www.aaai.org/AAAI21Papers/AAAI-2116.QiuZ.pdf

U-BERT: Pre-training User Representations for Improved Recommendation

对于推荐系统来说，学习到精确的用户representation是非常重要的。早期的研究方法从user-item评分矩阵中得到用户representation。但是这种办法存在问题，评分矩阵通常十分稀疏，而且评分也比较粗粒度。有些方法使用了review增强用户的表征，但是由于某些领域的review非常少，也无法获得准确的用户表征。本文提出的U-BERT方法很好的解决了这个问题。

问题定义

$\mathcal{U =}\left\{ u_{k} \right\}_{k = 1}^{k = M}和\mathcal{I =}\left\{ i_{j} \right\}_{j = 1}^{j = N}$ 分别表示领域D中的用户集和item集，领域D中的评论集为 $\mathcal{T}_{f}$ ( $\mathcal{U}$ 写给 $\mathcal{I}$ )，每条评论包含user ID $u$ ，item ID $i$ ，文本 $s$ ，评分 $r$ 。用户在其他领域的评论集为 $\mathcal{T}_{p}$ ，评论的格式与上述相同(item集不同)。

模型架构

模型分为两个部分：pre-training和fine-tuning。预训练阶段，通过两个自监督任务从不同领域的评论中预训练U-BERT模型和用户表征。微调阶段，使用预训练好的模型U-BERT编码用户特征，帮助item编码器得到领域D的评论中的item表征。通过监督评分预测任务，得到领域D最终的推荐模型。

预训练阶段

预训练阶段的模型架构如图2所示。有三个模块组成：输入层、评论编码器、用户编码器。

输入层

输入评论文本、用户ID和相应的领域ID。输入的每一条评论，添加[CLS]和[SEP]到起始和末尾位置。然后将评论中的每一个单词通过矩阵 $\mathbf{E}_{W} \in \mathbb{R}^{\mathcal{|V| \times}d}$ 转化为对应的嵌入向量， $\mathcal{|V|}$ 是单词表的大小， $d$ 是嵌入向量的维度。然后每个嵌入向量加上相应的segment embedding和position embedding。最终一条评论的representation为 $\mathbf{S} \in \mathbb{R}^{L_{s} \times d}$ ， $L_{s}$ 是评论s的长度。

用户ID也转化为d维的向量 $\mathbf{u}$ ，通过嵌入矩阵 $\mathbf{E}_{U} \in \mathbb{R}^{\mathcal{|U| \times}d}$ 。为了解决两个阶段中领域不一致的问题，作者引入了domain ID来建模特定domain的信息。同样通过一个矩阵 $\mathbf{E}_{O}$ 将domain ID转化为向量 $\mathbf{o} \in \mathbb{R}^{d}$ 。

review encoder

使用多层Transformer。 $\mathbf{S}^{l} = \left\{ \mathbf{e}_{t}^{l} \right\}_{t = 1}^{t = L_{s}}$ 表示第 $l + 1$ 个Transformer层的输入，也就是第 $l$ 的输出。 $\mathbf{S}^{0}$ 就是review encoder的输入，也就是上文提到的 $\mathbf{S}$ **。**不同的Transformer层之间的参数是不同的。每个Transformer层包括两个子层，Multi-Head Self-Attention和Position-wise Feed-Forward。

Multi-Head Self-Attention层中，使用上下文语义增强评论中每个单词的representation。使用三个矩阵 $\mathbf{Q} \in \mathbb{R}^{L_{Q} \times d}\mathbf{、}\mathbf{K} \in \mathbb{R}^{L_{K} \times d}\text{、}\mathbf{V} \in \mathbb{R}^{L_{V} \times d}$ ，而且 $L_{K} = L_{V}$ 。

$\text{Attn}(\mathbf{Q},\mathbf{K},\mathbf{V}) = \text{Softmax}\left( \mathbf{\text{QK}}^{\top}/\sqrt{d} \right)\mathbf{V}$

每个attention head都使用上式计算，即：

$\text{head}_{i} = \text{Attn}\left( \mathbf{S}^{l}\mathbf{W}_{i}^{Q},\mathbf{S}^{l}\mathbf{W}_{i}^{K},\mathbf{S}^{l}\mathbf{W}_{i}^{V} \right)$

$\text{head}_{i} \in \mathbb{R}^{L_{s} \times d/h}$ 然后将多个head拼接起来：

$\text{MH}\left( \mathbf{S}^{l} \right) = \left\lbrack \text{head}_{1};\ldots;\text{head}_{h} \right\rbrack\mathbf{W}^{O}$

其中 $\mathbf{W}_{i}^{Q},\mathbf{W}_{i}^{K},\mathbf{W}_{i}^{V} \in \mathbb{R}^{d \times d/h}\text{，}\mathbf{W}^{O} \in \mathbb{R}^{d \times d}$ 都是学习得到的参数。h是head的个数。(这里的拼接操作应该axis=1： $\mathbb{R}^{L_{s} \times (d/h \times h)} \times \mathbb{R}^{d \times d}$ )

然后进行残差连接和层标准化：

$\mathbf{H}^{l} = \text{LN}\left( \mathbf{S}^{l} + \text{MH}\left( \mathbf{S}^{l} \right) \right)$

Position-wise Feed-Forward子层中，对于输入 $\mathbf{H} \in \mathbb{R}^{L_{H} \times d}$ 有：

$\text{FFN}(\mathbf{H}) = GELU\left( \mathbf{\text{HW}}_{1}^{F} + \mathbf{b}_{1}^{F} \right)\mathbf{W}_{2}^{F} + \mathbf{b}_{2}^{F}$

其中 $\mathbf{W}_{1}^{F} \in \mathbb{R}^{d \times 4d},\mathbf{W}_{2}^{F} \in \mathbb{R}^{4d \times d},\mathbf{b}_{1}^{F} \in \mathbb{R}^{4d}\text{\ and\ }\mathbf{b}_{2}^{F} \in \mathbb{R}^{d}$ 都是可训练的参数。

同样进行残差连接和层标准化：

$\mathbf{S}^{l + 1} = \text{Trm}\left( \mathbf{S}^{l} \right) = \text{LN}\left( \mathbf{H}^{l} + \text{FFN}\left( \mathbf{H}^{l} \right) \right)$

最终，一条评论经过L层的Transformer，表征为 $\mathbf{S}^{L}$ 。

user encoder

该模块将用户的评论语义聚合到用户的表征中，使其包含用户对item的意见。由三个子层构成：embedding fusion layer、word-level aggregation layer、fusion layer。

embedding fusion layer将domain embedding和用户embedding融合， $\widetilde{\mathbf{u}} = \text{LN}(\mathbf{u} + \mathbf{o})$ 。这使得预训练得到的用户表征能直接应用到领域D的推荐任务中。

word-level aggregation layer利用注意力机制，得到评论中哪些单词更能表达用户意见，因为不同的单词表达意见的信息量不同。

$\mathbf{s}^{u} = \text{Attn}\left( \widetilde{\mathbf{u}}\mathbf{W}^{u},\mathbf{S}^{L},\mathbf{S}^{L} \right)$

$\mathbf{W}^{u} \in \mathbb{R}^{d \times d}$ 是可训练的参数。

fusion layer将 $\mathbf{s}^{u}$ 和 $\widetilde{\mathbf{u}}$ 结合起来，得到增强的用户表征 $\widehat{\mathbf{u}}$ ：

$\mathbf{H}^{u} = \text{LN}\left( \widetilde{\mathbf{u}}\mathbf{W}^{u} + \mathbf{s}^{u} \right)$

$\widehat{\mathbf{u}} = \text{Fuse}\left( \widetilde{\mathbf{u}},\mathbf{s}^{u} \right) = \text{LN}\left( \mathbf{H}^{u} + \text{FFN}\left( \mathbf{H}^{u} \right) \right)$

这里同样使用了残差连接和层标准化。

pre-training阶段使用两个任务进行训练，1）Masked Opinion Token Prediction；2）Opinion Rating Prediction。

第一个任务类似于BERT中的MLM任务，首先随机mask一些单词，然后使用双向上下文信息进行预测。在U-BERT中为了适配推荐任务，进行了一些修改：预测masked words时，增加用户representation来学习用户固定的评论偏好；mask单词不是随机选择，而是选择同一用户在不同domain的评论中类似的单词，而且暗含着用户个人的评论偏好(which are shared across different domain reviews written by the same user and imply the personal review preference)。

具体来说，先从一个opinion word库中定位评论中所有的opinion words。然后随机选择50%的opinion words进行masking。Mask的策略类似于BERT。假定某个单词 $w_{t}$ masked，使用 $\mathbf{S}_{t}^{L}$ (评论 $s$ 中的单词 $w_{t}$ 的representation)和 $\mathbf{u}$ 进行预测。

$\begin{matrix} \Pr\left( w_{t} \right)& = \text{Softmax}\left( \mathbf{h}_{t}\mathbf{W}_{3}^{P} + \mathbf{b}_{2}^{P} \right) \\ \mathbf{h}_{t}& = \text{LN}\left( \text{GELU}\left( \mathbf{S}_{t}^{L}\mathbf{W}_{1}^{P} + \mathbf{u}\mathbf{W}_{2}^{P} + \mathbf{b}_{1}^{P} \right) \right) \\ \end{matrix}$

其中 $\mathbf{W}_{1}^{P},\mathbf{W}_{2}^{P} \in \mathbb{R}^{d \times d},\mathbf{W}_{3}^{P} \in \mathbb{R}^{d \times |\mathcal{V|}},\mathbf{b}_{1}^{P} \in \mathbb{R}^{d}$ ， $\mathbf{b}_{2}^{P} \in \mathbb{R}^{\mathcal{|V|}}$ 都是可训练参数。

第二个任务是Opinion Rating Prediction。用户评论item时有两种表达意见的方式：①粗粒度的综合性评分；②细粒度的评，而且评论中有不同的opinion token。二者都能表达用户的偏好，但是仍然有不同。首先，尽管使用了同样的opinion words，但是不同的用户给出的评分是不一样的。其次，同样的评分可能有不同的opinion words的组合。这种差距来自于用户个人的评价偏好。因此，我们可以从该用户在其他领域的评价中学习用户的评价偏好，然后应用到领域D中。

$\widehat{\mathbf{u}}$ 中融合了用户的偏好信息和opinion信息，文中用它预测整体的评分 $r^{'}$ ：

$r^{'} = \widehat{\mathbf{u}}\mathbf{W}^{R} + b^{R}$

其中， $\mathbf{W}^{R} \in \mathbb{R}^{d \times 1}\text{且}b^{R} \in \mathbb{R}$ 是可训练的参数。

预训练阶段的损失函数为：

$\mathcal{L(}\Theta) = \sum_{k = 1}^{\left| \mathcal{T}_{p} \right|}\frac{- \sum_{t \in s_{k}^{M}}^{}\log\left( \Pr\left( w_{t} \right) \right)}{\left| s_{k}^{M} \right|} + \beta\left( r_{k}^{'} - r_{k} \right)^{2}$

其中， $\mathcal{T}_{p}$ 是预训练的语料库； $s_{k}^{M}$ 是第k条评论的maskedwo rd集。损失函数分为两部分，最大化第一部分，最小化第二部分。分别对应两个任务，第一部分解释为：每条评论中所有masked word概率求和取平均。第二部分是用户某条评论的预测评分和真实评分的平方误差。 $\beta$ 是平衡两个误差的权重。

微调阶段

图三中展示了fine-tuning阶段的模型架构。这一阶段的输入和pre-training阶段的输入有细小的变动。

输入层

输入有五个部分：domain ID，user ID，用户评论，item ID，item评论。使用矩阵 $\mathbf{E}_{I} \in \mathbb{R}^{\mathcal{|I| \times}d}$ 将item
ID转化为d维的嵌入向量 $\mathbf{i}$ **，**user ID，domain ID和评论都与pre-training中的处理一致。最终得到的是user embedding $\mathbf{u}$ ，domain embedding $\mathbf{o}$ ，user review representation $\mathbf{S}^{u} = \left\{ \mathbf{S}_{k}^{u} \right\}_{k = 1}^{k = C_{u}}$ ，item review representation $\mathbf{S}^{i} = \left\{ \mathbf{S}_{k}^{i} \right\}_{k = 1}^{k = C_{i}}$ 。

review encoder

Transformer难以处理很长的序列，作者使用U-BERT中的review encoder一个一个的编码user/item的评论。对于用户的第k条评论，其编码为：

${\widehat{\mathbf{S}}}_{k}^{u} = \text{Trm}^{L}\left( \text{Trm}^{L - 1}\left( \ldots\left( \text{Trm}^{1}\left( \mathbf{S}_{k}^{u} \right) \right) \right) \right)$

user&item encoder

将用户所有的评论的representation按行拼接： ${\widehat{\mathbf{S}}}^{u} = \left\lbrack {\widehat{\mathbf{S}}}_{0}^{u}\left| {\widehat{\mathbf{S}}}_{1}^{u} \right|\ldots \mid {\widehat{\mathbf{S}}}_{C_{u}}^{u} \right\rbrack$ (将一个矩阵拼接成一个长矩阵)。然后将usere mbedding和domain embedding融合， $\widetilde{\mathbf{u}} = \text{LN}(\mathbf{u} + \mathbf{o})$ 。然后再用所有评论的representation与其融合，得到multi-review-aware user representation：

$\widehat{\mathbf{u}} = \text{Fus}e\left( \widetilde{\mathbf{u}},{\widehat{\mathbf{s}}}^{u} \right)$

${\widehat{\mathbf{s}}}^{u} = \text{Attn}\left( \widetilde{\mathbf{u}}\mathbf{W}^{u},{\widehat{\mathbf{S}}}^{u},{\widehat{\mathbf{S}}}^{u} \right)$

类似地，item的representation $\ \widehat{\mathbf{i}}$ 使用同样的方式获得。

review co-matching layer

同一领域的item通常有共同关系的方面。比如一般手机考虑的方面包括"价格"，"电池寿命"等。不同的用户关注不同的方面；而且针对这些方面表达opinion和偏好。评论的整体评分通常是各个方面opinion的综合。通过用户的评论就可以知道用户关注的方面和相应的评价。同时，通过了解其他用户对item i的评论，可以了解item各方面的详细描述以及这些用户的一般评论。因此可以通过衡量用户评论的语义相似度，估计用户u对物品i各个方面的关心程度。相似度信息可以进一步帮助从细粒度的角度预测评分。文中从两个方向获得相似度信息。

Mutual Attention子层：

$\mathbf{D}^{u} = \text{Attn}\left( {\widehat{\mathbf{S}}}^{u},{\widehat{\mathbf{S}}}^{i},{\widehat{\mathbf{S}}}^{i} \right);\mathbf{D}^{i} = \text{Attn}\left( {\widehat{\mathbf{S}}}^{i},{\widehat{\mathbf{S}}}^{u},{\widehat{\mathbf{S}}}^{u} \right)$

使用注意力机制分别对齐user和item的评论到各自的语义空间中。原因是作者希望在细粒度上比较二者的review表征。

Matching子层获得原来的表征和注意力之后的表征语义相似度：

$\begin{matrix} \mathbf{M}^{u}\& = \text{Tanh}\left( \left\lbrack {\widehat{\mathbf{S}}}^{u} - \mathbf{D}^{u};{\widehat{\mathbf{S}}}^{u} \circ \mathbf{D}^{u} \right\rbrack\mathbf{W}^{M} + \mathbf{b}^{M} \right) \\ \mathbf{M}^{i}\& = \text{Tanh}\left( \left\lbrack {\widehat{\mathbf{S}}}^{i} - \mathbf{D}^{i};{\widehat{\mathbf{S}}}^{i} \circ \mathbf{D}^{i} \right\rbrack\mathbf{W}^{M} + \mathbf{b}^{M} \right) \\ \end{matrix}$

其中 $\mathbf{W}^{M} \in \mathbb{R}^{2d \times d}\text{，}\mathbf{b}^{M} \in \mathbb{R}^{d}$ ， $-$ 和 $\circ$ 表示矩阵中逐元素相加和相乘操作。

最后使用逐行最大池化来融合所有位置的匹配信息(矩阵每行求最大值)，以获得用户评论和item评论的综合表征：

$\begin{matrix} &\mathbf{t}^{u} = \text{MaxPooling}\left( \mathbf{M}^{u} \right) \\ &\mathbf{t}^{i} = \text{MaxPooling}\left( \mathbf{M}^{i} \right) \\ \end{matrix}$

5）预测层

$r^{'} = \left\lbrack \widehat{\mathbf{u}};\mathbf{t}^{u};\widehat{\mathbf{i}};\mathbf{t}^{i} \right\rbrack\mathbf{W}^{f} + b^{f}$

其中 $\mathbf{W}^{f} \in \mathbb{R}^{4d \times 1}\text{\ and\ }b^{f} \in \mathbb{R}$ 。

损失函数为：

$\mathcal{L}\left( \Theta_{f} \right) = \frac{1}{\left| \mathcal{T}_{f} \right|}\sum_{k = 1}^{\left| \mathcal{T}_{f} \right|}\left( r_{k}^{'} - r_{k} \right)^{2}$

3.3.5实验

数据集：Amazon product review datasets、Yelp challenge dataset。
Baseline：PMF、SVD++、HFT、Deep-CoNN、NARRE、RMG、DAML、AHN、 $U - BERT_{P -}$ (使用bert权重初始化，没有U-BERT pre-training)

各模型的实验结果如表2所示。U-BERT模型在六个不同的领域数据集上优于所有的基线。

即使没有预训练，U-BERT在5个数据集上的性能仍比DAML、AHN和NARRE有所提高，这表明它可以有效的捕获评论感知的用户特征。

表三中为没有预训练任务的实验结果，可以观察到移除任何预训练任务会导致性能下降。

3.3.6总结

本文提出的U-BERT模型，基于BERT对推荐任务进行适配，文章解决了某些领域数据缺失的问题。利用用户评论这一关键信息，提取评论中代表用户偏好的信息，从而增强用户的表征；然后使用两个预训练任务，opinion token预测和opinion评分预测得到一个训练好的模型和所有的参数。Fine-tuning阶段基于预训练的模型，加入item encoder和review co-matching层对某个领域的数据进行微调。

整个模型较为复杂，尤其是co-matching层不太理解。(A CoMatching Model for Multi-choice Reading Comprehension. Neural Natural Language Inference Models Enhanced with External Knowledge阅读这两篇文章可能好理解一点。)

模型中比较重要的思想是跨域推荐的问题，即对于数据较少的领域，利用同一用户的特点，在数据丰富的领域中抽取其偏好和特征，适配到数据较少的领域中。

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
大模型的学习 LLaMa和ChatGLM，minichatgpt4 贝猫说python 学习 llama 人工智能
LLaMa和ChatGLM，minichatgpt4什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？答：Bert的模型由多层双向的Transformer编码器组成，由12层组成，768隐藏单元，12个head，总参数量110M，约1.15亿参数量。NLU（自然语言理解）任务效果很好，单卡GPU可以部署，速度快，V100GPU下1秒能处理2千条以上。ChatGLM-6B,
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
javascript的数据类型及转换田小田txt
一、JavaScript数据类型：共有string，number，boolean，object，function五种数据类型；其中Object，Date，Array为对象型；2个不包含任何值的数据类型：null，undefined。二、Typeof查看数据类型：typeof"John"//返回stringtypeof3.14//返回numbertypeofNaN//返回numbertypeoffa
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
数字逻辑不可能涌现出智能 dog250 人工智能
先看一系列竖式乘法的步骤：相乘的两个数数位越大，步骤越多。如果不纠结数制，二进制运算也是这回事，把单个步骤用一个晶体管表达(其实一个步骤不止一个晶体管)，数位越大，所需的晶体管越多。先说结论，所有基于n进制的逻辑运算都不可扩展。硅基时序电路可如此巧妙完成精确计算，开启了数字化时代，人们试图将AI构建在这二进制世界。但若二进制运算不可扩展，基于数字逻辑的人工智能就不可能。前面提到过，二进制运算本质上
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
让数据说话：人工智能与六西格玛的完美结合张驰课堂人工智能六西格玛
当人工智能与六西格玛结合，企业可以充分利用人工智能技术的数据处理、预测分析和智能决策支持能力，实现数据驱动的决策、质量控制和流程优化，从而提高企业的效率和竞争力。下面张驰咨询给大家具体的介绍：1、数据驱动决策六西格玛侧重于数据分析和决策制定，而人工智能可以提供更强大的数据处理和分析能力。通过人工智能技术，可以自动收集和整理大量的数据，并进行有效的数据挖掘和模式识别。这些数据分析结果可以为六西格玛项
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
AI原生安全亚信安全首个“人工智能安全实用手册”开放阅览亚信安全官方账号安全网络 web安全人工智能大数据
不断涌现的AI技术新应用和大模型技术革新，让我们感叹从没有像今天这样，离人工智能的未来如此之近。追逐AI原生？企业组织基于并利用大模型技术探索和开发AI应用的无限可能，迎接生产与业务模式的全面的革新。我们更应关心AI安全原生。实施人工智能是一项复杂又长远的任务，任何希望利用大模型的组织在设计之初，都必须将安全打入地基，安全一定是AI技术发展的核心要素。针对人工智能和大模型面临的威胁与攻击模式，亚信
开发chrome扩展（禁止指定域名使用插件）徐同保 chrome 前端
mainfest.json:{"manifest_version":3,"name":"ChatGPT学习","version":"0.0.2","description":"ChatGPT,GPT-4,Claude3,Midjourney,StableDiffusion,AI,人工智能,AI","icons":{"16":"./images/logo.png","48":"./images/lo
ai智能语音机器人的出现未来电销行业会如何发展？ VO_794632978 WX-794632978 语音机器人人工智能机器人交互语音识别大数据
人工智能和移动互联网技术的发展，对于很多行业都产生了颠覆性的影响。而对于电销这一重复度较高的行业来说，也是产生了巨大的推动作用。对于传统电销人来说，电销机器人可以帮助你提高销售效率，提高影响客户的能力和转化率，将你过去繁琐简单无效的需要个人做的工作，都交给机器，让你的时间和精力，放在重要的客户和有创造性的事情上。我们一起来看看都有哪些发展。自动化程度提高：AI机器人能够不间断地工作，自动拨打电话、
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
生成式AI竞赛：开源还是闭源，谁将主宰未来？新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/对于一些行业观察家来说，这场战斗似乎还没开始就已结束。当ChatGPT成为有史以来增长最
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
从政府工作报告探计算机行业发展想你依然心痛个人总结与成长规划行业发展前景
文章目录每日一句正能量前言以“数”谋新、加“数”向实人工智能方面人工智能成核心驱动引擎软件方面通信方面后记每日一句正能量该来的始终会来，千万别太着急，如果你失去了耐心，就会失去更多。该走过的路总是要走过的，从来不要认为你走错了路，哪怕最后转了一个大弯。这条路上你看到的风景总是特属于你自己的，没有人能夺走它。前言2024年的两会是中国政治日历上一次重要的会议，吸引了全球的目光。在这次两会中，计算机行
ego - 人工智能原生 3D 模拟引擎——基于AI的3D引擎，可以做游戏、空间计算、元宇宙等项目花生糖@ AIGC学习资源人工智能游戏空间计算
1.产品概述：Ego是一款AI本地化的3D模拟引擎，旨在让非技术创作者通过自然语言生成逼真的角色、3D世界和交互式脚本。该平台提供了创建和分享游戏、虚拟世界和交互体验的功能。2.定位：Ego定位于解决开放世界游戏和模拟的三大难题：难以编写游戏脚本、非玩家角色无法展现人类行为以及创建新的3D资产和世界的难度。通过AI技术，Ego致力于让用户可以用自然语言创建复杂的游戏和交互体验。3.创始人背景：创始
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

【论文笔记】U-BERT: Pre-training User Representations for Improved Recommendation

U-BERT: Pre-training User Representations for Improved Recommendation

问题定义

模型架构

预训练阶段

输入层

review encoder

user encoder

微调阶段

输入层

review encoder

user&item encoder

review co-matching layer

你可能感兴趣的:(论文笔记,人工智能,推荐系统,bert,深度学习)