呆呆的猫

六、推荐系统原理与应用

- - 一、推荐系统
    - 1.1 推荐系统的应用
    - 1.2 什么是推荐系统
    - 1.3 推荐系统的意义
    - 1.4 推荐系统的结构
    - 1.5 推荐系统的评估
    - 1.5.1 准确度
  - 二、推荐系统的不同类型
    - 2.1 基于内容
    - 2.2 协同过滤
      - 2.2.1 基于用户的协同过滤（user based Collaborative Filtering）
      - 2.2.2 基于物品的协同过滤（item-based CF）
      - 2.2.3 协同过滤的对比
      - 2.2.4 协同过滤的冷启动问题
    - 2.3 隐语义模型
      - 2.3.1 隐语义模型的思想：
      - 2.3.2 假设
      - 2.3.3 数学理解
      - 2.3.4 隐语义模型要解决的问题
      - 2.3.5 隐语义模型的样本问题
      - 2.3.6 隐语义模型推导
      - 2.3.7 隐语义方法小结
    - 2.4 用户行为序列与word2vec
  - 三、推荐系统的一些细节

一、推荐系统

1.1 推荐系统的应用

电子商务，电影视频，音乐电台，社交网络，阅读，基于位置（外卖，打车），个性化邮件，个性化广告

1.2 什么是推荐系统

根据用户的 历史行为 / 点赞 / 页面停留时间 等来推荐用户感兴趣的物品

推荐系统根据用户的以下行为来判断用户当前的需求或感兴趣的点：

历史行为
社交行为
兴趣点
所处的上下文环境（上下班时间/周末等）
…

1.3 推荐系统的意义

目前我们处于互联网数据大爆炸的时代，每天会接收到很多的信息，但是并不是每种信息都感兴趣，所以推荐系统也是解决信息过载问题的思路。

对用户而言：

可以找到更感兴趣的东西
帮助自己来做决策
发现新鲜事物

对商家而言：

可以提供个性化的服务，提高信任度和粘度
增加营收

1.4 推荐系统的结构

1.5 推荐系统的评估

用户满意度：问卷调查
预测准确度：评分RMSE, MAE; TopN推荐
覆盖率：发现长尾物品
多样性：覆盖用户不同兴趣
新颖性（流行度反过来）
惊喜度，信任度，实时性，健壮性（Robust）
商业目标（广告盈利）

1.5.1 准确度

1、打分系统（有用户的打分实际数值，如电影评分3分）

rui ：用户 u 对物品 i 的实际评分
r^ui ：用户 u 对物品 i 的预测评分
|T| ：用户数量

2、Top N推荐（推荐前N个预测的）

系统不会让用户给自己喜欢的东西打分，可以根据停留时间来判断其喜好程度。

R(u) ：根据训练数据建立的模型在测试集上对用户的推荐
T(u) ：用户在测试集上的真实选择

准确率vs召回率

准确率：在推荐的商品中，哪些是真正感兴趣的
召回率：在推荐的商品中，占用户感兴趣商品的比例

3、覆盖率（对平台而言）

马太效应：好的越好，坏的越坏，多的越多，少的越少

覆盖率表示了对物品长尾的发掘能力

有两个判别准则，一个维覆盖率Coverage，另一个是熵

Coverage：假如推荐商品类别数量为9w个，而冷门商品虽然被推荐了5000个，但是可能每种只推荐了一次，热门的商品还是被推荐的多，所以仍然会有马太效应。

熵：由于覆盖率仍然会有马太效应，所以用熵来评估推荐物品种类的多样性，已知熵是度量样本不确定性的准则，所以我们希望H越大越好，因为当每个商品被推荐的概率基本相同的时候，熵最大，所以用熵来评估平台对不同商品的推荐覆盖率。

4、多样性（对用户而言）

对用户而言，用户希望系统推荐的某类东西有一定的多样性，也就是有差异，比如颜色，款式等。

5、新颖度：商品给用户的新鲜感（推荐其不知道的商品）
6、惊喜度：与用户的历史兴趣不相似，但是用户确满意的
7、信任度：提供可靠的推荐理由
8、实时性：实时更新程度

二、推荐系统的不同类型

2.1 基于内容

实例：

对不同的书进行推荐：

2.2 协同过滤

协同过滤是一种基于近邻的推荐算法，是根据用户在物品上的行为找到物品或用户的“近邻”。

用户在物品上的行为 ——> 同类用户/同一用户可能喜欢的不同物品

相似度/距离定定义（两者是成反比的）：

2.2.1 基于用户的协同过滤（user based Collaborative Filtering）

基于用户有共同行为的物品，计算用户的相似度，找到“近邻”用户，对其近邻在新物品上的评价进行加权推荐。

假设有n个用户： ui,i=1,2,...,n
假设有m个物品： pj,j=1,2,...,m
得分矩阵 vn×m ， vi×j 表示用户i对物品j的打分
物品i和物品j的相似度 S(i,j)
选取TopK推荐或加权预测得分

示例：

同样是对电影评分进行预估，可以通过求列和列之间的相似度，也就是用户和用户之间的相似度，来判定某些相似的用户，从而从和他相似的用户中预估其对电影的打分。

假如用户5和用户3、10的相似度较高，则用用户3和10对第一个电影的评分的加权平均作为用户5对电影1的评分。

2.2.2 基于物品的协同过滤（item-based CF）

基于有相同用户交互的物品，计算物品相似度（A和B），找到物品的近邻（B），对其他喜欢A的用户做推荐。

假设有两种商品A和B，则同时喜欢两者的人群可能是相似性较高的，所以可以判定A和B的相似性应该是接近的，故可以把B推荐给喜欢A的人群。

假设有n个用户： ui,i=1,2,...,n
假设有m个物品： pj,j=1,2,...,m
得分矩阵 vn×m ， vi×j 表示用户i对物品j的打分
物品i和物品j的相似度 S(i,j)
选取TopK推荐或加权预测得分

示例：对空白处进行预估

空白填充的目的：为了根据用户已打分的电影，推断出其没看过的电影的评分，预估出评分之后，按大小排序，推荐预估分数高的电影。

求行和行之间的相似度：

2.2.3 协同过滤的对比

工业界对基于物品的协同过滤用的更多，因为：

用户量一般远远大于某类新闻量，计算用户相似度计算量很大
人是比较“善变”，兴趣会很快变化，但是物品不会，不同物品的相似度不会改变
基于物品的推荐会提供给用户理由，使得推荐更有说服力

协同过滤的优缺点：

2.2.4 协同过滤的冷启动问题

2.3 隐语义模型

用户的评分矩阵有的位置是空着的，我们希望尽量正确的填满未打分的项。

2.3.1 隐语义模型的思想：

肯定会有一些隐藏的因素会影响用户的打分，不一定是人可以直接理解的隐藏因子，但是总会是由些因素影响了你的打分，所以，我们找到隐藏因子，可以对用户和商品进行关联。**

隐语义模型：寻找可能影响用户打分的隐藏因子

2.3.2 假设

隐藏因子个数小于用户和商品数，因为如果每个user都对应一个独立的隐藏因子，就没法做预测了。

2.3.3 数学理解

R矩阵：用户对物品的偏好信息
P矩阵：用户对各个物品类别的偏好信息
Q矩阵：各个物品所归属的物品类别信息

隐语义模型就是要将用户对物品的偏好信息R矩阵，分解为P和Q的乘积，即通过物品类别class将用户和物品联系起来。

假如一个电影刚好不是战争片（得分-1），而用户刚好不喜欢战争片（-1），两者相乘刚好是1，刚好匹配。

2.3.4 隐语义模型要解决的问题

如何对物品进行分类，分成几类？
如何确定用户对哪些物品类别有兴趣，兴趣程度如何？
对于一个给定的类，选择这个类中的哪些物品进行推荐，如何确定物品在某个类别中的权重？

2.3.5 隐语义模型的样本问题

隐语义模型在显性反馈数据（也就是评分数据）上能解决评分预测问题并达到了很好的精度。不过推荐系统主要讨论的是隐性反馈数据集，这种数据集的特点是只有正样本（用户喜欢什么物品），而没有负样本（用户对什么物品不感兴趣）。那么，在隐性反馈数据集上应用隐语义模型解决推荐的第一个关键问题就是如何给每个用户生成负样本。我们发现对负样本采样时应该遵循以下原则：

对每个用户，要保证正负样本的平衡（数目相似）；
每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品：一般认为，很热门而用户却没有行为更加代表用户对这个物品不感兴趣。因为对于冷门的物品，用户可能是压根没在网站中发现这个物品，所以谈不上是否感兴趣；

2.3.6 隐语义模型推导

假设：

U 个用户
I 个物品
R 为打分矩阵
K 个隐含变量（也就是将物品分为K个类型这是根据经验和业务知识进行反复尝试决定的）

求解：

矩阵 PU,k ：用户U对第k个分类的喜爱程度
矩阵 Qk,I ：物品i属于类别k的权重

（1）传统奇异值分解SVD用于推荐

可以将这个用户物品对应的m×n矩阵M进行SVD分解，并通过选择部分较大的一些奇异值来同时进行降维，也就是说矩阵M此时分解为r如下，通过这种方法，我们可以将评分表里面所有没有评分的位置得到一个预测评分。通过找到最高的若干个评分对应的物品推荐给用户：

M m \times n = U m \times k Σ k \times k V T k \times n

SVD的限制：要补值

SVD分解要求矩阵是稠密的，也就是说矩阵的所有位置不能有空白。有空白时我们的M是没法直接去SVD分解的。

传统SVD采用的方法是对评分矩阵中的缺失值进行简单的补全，比如用全局平均值或者用用户物品平均值补全，得到补全后的矩阵。接着可以用SVD分解并降维。
SVD的时间复杂度为O(m^3)，用户数和物品一般都是超级大，随便就成千上万了。这么大一个矩阵做SVD分解是非常耗时的。

（2）FunkSVD算法用于推荐

FunkSVD如何将矩阵M分解为P和Q呢？这里采用了线性回归的思想。我们的目标是让用户的评分和用矩阵乘积得到的评分残差尽可能的小，也就是说，可以用均方差作为损失函数，来寻找最终的P和Q。

隐语义模型是根据如下公式来计算用户U对物品I的兴趣度:

如何找到矩阵P/Q的最佳参数：随机初始化之后，利用梯度下降法优化损失函数

损失函数：

下式为正则项：

对两组未知数求偏导：

利用随机梯度下降法得到递推公式：

其中α是在梯度下降的过程中的步长(也可以称作学习速率)，这个值不宜过大也不宜过小，过大会产生震荡而导致很难求得最小值，过小会造成计算速度下降，需要经过试验得到最合适的值。

迭代最终会求得每个用户对于每个隐分类的喜爱程度矩阵P和每个物品与每个隐分类的匹配程度矩阵Q。

在用户对物品的偏好信息矩阵R 中，通过迭代可以求得每个用户对每个物品的喜爱程度,选取喜爱程度最高而且用户没有反馈过的物品进行推荐，也就是还原矩阵的未打分项。

在隐语义模型中，重要的参数有以下4个：

1）隐分类的个数F；

2）梯度下降过程中的步长(学习速率)α；

3）损失函数中的惩罚因子λ；

4）正反馈样本数和负反馈样本数的比例ratio；

这四项参数需要在试验过程中获得最合适的值.1）3）4）这三项需要根据推荐系统的准确率、召回率、覆盖率及流行度作为参考, 而2）步长α要参考模型的训练效率。

（3） BiasSVD算法用于推荐

BiasSVD假设评分系统包括三部分的偏置因素：

一些和用户物品无关的评分因素，用户有一些和物品无关的评分因素，称为用户偏置项。
而物品也有一些和用户无关的评分因素，称为物品偏置项。这其实很好理解。比如一个垃圾山寨货评分不可能高，自带这种烂属性的物品由于这个因素会直接导致用户评分低，与用户无关。
总体偏置项

假设评分系统平均分为μ,第i个用户的用户偏置项为bi,而第j个物品的物品偏置项为bj，则加入了偏置项以后的优化目标函数J(p,q)是这样的

这个优化目标也可以采用梯度下降法求解。和FunkSVD不同的是，此时我们多了两个偏执项bi,bj,，pi,qj的迭代公式和FunkSVD类似，只是每一步的梯度导数稍有不同而已，这里就不给出了。而bi,bj一般可以初始设置为0，然后参与迭代。这里给出bi,bj的迭代方法

通过迭代我们最终可以得到P和Q，进而用于推荐。BiasSVD增加了一些额外因素的考虑，因此在某些场景会比FunkSVD表现好。

2.3.7 隐语义方法小结

FunkSVD将矩阵分解用于推荐方法推到了新的高度，在实际应用中使用也是非常广泛。当然矩阵分解方法也在不停的进步，目前张量分解和分解机方法是矩阵分解推荐方法今后的一个趋势。

对于矩阵分解用于推荐方法本身来说，它容易编程实现，实现复杂度低，预测效果也好，同时还能保持扩展性。这些都是它宝贵的优点。当然，矩阵分解方法有时候解释性还是没有基于概率的逻辑回归之类的推荐算法好，不过这也不影响它的流形程度。小的推荐系统用矩阵分解应该是一个不错的选择。大型的话，则矩阵分解比起现在的深度学习的一些方法不占优势。

2.4 用户行为序列与word2vec

三、推荐系统的一些细节

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
数据挖掘算法：KNN、SVM、决策树详解大力出奇迹985 数据挖掘算法支持向量机
本文将详细解析数据挖掘领域中常用的三种经典算法：KNN（K近邻算法）、SVM（支持向量机）和决策树。首先分别阐述每种算法的核心原理、实现步骤，再分析它们的优缺点及适用场景，最后对这三种算法进行综合对比与总结。通过本文，读者能全面了解这三种算法的特性，为实际数据挖掘任务中算法的选择提供参考，助力提升数据处理与分析的效率和准确性。在当今信息爆炸的时代，数据挖掘技术在各行各业发挥着至关重要的作用，而算法
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
通用图片 OCR 到 Word API 数据接口 2301_78772565 ocr
通用图片OCR到WordAPI数据接口高可用图像识别引擎，基于机器学习，超精准识别率。1.产品功能通用的识别接口，支持多种图片格式；支持中英文字符混合识别；支持Base64以及网络地址传参；基于机器学习不断提高的识别率；输出的Word文件永久存储；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容AppleATS；全国多节点CDN部署；接口极速响应，
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
深入详解：决策树在医学影像分割特征选择中的应用与实现猿享天开决策树算法机器学习人工智能
深入详解：决策树在医学影像分割特征选择中的应用与实现决策树（DecisionTree）作为一种经典的机器学习算法，以其简单、直观和可解释性强的特点，在医学影像分割的特征选择中扮演了重要角色。医学影像分割（如分割脑肿瘤、肝脏、肺结节等）需要从高维影像数据中提取关键特征，以提升分割模型的精度和效率。决策树通过构建树形结构，筛选对分割任务最重要的特征，降低数据维度，同时提供可解释的规则。本文将从原理、实
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l