不会打代码呜呜呜呜

06-机器学习-数据预处理

数据清洗

数据清洗是数据预处理的核心步骤，旨在修正或移除数据集中的错误、不完整、重复或不一致的部分，为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例：

一、数据清洗的核心任务

问题类型	表现示例	影响
缺失值	数值型字段为空（NaN）	模型无法处理缺失值，导致训练中断或偏差
异常值	年龄=200岁，房价=-100万	扭曲统计指标（如均值），降低模型泛化性
重复数据	两行记录完全相同	导致模型过拟合，降低数据代表性
不一致数据	日期格式混乱（2023-09-01 vs 01/09/23）	解析错误，特征提取失败

二、数据清洗流程与工具

1. 缺失值处理

检测缺失值：

# 统计每列缺失比例
missing_ratio = data.isnull().mean() * 100
print(missing_ratio.sort_values(ascending=False))

处理方法：

方法	适用场景	代码示例
直接删除	缺失比例高（>80%）或无关字段	`data.dropna(axis=1, thresh=len(data)*0.2)`
均值/中位数填充	数值型字段，缺失随机分布	`data['age'].fillna(data['age'].median(), inplace=True)`
众数填充	类别型字段	`data['gender'].fillna(data['gender'].mode()[0], inplace=True)`
插值法	时间序列数据（如温度记录）	`data['temperature'].interpolate(method='time', inplace=True)`
模型预测填充	复杂场景（如多变量关联缺失）	使用KNN或随机森林预测缺失值（见下方代码）

KNN填充示例：

from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=5)
data_filled = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

2. 异常值处理

检测方法：

描述性统计：检查最小/最大值是否合理
```
print(data.describe())
```

箱线图（Boxplot）：

plt.figure(figsize=(8,4))
sns.boxplot(x=data['income'])
plt.title("Income Distribution")
plt.show()

Z-Score法（正态分布数据）：

z_scores = (data['value'] - data['value'].mean()) / data['value'].std()
outliers = data[abs(z_scores) > 3]  # Z>3为异常

IQR法（非正态分布数据）：

Q1 = data['age'].quantile(0.25)
Q3 = data['age'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

处理方法：

方法	代码示例
删除异常值	`data = data[(data['age'] >= 0) & (data['age'] <= 100)]`
截断（Winsorize）	`from scipy.stats.mstats import winsorize data['income'] = winsorize(data['income'], limits=[0.05, 0.05])`
分箱（Binning）	`data['age_bin'] = pd.cut(data['age'], bins=[0,18,35,60,100])`

3. 重复数据处理

检测与删除：

# 检测完全重复的行
duplicates = data.duplicated()
print(f"重复行数量: {duplicates.sum()}")

# 删除重复行（保留第一个出现值）
data.drop_duplicates(keep='first', inplace=True)

部分重复处理（如用户ID重复但信息不同）：

# 按关键字段去重（如用户ID）
data.drop_duplicates(subset=['user_id'], keep='last', inplace=True)

4. 不一致数据修正

格式统一：

# 日期格式标准化
data['date'] = pd.to_datetime(data['date'], format='mixed')

# 文本大小写统一
data['category'] = data['category'].str.lower()

# 单位统一（如货币转换）
data['price'] = data['price'].apply(
    lambda x: x * 6.5 if 'USD' in x else x
)

逻辑校验：

# 检查年龄与出生日期是否一致
current_year = pd.Timestamp.now().year
data['calculated_age'] = current_year - data['birth_year']
invalid_age = data[abs(data['age'] - data['calculated_age']) > 1]

三、实战案例：电商订单数据清洗

原始数据问题

import pandas as pd
data = pd.DataFrame({
    'order_id': [101, 102, 103, 104, 105, 106],
    'user_id': [1, 2, 2, 3, 4, None],
    'price': [29.9, 199.0, 199.0, -50.0, 89.9, 120.0],
    'order_date': ['2023-09-01', '01/09/2023', '2023-09-01', '2023-10-32', None, '2023-09-05']
})

清洗步骤

处理缺失值：

# 填充user_id缺失值（假设新用户ID为999）
data['user_id'].fillna(999, inplace=True)

# 删除order_date缺失的行
data.dropna(subset=['order_date'], inplace=True)

修正异常价格：

# 删除价格为负的订单
data = data[data['price'] > 0]

# 截断价格超过200的订单（假设业务上限为200）
data['price'] = data['price'].clip(upper=200)

标准化日期格式：

# 转换日期并过滤无效日期（如2023-10-32）
data['order_date'] = pd.to_datetime(data['order_date'], errors='coerce')
data.dropna(subset=['order_date'], inplace=True)

去重：

# 按user_id和order_date去重（保留最后一条）
data.drop_duplicates(subset=['user_id', 'order_date'], keep='last', inplace=True)

清洗后数据

order_id	user_id	price	order_date
101	1	29.9	2023-09-01
102	2	199.0	2023-09-01
105	4	89.9	NaT（已删除）
106	999	120.0	2023-09-05

四、注意事项

避免过度清洗：保留合理的数据多样性（如正常的价格波动）。
记录清洗日志：跟踪每一步操作的影响（如删除了多少行数据）。
业务规则优先：与领域专家确认异常定义（如“用户年龄>100是否合理”）。

自动化流水线：对持续更新的数据，使用Pipeline封装清洗步骤：

from sklearn.pipeline import Pipeline

clean_pipeline = Pipeline([
    ('fill_na', SimpleImputer(strategy='constant', fill_value=999)),
    ('remove_duplicates', DropDuplicates(subset=['user_id'])),
    ('clip_outliers', ColumnTransformer([('clip', FunctionTransformer(lambda x: x.clip(0, 200)), ['price'])])),
])

数据变换

以下是对数据变换的更紧凑、更细节化的总结，突出核心要点与实用技巧：

一、标准化/归一化：核心差异

方法	公式	适用场景	异常值敏感度	Scikit-learn工具
Z-score	$\frac{x - \mu}{\sigma}$	数据近似正态分布，线性模型（SVM、回归）	高	`StandardScaler`
Min-Max	$\frac{x - x_{\min}}{x_{\max} - x_{\min}}$	图像像素、神经网络输入层	高	`MinMaxScaler`
Robust	$\frac{x - \text{median}}{IQR}$	存在异常值，非正态分布	低	`RobustScaler`

关键技巧：

树模型（如随机森林、XGBoost）无需标准化，但对特征组合敏感的模型（FM、NN）需要。
归一化到[-1,1]可能对某些激活函数（如tanh）更友好。

二、非线性变换：快速选择

对数变换：右偏数据（如收入），用np.log1p避免零值。
Box-Cox变换：需数据严格为正，自动优化λ值（scipy.stats.boxcox）。
分位数变换：强制数据服从均匀/正态分布（QuantileTransformer）。

示例代码：

from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method='yeo-johnson')  # 兼容零/负值
X_transformed = pt.fit_transform(X)

三、分类变量编码：场景化方案

方法	优点	缺点	适用模型
One-Hot	无顺序假设，兼容所有模型	高维稀疏，需处理共线性	线性模型、神经网络
Target编码	保留类别与目标的关系	需防过拟合（如交叉验证）	树模型、高基数类别
Embedding	低维稠密，捕捉语义相似性	需预训练或端到端学习	深度学习（NLP/推荐系统）

关键点：

高基数类别优先用Target Encoding或CatBoost内置处理。
树模型可尝试Label Encoding，但需验证类别顺序是否合理。

四、特征工程：高效操作

数值特征：
- 交叉特征：加减乘除（如电商中“单价×购买量=总金额”）。
- 分箱：等频分箱（pd.qcut）或等宽分箱（pd.cut），捕捉非线性。
时间特征：
- 提取周期性（星期、月份），滑动窗口统计（均值、标准差）。
文本特征：
- 短文本用TF-IDF，长文本用BERT嵌入，高维稀疏时用TruncatedSVD降维。

代码示例：

# 时间特征处理
df['hour'] = df['timestamp'].dt.hour
df['is_weekend'] = df['timestamp'].dt.weekday >= 5

五、降维：选择策略

方法	核心思想	适用场景	注意事项
PCA	线性投影最大化方差	高维数据可视化/去噪	需先标准化，可能丢失非线性信息
t-SNE	非线性保留局部结构	可视化高维聚类	计算代价高，不用于特征输入
UMAP	平衡速度与局部/全局结构	大规模数据可视化/预处理	参数敏感，需调参

经验：

输入特征>50时优先用PCA，保留95%方差（n_components=0.95）。
避免对树模型使用降维，可能破坏特征重要性。

六、避坑指南

数据泄露：

所有变换必须仅用训练集统计量！用Pipeline确保流程：

from sklearn.pipeline import make_pipeline
pipe = make_pipeline(StandardScaler(), SVM())
pipe.fit(X_train, y_train)

异常值处理：
- 缩尾处理（np.clip）或中位数填充，避免破坏分布。
评估验证：
- 对KNN、SVM等敏感模型，对比不同缩放方法的分类边界（如决策边界图）。

七、端到端流程

输入检查：分布（直方图/Q-Q图）、缺失值、异常值。
数值特征：缩放→非线性变换→分箱。
分类特征：编码→嵌入（可选）。
特征构造：领域知识驱动交叉/聚合。
输出验证：模型在验证集的表现波动是否<5%。

总结：数据变换需与模型特性深度耦合，通过实验迭代优化。记住：“Garbage in, garbage out”——宁可花80%时间在数据准备，而非调参！

特征工程

特征工程：从原始数据到模型燃料的核心技术

特征工程是机器学习的“炼金术”，旨在将原始数据转化为模型可理解的强特征，直接影响模型性能上限。以下是结构化拆解：

一、核心目标与价值

目标：构造高信息量、低冗余、适配模型的特征。
价值：
- 提升模型准确率（如添加用户历史行为统计特征）
- 降低计算成本（通过降维/特征选择）
- 增强可解释性（如分箱后的年龄组代替原始值）

二、特征构造：从原始数据中“挖掘金子”

时间特征
- 基础字段：年、月、日、小时、星期几、是否节假日
- 衍生特征：时间间隔（如上次购买距今的天数）、滑动窗口统计（过去7天均值）
```
df['purchase_hour'] = df['timestamp'].dt.hour
df['days_since_last_purchase'] = (current_date - df['last_purchase_date']).dt.days
```
交互特征（组合特征）
- 数值交互：加减乘除（如“单价×数量=总价”）
- 类别交叉：笛卡尔积（如“地区×产品类型”生成组合标签）
```
df['price_per_sqmeter'] = df['total_price'] / df['area']
```
统计聚合特征
- 单维度统计：用户历史购买金额的均值、最大值、方差
- 跨表关联：订单表按用户ID聚合的订单数、退货率
```
user_stats = orders.groupby('user_id')['amount'].agg(['mean', 'max'])
```
文本/图像特征
- 文本：TF-IDF关键词权重、BERT句向量、情感分析得分
- 图像：边缘特征、颜色直方图、预训练CNN提取的特征图

三、特征变换：提升模型适配性

分箱（Binning）
- 等宽分箱：固定区间宽度（如年龄每10年一档）
- 等频分箱：保证每箱样本量均衡
- 模型分箱：使用决策树寻找最优分割点
```
df['age_bin'] = pd.cut(df['age'], bins=[0,18,35,60,100], labels=['child', 'young', 'adult', 'senior'])
```
非线性变换
- 对数变换：处理右偏分布（np.log1p避免零值）
- Box-Cox变换：自动优化正态性（仅适用于正值）
- 分位数变换：强制服从指定分布（如正态、均匀）
高基数类别处理
- 目标编码（Target Encoding）：用目标变量的统计量（如均值）代替类别
- 频率编码：使用类别出现频率作为特征值
- 嵌入编码（Embedding）：通过神经网络学习低维表示（如Word2Vec）

四、特征选择：剔除噪声与冗余

方法	原理	适用场景
过滤法	基于统计指标（如方差、卡方检验）	快速初筛，计算成本低
包裹法	通过模型性能迭代选择特征子集	精确但计算代价高（递归特征消除）
嵌入法	模型训练中自动选择（如L1正则化）	与模型耦合，高效

实用技巧：

对树模型，直接使用feature_importances_筛选重要性>阈值特征
对线性模型，结合Lasso回归的系数稀疏性做特征剔除

五、自动化特征工程工具

FeatureTools：自动生成跨表聚合特征（如“用户最近3次登录时间标准差”）
TSFresh：针对时间序列自动提取数百种统计特征（如自相关性、傅里叶变换系数）
AutoFeat：自动构造多项式特征并进行显著性筛选

# FeatureTools示例
import featuretools as ft
es = ft.EntitySet()
es = es.entity_from_dataframe(entity_id='users', dataframe=users_df, index='user_id')
features, feature_defs = ft.dfs(entityset=es, target_entity='users')

六、避坑指南与最佳实践

避免数据泄露：
- 所有统计量（如Target Encoding的均值）必须仅从训练集计算！
- 使用Pipeline封装预处理与模型训练：
```
from sklearn.pipeline import Pipeline
pipe = Pipeline([('encoder', TargetEncoder()), ('model', RandomForest())])
```
领域知识驱动：
- 在电商场景中，构造“商品价格与类目平均价格的比值”可能比单纯价格更有效
- 在风控场景中，组合“申请时间与工作时段的重叠度”作为特征
迭代验证：
- 通过AB测试对比不同特征组合的模型性能
- 监控特征稳定性（如PSI指标）防止线上数据分布偏移

七、终极心法

“Less is More”：优先构造10个强特征，而非100个弱特征。
“Think Like a Model”：理解模型如何利用特征（如线性模型依赖线性可分性，NN偏好稠密低维输入）。
“Data First, Algorithm Second”：特征工程提升的上限远高于调参！

总结：特征工程是融合领域知识、数据直觉与工程技巧的艺术。掌握核心方法后，需在业务场景中反复迭代，才能炼出“模型友好”的金牌特征。

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p