四万二千

6月19日复盘

二、分词与词向量

分词和词向量是NLP的基础技术。

1. 分词

分词是将连续的文本分割成独立的词汇单元（tokens）的过程。这些单元可以是单词、符号或子词。

1.1 中文特性

中文句子由连续的汉字组成，没有明显的词边界：词与词之间没有分隔符

英文：I love natural language processing.
中文：我喜欢自然语言处理。
词是最基本的语义单元。

为了处理文本信息，须将连续的序列分割成有意义的词汇单元。

1.2 概念认知

大家进行下颗粒度对齐，以保证后续沟通的准确性。

1.2.1 词表

词表，vocab，是指一个NLP系统中所有可能出现的词汇的集合。它是一个有限的列表，包含了模型任务中用到的所有词汇。

1.2.1.1 特征

词表具备以下特征：

有限性：词表的大小是有限的，通常由训练数据中的词汇决定。
覆盖性：词表应尽可能覆盖任务中可能出现的词汇。
索引化：每个词分配一个唯一的索引（ID），用于在模型中表示该词。

1.2.1.2 作用

词表是词向量表示的基础。
词表用于将词汇映射为索引，进而转换为词向量。

1.2.1.3 构建

词表通常从大规模语料库中构建，包含所有高频和常见词，并可能经过一定的去除低频词的处理。

1.2.2 未登录词

Out-of-Vocabulary, OOV。

1.2.2.1 定义

未登录词是指在测试数据或实际应用中出现，但未包含在训练词表中的词汇。这些词汇对模型来说是未知的。

1.2.2.2 产生原因

词表大小限制：词表大小有限，低频词可能被忽略。
新词：新出现词汇（如网络用语、专有名词）可能未包含在训练数据中。
数据差异：训练数据和测试数据来自不同领域或时间。

1.2.2.3 处理方式

特殊符号表示：用特殊符号（如）表示所有未登录词。
子词分割：使用子词分割方法（如Byte Pair Encoding, BPE）将未登录词分解为已知的子词。
动态扩展词表：在测试或应用时动态扩展词表，将未登录词加入词表。

1.2.3 词频和词频概率

词频 ≠ 词频概率，但两者密切相关。

1.2.3.1 词频

词频，Frequency，指的是一个词在语料库中出现的次数，例如：

"研究" 出现了5000 次
"生命" 出现了3000 次

词频是一个整数，代表出现次数。

1.2.3.2 词频概率

词频概率，Word Probability，是基于词频计算的相对概率，即：
$\frac{\text{词 w 的出现次数}}{\text{所有词的总出现次数}}$
例如：

假设所有词的总出现次数是1000万次，那么：
$\frac{5000}{10000000} = 0.0005 \\ P("生命") = \frac{3000}{10000000} = 0.0003$

1.2.3.3 二者对比

如果直接用词频数值（如5000、3000）来计算联合概率，会遇到尺度不统一的问题，导致一些高频词被过度偏好。

词频是一个整数，不能直接用于概率计算。
归一化：把词频转换成概率，使得所有词的概率和为1。

所以，更多的我们使用词频概率作为分词的参考值。

1.2.4 TF-IDF

Term Frequency-Inverse Document Frequency，TF-IDF，词频-逆文档频率。

词频-逆文档频率是一种常用的文本特征提取方法，用于衡量单词在文档中的重要性，特别适用于关键词提取、搜索引擎排名、文本分类等任务。

1.2.4.1 TF

词频，Term Frequency，TF，表示一个词在文档中出现的频率，公式：
$\text{TF}(t, d) = \frac{\text{词 } t \text{ 在文档 } d \text{ 中出现的次数}}{\text{文档 } d \text{ 中所有词的总数}}$

作用：衡量一个词在文档中的重要性。词频越高，说明该词在文档中越重要。
局限性：某些停用词（如的、是、得、地）在文档中频繁出现，但并没有实际意义，单靠TF无法准确衡量词的重要性。

1.2.4.2 IDF

逆文档频率，Inverse Document Frequency，用于衡量一个词在整个语料库中的普遍重要性，公式：
$\text{IDF}(t, D) = \log \left( \frac{\text{语料库中文档总数}}{\text{包含词 } t \text{ 的文档数} + 1} \right)$

作用：如果一个词在大多数文档中都出现（如停用词），它的IDF值会很低；
意义：降低常见词权重，提升稀有词权重。

1.2.4.3 TF-IDF

TF-IDF是TF和IDF的乘积，公式：
$\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)$

意义：TF-IDF 值越高，说明该词在当前文档中越重要，同时在整个语料库中越稀有。

1.2.4.4 TF-IDF应用

关键词提取：通过计算每个词的 TF-IDF 值，可以提取文档中最重要的关键词。
文本相似度计算：将文档表示为 TF-IDF 向量后，可以通过计算向量之间的余弦相似度来衡量文档的相似性。
文本分类：TF-IDF 可以作为特征输入到机器学习模型中，用于文本分类任务。
搜索引擎：搜索引擎利用 TF-IDF 计算文档的相关性，排序搜索结果
自动摘要：选取高 TF-IDF 词构成摘要

1.2.4.5 案例助解

语料库：

文档1：我爱自然语言处理
文档2：自然语言处理很有趣
文档3：我爱编程

计算词“自然语言”在文档1中的 TF-IDF 值：

计算 TF：
- 词自然语言在文档 $1$ 中出现了 $1$ 次。
- 文档 $1$ 总词数为 $4$ 我、爱、自然语言、处理。
- $\text{TF} = \frac{1}{4} = 0.25$
计算 IDF：
- 语料库中文档总数为 $3$ 。
- 包含自然语言的文档数为 $2$ 文档1和文档2。
- $\text{IDF} = \log \left( \frac{3}{2 + 1} \right) = \log(1) = 0$
计算TF-IDF：
- $\text{TF-IDF} = 0.2 \times 0 = 0$

1.2.4.6 TF-IDF优缺点

优点：
- 简单有效，易于理解和实现。
- 能够突出文档中的关键词。
- 适用于大多数文本挖掘任务。
缺点：
- 无法捕捉词与词之间的关系（如语义信息）。
- 对短文本效果较差。
- 无法处理一词多义和多词一义的问题。

1.2.4.7 TF-IDF实现

可以使用 sklearn 库计算 TF-IDF：

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
# 示例文档
documents = ["我爱自然语言处理", "自然语言处理很有趣", "我爱编程"]
# 自定义全模式分词函数
jieba.add_word("我爱")
def jieba_tokenizer(text):
    return " ".join(jieba.cut(text))

# 使用全模式进行分词
tokenized_documents = [jieba_tokenizer(doc) for doc in documents]
# 初始化 TF-IDF 向量化器
vectorizer = TfidfVectorizer()
# 计算 TF-IDF 值
tfidf_matrix = vectorizer.fit_transform(tokenized_documents)
# 获取词汇表
feature_names = vectorizer.get_feature_names_out()
# 打印 TF-IDF 结果
df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
print(df)

输出：

        处理      我爱       有趣       编程   自然语言
0  0.577350  0.577350  0.000000  0.000000  0.577350
1  0.517856  0.000000  0.680919  0.000000  0.517856
2  0.000000  0.605349  0.000000  0.795961  0.000000

1.2.5 有向无环图

Directed Acyclic Graph，DAG。

1.2.5.1 DAG认知

有向无环图是图论中的一种数据结构，由顶点Vertices和边Edges组成，其中：

每条边都有明确的方向；
整个图是无环的，即图中不存在从一个顶点出发，经过一系列边后又回到该顶点的路径。

1.2.5.2 DAG与分词

有向：Directed，边有方向，比如从 起始字符 到 可能的下一个词。
无环：Acyclic，不会形成环，保证分词时不会无限循环。
句子中的字符作为顶点Vertices，可能的分词作为边Edges。
找到所有可能的分词路径，形成一个“分词图”

1.2.5.3 案例助解

假设字典中包含："研究" "研究生" "生命" "生" "命" "起源"

import jieba
text = "研究生命起源"
dag = jieba.get_DAG(text)  # 获取 DAG
print(dag)

示例输出：

{0: [0, 1, 2], 1: [1], 2: [2, 3], 3: [3], 4: [4, 5], 5: [5]}

文本："研究生命起源"

索引:  0   1   2   3   4   5
字符:  研  究  生   命  起   源

具体解释

0: [0, 1, 2]

索引 0 处的 "研" 可以是一个单独的词 → 0 → 0 ("研")
索引 0 到 1 形成 "研究" → 0 → 1 ("研究")
索引 0 到 2 形成 "研究生" → 0 → 2 ("研究生")

1: [1]

索引 1 处的 "究" 只能单独成词 → 1 → 1 ("究")

2: [2, 3]

索引 2 处的 "生" 可以是一个单独的词 → 2 → 2 ("生")
索引 2 到 3 形成 "生命" → 2 → 3 ("生命")

3: [3]

索引 3 处的 "命" 只能单独成词 → 3 → 3 ("命")

4: [4, 5]

索引 4 处的 "起" 可以是一个单独的词 → 4 → 4 ("起")
索引 4 到 5 形成 "起源" → 4 → 5 ("起源")

5: [5]

索引 5 处的 "源" 只能单独成词 → 5 → 5 ("源")

可视化 DAG

从 DAG 的角度看，可以画出一张图：

  研 → 究 → 生 → 命 → 起 → 源
  |    |    |    |    |    |
  v    v    v    v    v    v
  研   究    生   命   起   源  （单字成词）
  |____|
  研究
  |________|
  研究生
       |____|
       生命
            |____|
            起源

单个字可以独立成词
部分字符组合可以形成更长的词

**路径示例：**可能的分词方案

["研究生", "命", "起源"]
["研究", "生命", "起源"]
["研", "究", "生命", "起源"]

1.3 分词挑战

分词非常重要，但中文分词面临一些独特的挑战：

1.3.1 歧义问题

中文中存在大量歧义切分问题。例如：

“结婚的和尚未结婚的”可以切分为：
- 结婚/的/和/尚未/结婚/的
- 结婚/的/和尚/未/结婚/的

1.3.2 未登录词问题

未登录词（Out-of-Vocabulary, OOV）是指未出现在分词词典中的词汇，如新词、专有名词、网络用语等。

解决思路：

复杂机构名通常由命名实体识别来完成。
新词通常由专门的新词发现工作负责。
专业领域的术语通常由信息抽取工作负责。
数词、时间词、词语的变形组合可以通过制定语法规则进行的处理。

1.3.3 标准不统一

中文分词的标准尚未完全统一，不同任务可能需要不同的分词粒度。例如:

“自然语言处理”可以切分为：
- 细粒度：自然/语言/处理
- 粗粒度：自然语言/处理

1.4 分词方法

分词的方法比较多，我们这里认知一下。

1.4.1 基于规则的分词

采用人工设定的词典和规则进行匹配，如正向最大匹配法（FMM）、逆向最大匹配（RMM）、双向最大匹配（BMM）。

ForwardMaxMatch

最大匹配法基本步骤如下：

从文本中选取长度为 $6 - 8$ 个汉字的字符串作为最大字符串。
将其与词表匹配：
- 若匹配成功，则作为一个词切分；
- 若失败，则去掉末尾一个汉字，继续匹配，直到成功或字符串为空。
重复上述过程，直到整个文本被切分完毕。

逆向最大匹配法则是从后往前匹配：

双向最大匹配法则是正向、逆向都做一次，选择结果比较好的那个

1.4.1.1 针对歧义问题

在减少歧义问题上，逆向最大匹配法是效果比较好的：

“他是研究生物化学的”的不同的匹配法结果：
- FMM：他/是/研究生/物化/学/的
- RMM：他/是/研究/生物/化学/的

RMM更符合汉语的语义结构，因为汉语中心词多在词的右面。

在词典完备、没有任何其它知识的条件下，实验对比如下：

正向最大匹配法：1/169
逆向最大匹配法：1/245

1.4.1.2 OOV问题

逆向最大匹配法在处理未登录词时表现更好，因为它更倾向于将未登录词切分为已知的右侧词汇。

1.4.2 基于统计的分词

采用统计模型对文本进行分词，如隐马尔可夫模型（HMM）、最大熵模型（ME）。

优点：能适应不同领域，处理未登录词能力较强。
缺点：依赖于大量的标注数据进行训练。

1.4.2.1 互信息认知

Mutual Information，MI

互信息衡量的是两个字符或子词同时出现的概率，可以理解为它们之间的“黏合度”：
$\log_2 \frac{P(x, y)}{P(x)P(y)}$
其中：

$P (x, y)$ 表示两个字连在一起出现的概率（联合概率）。
$P (x)$ 和 $P (y)$ 分别表示单独出现的概率（边际概率）。
$log_2$ 让计算值更直观，通常以 $2$ 为底。

1.4.2.2 互信息举例

人工智能正在改变世界。

如果统计出的概率如下：

P(人工) = 0.05 ：单独出现人工的情况只有一个百分点
P(智能) = 0.04：单独出现智能的情况0
P(人工智能) = 0.04

那么：
$\log_2 \frac{P(人工智能)}{P(人工) \times P(智能)} \\ = \log_2 \frac{0.04}{0.05 \times 0.04} = \log_2 \frac{0.04}{0.002} = \log_2 20 \approx 4.32$
$M I$ 值较高（远大于 0），说明"人工智能"是一个 高关联短语 ，应被合并成一个词。

如果换成随机组合的字：

P(人工) = 0.05
P(出错) = 0.01
P(人工出错) = 0.0001

计算：
$\log_2 \frac{0.0001}{0.05 \times 0.01} = \log_2 0.2 \approx -2.32$
$M I$ 值较小（接近0或为负），说明 “人工出错” 之间 没有太强的联系，不应分为一个词。

1.4.3 基于深度学习的分词

采用神经网络，如LSTM/GRU+CRF、BERT等预训练模型。

优点：能够自动学习特征，适应性强。
缺点：计算量大，对数据要求高。

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

6月19日复盘