Mark White

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术

在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。

Softmax函数：概率分布的催化剂

在深入讨论之前，让我们先回顾softmax函数的基本形式：

$\text{softmax}(x)_i = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}$

这个函数将任意实数向量转换为总和为1的概率分布，广泛应用于分类任务、注意力权重计算和生成模型的输出层。然而，softmax有一个关键特性：它对输入值的微小差异极为敏感，容易产生高度集中的分布。

这种敏感性在某些场景下是理想的（如需要明确决策的分类），但在其他场景下可能成为障碍（如需要多样性的文本生成或需要软性关注的注意力机制）。这就是"平滑控制"发挥作用的地方。

温度调节：控制生成的随机性

温度参数的数学表示

在语言模型（如GPT系列）中，softmax通常经过温度参数 $T$ 的调整：

$\text{softmax}(x/T)_i = \frac{e^{x_i/T}}{\sum_{j=1}^{n} e^{x_j/T}}$

温度参数的效果可以直观理解为控制概率分布的"锐利程度"：

低温度（ $T < 1$ ）：放大差异，使高概率选项更突出
高温度（ $T > 1$ ）：减小差异，使分布更加均匀
$T = 1$ ：标准softmax，无调整
$\rightarrow 0$ ：接近于"argmax"，完全确定性选择
$\rightarrow \infty$ ：接近均匀分布，完全随机选择

实际应用中的温度效果

以一个简单的词语预测例子展示温度的影响：

假设模型为下一个词预测的logits是 [5.0, 3.0, 2.0, 1.0]，对应词语 [“猫”, “狗”, “鱼”, “鸟”]：

温度	概率分布	特点
0.1	[0.999, 0.001, 0.000, 0.000]	几乎确定选"猫"
0.5	[0.82, 0.14, 0.03, 0.01]	强烈偏好"猫"
1.0	[0.64, 0.20, 0.11, 0.05]	标准分布
2.0	[0.41, 0.27, 0.20, 0.12]	更均衡的分布
10.0	[0.28, 0.26, 0.24, 0.22]	接近均匀分布

在实际的文本生成应用中：

创意写作可能使用较高温度（0.7-1.0）以增加多样性
事实性回答可能使用较低温度（0.3-0.5）以增加确定性
代码生成可能使用更低温度（0.1-0.2）以确保语法正确性

体验代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import numpy as np

# 设置输入的logits和对应的词语
logits = np.array([5.0, 3.0, 2.0, 1.0])
tokens = ["猫", "狗", "鱼", "鸟"]

def temperature_softmax(logits, temperature):
    """
    带温度参数的softmax函数
    
    参数:
    logits: 模型输出的原始分数
    temperature: 温度参数，控制分布的平滑程度
                 t > 1 使分布更平滑
                 t < 1 使分布更尖锐
                 t = 1 为标准softmax
    
    返回:
    归一化后的概率分布
    """
    # 防止数值溢出，减去最大值
    logits_t = logits / temperature
    exp_logits = np.exp(logits_t - np.max(logits_t))
    return exp_logits / np.sum(exp_logits)

# 创建不同温度值
temperatures = [0.1, 0.5, 1.0, 2.0, 5.0, 10.0]

# 打印表头
print("=" * 80)
print(f"{'温度':<8} | {'猫 (5.0)':<20} | {'狗 (3.0)':<20} | {'鱼 (2.0)':<20} | {'鸟 (1.0)':<20}")
print("=" * 80)

# 打印不同温度下的softmax结果
for t in temperatures:
    probs = temperature_softmax(logits, t)
    prob_str = " | ".join([f"{tokens[i]} = {p:.6f}".ljust(20) for i, p in enumerate(probs)])
    print(f"{t:<8.1f} | {prob_str}")

print("=" * 80)
print("\n温度参数(t)的影响:")
print("  t > 1: 使分布更平滑，各词概率差异减小")
print("  t < 1: 使分布更尖锐，高概率词更突出")
print("  t → 0: 接近于argmax，最大值接近1，其他接近0")
print("  t → ∞: 接近于均匀分布 (0.25, 0.25, 0.25, 0.25)")

# 创建ASCII图表来直观显示概率分布
print("\n简易可视化 (概率条形图):")
print("-" * 80)
for t in temperatures:
    probs = temperature_softmax(logits, t)
    print(f"温度 = {t:.1f}")
    for i, token in enumerate(tokens):
        bar_length = int(probs[i] * 50)  # 缩放到50个字符宽度
        print(f"{token} (logit={logits[i]:.1f}): {'#' * bar_length} {probs[i]:.6f}")
    print("-" * 80)

注意力机制中的缩放因子：维度自适应的平滑控制

Transformer中的缩放设计

在2017年的开创性论文《Attention Is All You Need》中，注意力计算包含一个关键的缩放操作：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

这里的缩放因子 $\sqrt{d_k}$ 与温度参数在数学上扮演着相似角色，但其存在却有着更深层次的动机。

缩放因子的统计必要性

为什么要除以 $\sqrt{d_k}$ 而非其他值？这涉及到点积操作的统计特性与方差加法定理：

当两个向量 $\mathbf{q}$ 和 $\mathbf{k}$ 的元素是独立同分布的随机变量（均值为0，方差为1）时：

点积的方差分析：
- 每个点积 $(QK^T)_{ij} = \sum_{l=1}^{d_k} q_{il} \cdot k_{jl}$ 是 $d_k$ 个元素乘积的和
- 当 $q_{il}$ 和 $k_{jl}$ 相互独立且各自方差为1时，其乘积 $q_{il} \cdot k_{jl}$ 的方差也为1
- 根据方差加法定理， $d_k$ 个独立随机变量之和的方差等于各自方差之和
- 因此点积的方差约为 $1 + 1 + ... + 1 = d_k$
标准差与维度关系：
- 点积的标准差（方差的平方根）为 $\sqrt{d_k}$
- 随着维度 $d_k$ 增大，未缩放的点积值会按平方根关系增长
维度效应的实例：
- 当 $d_k = 64$ 时，点积的标准差约为8
- 当 $d_k = 1024$ 时，标准差增至32
- 更大的模型维度会导致更极端的点积值

这种随维度增长的方差会导致两个严重问题：

梯度消失：
- 过大的点积值使softmax输出接近one-hot分布（如[0.99, 0.01, 0, 0, …])
- 在这种分布下，梯度几乎为零，阻碍有效学习
- softmax的梯度与其输出的熵成正比，熵越低梯度越小
注意力分布过度集中：
- 过于尖锐的注意力分布仅关注少数位置
- 模型难以学习更微妙的关联关系和依赖模式
- 信息流动受限，降低了多头注意力的有效性

通过除以 $\sqrt{d_k}$ ，我们有效抵消了维度增长带来的方差膨胀：

$(QK^T)_{ij} / \sqrt{d_k}$ 的方差变为 $d_k / d_k = 1$
这确保了不同维度模型的注意力分布具有一致的统计特性
维持了合理的"软性"注意力，平衡了专注性和分散性

这种设计选择基于统计原理而非试错，展示了理论指导实践的优雅案例。点积缩放是Transformer架构中看似简单却至关重要的设计元素，为各种规模的模型提供了一致的注意力动态。

一个简单实验

考虑不同维度下点积的行为（使用标准正态分布元素）：

import numpy as np
import matplotlib.pyplot as plt

dims = [8, 32, 128, 512, 2048]
samples = 1000
results = {}

for dim in dims:
    dot_products = []
    scaled_dot_products = []
    
    for _ in range(samples):
        q = np.random.randn(dim)  # 均值0，方差1的向量
        k = np.random.randn(dim)
        
        dot = np.dot(q, k)
        scaled_dot = dot / np.sqrt(dim)
        
        dot_products.append(dot)
        scaled_dot_products.append(scaled_dot)
    
    results[dim] = {
        'original': {
            'mean': np.mean(dot_products),
            'std': np.std(dot_products)
        },
        'scaled': {
            'mean': np.mean(scaled_dot_products),
            'std': np.std(scaled_dot_products)
        }
    }

这样的实验会显示：

未缩放点积的标准差与 $\sqrt{d_k}$ 成正比
缩放后的点积，无论维度如何，标准差始终接近1
缩放使得softmax输入分布在不同维度模型中保持一致性

温度参数与缩放因子：统一视角

尽管上下文不同，温度参数和注意力缩放因子本质上执行相同的数学操作：控制softmax的输入分布。两者都可以表示为：

$\text{softmax}(x/\tau)$

区别在于：

温度参数 $\tau = T$ 通常是人为设定的超参数
注意力缩放 $\tau = \sqrt{d_k}$ 是基于统计理论自动确定的

为什么注意力缩放使用 $\sqrt{d_k}$ 而非其他值

许多人可能会问，为什么不使用 $d_k$ 本身或 $d_k/2$ 作为缩放因子？答案在于统计规范化的标准实践：

除以标准差（ $\sqrt{d_k}$ ）是将随机变量标准化到单位方差的正确方法
除以 $d_k$ 会过度压缩分布，使注意力几乎均匀分布
除以 $d_k/2$ 或其他任意值缺乏理论基础，且不会随维度自适应调整

实验证明， $\sqrt{d_k}$ 提供了最佳平衡：既防止了梯度消失，又保留了足够的选择性。

参考《Attention is all you need 》原文(Section 3.2.1, Footnote 4):
作者在脚注 4 中提供的数学解释：
假设 query ( $q$ ) 和 key ( $k$ ) 的每个分量都是独立的随机变量，均值为 0，方差为 1。
那么，它们的点积 $\cdot k = \sum_{i=1}^{d_k} q_i k_i$ 的均值为 0，方差为 $d_k$ 。
因此，随着 $d_k$ 的增大，点积的方差也会增大，导致点积的数值范围变大。
除以 $\sqrt{d_k}$ 可以将点积的方差重新调整为 1，避免数值过大。

实验支持：
作者在文中提到，他们做了对比实验，发现不用缩放因子的点乘注意力机制，在dk值大的时候，效果差于带缩放因子的点乘注意力机制。
在论文的 3.2.1 节中，有提到 “While for small values of dk the two mechanisms perform similarly, additive attention outperforms dot product attention without scaling for larger values of dk [3].”, 这里的[3]是另外一篇论文《Massive Exploration of Neural Machine Translation Architectures》，做了实验对比。

总结:
作者引入 $\frac{1}{\sqrt{d_k}}$ 缩放因子的主要目的是为了防止 $d_k$ 较大时点积结果过大，导致 softmax 函数进入梯度饱和区。他们通过假设 query 和 key 的分量是独立的随机变量，推导出点积的方差会随着 $d_k$ 线性增长，因此需要进行缩放来保持数值稳定。虽然没有直接在本篇论文中进行实验对比，但是引用了其他论文的实验结果来支持。

实际应用中的设计考量

在大型语言模型中的温度设置

现代大型语言模型（如GPT-4、Claude等）在不同场景下使用不同温度：

问答与事实提取：低温度（0.1-0.3），减少幻觉
创意写作与头脑风暴：中等温度（0.7-0.9），平衡创造力与连贯性
诗歌与实验性文本：高温度（≥1.0），增加随机性与创造力

有趣的是，许多系统提供温度调节作为用户控制的参数，而注意力缩放却是固定的架构设计。

注意力缩放在不同模型中的实现

在不同规模的Transformer模型中，缩放因子始终保持 $\sqrt{d_k}$ 形式，但具体值随模型变化：

模型	注意力维度 $d_k$	缩放因子 $\sqrt{d_k}$
BERT-base	64	8
GPT-2	64	8
GPT-3	64-128	8-11.3
GPT-4 (估计)	128-256	11.3-16
超大模型	1024+	32+

这种随维度自动调整的机制确保了模型在规模扩展时保持良好的注意力动态。

超越基础：高级平滑技术

研究人员在基本温度和缩放概念之上探索了多种变体：

温度变体

动态温度：根据上下文自动调整温度
Top-k采样与温度结合：先选择k个最可能的词，再应用温度
逐步降温：生成过程中逐渐降低温度，类似模拟退火

注意力缩放变体

学习式缩放：使缩放因子成为可学习参数
自适应缩放：根据当前激活值动态调整缩放
层依赖缩放：较深层使用不同缩放值

工程与理论的完美结合

温度调节和注意力缩放展示了深度学习中理论与实践的美妙结合：

数学原理指导设计：统计理论预测了缩放的必要性和正确形式
实际问题驱动创新：解决具体训练与生成问题推动这些机制的发展
简洁实现复杂控制：通过简单的除法操作实现复杂的分布调节

实现指南

温度实现

def temperature_softmax(logits, temperature=1.0):
    """
    应用温度缩放的softmax函数
    
    Args:
        logits: 输入logits, shape [batch_size, vocab_size]
        temperature: 温度参数, 默认1.0
        
    Returns:
        概率分布, shape同logits
    """
    # 防止数值溢出的小技巧
    logits = logits - logits.max(dim=-1, keepdim=True).values
    # 应用温度
    scaled_logits = logits / temperature
    # 计算softmax
    probs = torch.exp(scaled_logits)
    probs = probs / probs.sum(dim=-1, keepdim=True)
    return probs

注意力缩放实现

def scaled_dot_product_attention(query, key, value):
    """
    计算缩放点积注意力
    
    Args:
        query: [..., seq_len_q, d_k]
        key: [..., seq_len_k, d_k]
        value: [..., seq_len_k, d_v]
        
    Returns:
        output: [..., seq_len_q, d_v]
    """
    # 计算点积
    matmul_qk = torch.matmul(query, key.transpose(-2, -1))
    
    # 缩放
    d_k = query.size()[-1]
    scaled_attention_logits = matmul_qk / math.sqrt(d_k)
    
    # softmax获得注意力权重
    attention_weights = F.softmax(scaled_attention_logits, dim=-1)
    
    # 应用注意力权重
    output = torch.matmul(attention_weights, value)
    
    return output, attention_weights

结论：平滑的艺术与科学

温度调节与注意力缩放看似简单，却体现了深度学习中最精妙的设计思想：用最简洁的操作解决最复杂的问题。这两种机制展示了如何通过细微调整，在确定性与随机性、专注与分散之间取得完美平衡。

无论是控制下一个词的生成概率，还是调节模型关注输入序列不同部分的程度，这些平滑操作都是现代神经网络性能的关键保障。它们代表了深度学习中理论优雅与工程智慧的完美结合。

下次当你调整语言模型的温度参数，或研究Transformer的源代码时，不妨思考这个简单除法背后的深刻原理——这也许就是区分机械应用与真正理解的分水岭。

注：本文所述温度调节与注意力缩放的原理适用于大多数现代Transformer架构，包括BERT、GPT系列、T5、LLaMA等。不同模型可能在具体实现细节上有所差异，但基本原理保持一致。

List item

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
神经形态计算如何突破冯·诺依曼架构限制？ AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构架构 ai
神经形态计算如何突破冯·诺依曼架构限制？关键词：神经形态计算、冯·诺依曼架构、内存墙、存算一体、脉冲神经网络、类脑芯片、低功耗计算摘要：本文将从“冯·诺依曼架构的前世今生”讲起，用“图书馆管理员搬书”的生活案例类比其核心矛盾，再通过“人脑神经元工作模式”的比喻引入神经形态计算的核心原理。我们将一步步拆解冯·诺依曼架构的三大限制（内存墙、高功耗、非结构化数据处理弱），并对应解析神经形态计算的三大突破
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
基于AlexNet架构的卷积神经网络模型用于对胸部X光图像进行二分类（例如，诊断肺炎）
1.肺炎正常的胸部X线片描绘了清晰的肺部，图像中没有任何异常混浊的区域。正常的胸部X线片1.1细菌性肺炎临床表现细菌性肺炎通常由细菌引起，如肺炎链球菌、流感嗜血杆菌、肺炎克雷伯菌等。患者可能出现高热、寒战、咳嗽、咳痰（痰液可能呈脓性）、胸痛、呼吸困难等症状。影像学特征局灶性肺叶实变细菌性肺炎在影像学上常表现为肺叶或肺段的局灶性实变，即某一区域的肺组织因炎症而失去气体交换功能，呈现为高密度影。胸腔积
LLaMA-Factory微调教程1：LLaMA-Factory安装及使用 Cachel wood LLM和AIGC llama python 开发语言 react.js javascript 前端 microsoft
文章目录环境搭建LLaMA-Factory安装教程模型大小选择环境搭建Windows系统RTX4060Ti（16G显存）python3.10cuda=12.6cudnntorch==2.7.1+cu126torchvision==0.22.1+cu126torchaudio==2.7.1+cu126PSC:\Users\18098>nvidia-smiTueJul2201:52:192025+<
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术