观熵

多模态大模型联合训练机制解析：图文音一体 × 架构融合 × 工程实战

✅ 目录

章节编号	标题
第1章	多模态联合训练的三种典型场景
第2章	图文音输入的数据表示方式全解
第3章	多模态模型的主流融合架构剖析
第4章	如何实现模态间对齐？语义 × 时间 × 空间
第5章	联合训练的损失函数设计与优化策略
第6章	工程实战：如何用开源框架构建图文联合训练模型
第7章	工程实战：如何做多模态预处理 × 批处理 × 模态掩码训练
第8章	模态扩展与适配机制：如何快速集成新模态（如视频/传感器）
第9章	模型性能评估指标：理解一致性 × 多模态精度 × 概念覆盖率
第10章	多模态模型的未来趋势与开发建议

第1章多模态联合训练的三种典型场景

多模态联合训练不是噱头，它是构建通用智能的关键一步。

而目前在大模型领域最主流的多模态训练目标，大致分为以下三类：

1.1 图文问答类（VQA）

典型代表：GPT-4V、DeepSeek-VL、BLIP2
目标：给图问问题，模型输出自然语言回答

样例：

{
  "image": "cat_on_bed.jpg",
  "question": "图中这只猫在干嘛？",
  "answer": "这只猫正躺在床上休息。"
}

特点：需要理解图片中的实体、动作、关系等视觉信息，并将其语言化。

1.2 图文生成类（Image Caption / 文生图）

图生文（Caption）：BLIP、GIT、MiniGPT-4 等
文生图：DALL·E、Stable Diffusion、DeepFloyd-IF

图生文要求视觉 → 语言编码融合
文生图则反过来，语言引导 → 图像解码器生成
两者本质上都强调模态之间的“可转换性”和“共识空间对齐”

1.3 多轮多模态交互（Agent基础）

图 + 文 + 语音的连续输入 → 多轮问答 / 决策
示例：

用户语音提问：“这张图片里有几个人？”
→ 模型识别音频 → 提取图片特征 → 语言回答

这类场景，模态间的协同调度能力非常重要，训练时需考虑时间顺序、上下文关联与模态平衡。

第2章图文音输入的数据表示方式全解

联合训练前，第一步是把不同模态的输入统一表示，这决定了训练能否对齐。

我们来看三种主模态的数据表示方式。

2.1 文本表示：Tokenizer + Positional Embedding

传统文本编码器（如BERT、LLAMA）处理：
- 分词器 → Token序列 → 词嵌入
- 加入位置编码（固定 / 可学习）
联合训练中，通常共享语言模型的嵌入层参数

2.2 图像表示：Patch化 + 视觉编码器（ViT / CNN）

图像表示两种主流方式：

方法	描述
ViT（Vision Transformer）	将图像划分为 patch（如 16×16），线性投影为 token，然后送入 Transformer
CNN（ResNet）	输出中间层特征图，再全连接或 Flatten 生成视觉 token 序列

此外，部分模型（如 GIT）直接输出多层图像 token，模拟文本结构。

2.3 语音表示：Mel频谱 + 音频编码器（如 Whisper）

音频数据必须先转为二维结构：

通常用 Mel 频谱表示：将音频片段转成频率×时间的图像
然后用 CNN / ViT 提取特征 → 压缩为 token 序列

语音表示往往比图文更稀疏，训练中需要注意：

token 长度一致性处理（padding / mask）
特征标准化（避免分布漂移）

第3章多模态模型的主流融合架构剖析

多模态模型的“融合架构”，决定了不同模态之间如何协同工作。目前主流有三大路线：

3.1 Early Fusion（早期融合）

定义： 在模型输入之前就将不同模态拼接或压缩为统一表示。

例如：图像token + 文本token → 一起输入 Transformer
应用：BLIP2、MiniGPT-4 采用此方式
优点：简单高效，直接共享 Transformer 编码能力
缺点：不同模态信息权重可能不均衡，导致模型偏向“语言主导”

示例：

  ...   ...

3.2 Late Fusion（后期融合）

定义： 模态间信息分别独立处理，最后阶段再融合输出结果。

每个模态用独立模块提特征 → 再整合判断或决策
应用：搜索引擎中的图文排序、部分多模态检索任务
优点：可扩展性强，模态间解耦
缺点：无法捕捉跨模态深度语义依赖

3.3 Cross-modal Fusion（交叉融合 / 中期融合）

这是当前最流行也最复杂的方式——在中间层实现模态间交互。

通常是：Encoder分别提特征 → Cross Attention交互 → 输出结果
应用：Flamingo、OpenFlamingo、BLIVA、LLaVA
优点：能建模跨模态细粒度关系，例如“图中哪个人正在说话？”
缺点：训练和调优更复杂，需注意模态尺寸匹配与mask策略

融合架构选择建议：

应用方向	推荐融合方式
快速构建 / 微调模型	Early Fusion
可解释性强 / 解耦	Late Fusion
高性能 / 多模态互动	Cross-modal Fusion

第4章如何实现模态间对齐？语义 × 时间 × 空间

对齐问题，是多模态训练的核心难题。

你不能指望模型自己知道图中猫是“cat”，音频里 meow 也是“cat”。

因此需要做以下三个维度的“模态对齐”：

4.1 语义对齐（Semantic Alignment）

目标：不同模态表达相同概念 → 向量空间距离更近

通常用 CLIP-style 对比学习实现
- 图像 → ViT
- 文本 → BERT / LLaMA
- 损失函数：InfoNCE 或 Cross-Entropy

L = - log ( exp(sim(I, T⁺)) / ∑ exp(sim(I, Tᵢ)) )

4.2 时间对齐（Temporal Alignment）

适用于多模态视频 / 音频+字幕等场景。

示例：视频中 1:30 秒出现“猫叫”，音频中 1:31 秒有“meow”
方法：
- 强制 Token 时间片对齐（Align时序Mask）
- 使用 CTC 损失辅助建模时间结构

4.3 空间对齐（Spatial Alignment）

多见于图文问答、OCR、图文定位任务
目标：语言描述中提到的对象能准确映射到图像空间位置
方法：
- 图像patch位置加入可学习位置向量
- 文本Token加上视觉引导（如位置注意力）

以上对齐方式，大多数开源模型都部分实现，如：

BLIP2：语义+部分空间对齐
Flamingo：时间+语义对齐
GIT2：图像patch中实现语义+空间联合注意力机制

第5章联合训练的损失函数设计与优化策略

在多模态模型中，光有融合还不够，损失函数设计才是真正“教模型学会对齐和协同”的关键。

以下是多模态联合训练中常用的几种损失构建方式：

5.1 模态对比损失（Contrastive Loss）

目标：让“配对的图和文”、“音和文”等在向量空间靠近，非配对远离。

经典代表是 CLIP 使用的对比损失（InfoNCE）：

图文正样本对 → 相似度最大
图文负样本对 → 相似度最小

优点：无需精细标注，只要正负样本

5.2 语言建模损失（Language Modeling / Causal Loss）

如果输出是语言（如图文问答、多模态助手），需要加入经典的语言建模损失：

L = -∑ log P(tokenᵢ | context₍₀...ᵢ₋₁₎)

注意：图片 / 音频特征必须先融合进 context 中，否则模型等于只在做纯文本训练。

5.3 交叉模态生成损失（Cross-Modal Generation）

例如：

文 → 图：重建图像特征或实际图像
图 → 文：生成图像描述（Caption）

结合 GAN、Diffusion 等目标，构建复杂模态间互生成 loss。

5.4 混合训练策略：多损失加权

很多项目采用如下组合：

L_total = α × L_CLIP + β × L_LM + γ × L_CrossGen

动态 loss 平衡机制也逐渐成熟，如：

GradNorm：自动调节梯度幅度对每个任务的影响
Uncertainty Loss Weighting：根据损失不确定性调整任务权重

第6章工程实战：如何用开源框架构建图文联合训练模型

说干就干，咱不空谈。

下面推荐两种落地路线：

6.1 用 OpenFlamingo 实现图文问答训练

OpenFlamingo 是一个非常工程化的开源多模态框架（基于 Flamingo 模型），可用于图文问答任务训练。

步骤概览：

准备图文对训练数据（推荐 COCO / BLIP格式）
提取图像 patch 特征（使用 pre-trained ViT encoder）
用 GPT 作为语言模型，拼接 image_token + prompt
用 causal LM loss 训练整合模型

该框架支持 zero-shot / few-shot 微调，兼容多种视觉 encoder，如 CLIP、EVACLIP

6.2 用 LLaVA 构建通用图文理解助手

LLaVA 是基于 Vicuna + CLIP Vision encoder 的强大图文助手架构，适合文本+图像输入 → 文本输出任务。

第7章工程实战：多模态预处理 × 批处理 × 模态掩码训练

构建多模态训练流程时，数据预处理和批处理策略 是决定效率和训练稳定性的核心部分。

下面这几个处理技巧，非常关键：

7.1 多模态数据的统一格式标准化

不同模态的数据来源、长度、编码方式完全不同，训练前必须“格式对齐”。

推荐的统一结构格式（JSONL 每行一条）：

{
  "image_path": "images/cat.jpg",
  "text_input": "请描述这张图片",
  "text_output": "这是一只睡觉的橘猫。",
  "audio_path": null
}

建议在数据预处理阶段统一处理：

图像缩放为统一尺寸（如 224×224）
文本 tokenize 后控制最大长度（padding）
语音频谱统一为固定时间窗口

7.2 批处理中的模态掩码机制（Modality Masking）

训练时有些样本只有部分模态（如只有文本、没有图像），怎么办？

做法：加入模态掩码机制，告诉模型“这一段没提供图/音”

  ...   ...

训练模型学会适应：

模态缺失（missing modality）
模态冗余（多模态同时存在）
模态切换（不同样本模态不一致）

这种方法在 UniVL、FLAVA、X-Transformer 等多模态架构中非常常见。

7.3 动态 Batch 构建策略

在多模态场景下，推荐：

同一 Batch 内模态类型一致（图文一批 / 音文一批）
Batch 内长度尽量统一（减少padding + 提升GPU利用率）
加入 token mask，使 loss 不计算 padding 部分

推荐使用工具：

Datasets → 自定义 collate_fn
TorchData → pipeline 式 data loading

第8章模态扩展与适配机制：如何快速集成新模态（如视频/传感器）

多模态系统不是一锤子买卖，未来你一定会接入新模态：

视频输入
LIDAR / 深度图 / 传感器
多语言 / 手写字识别
生物信号（如脑电波 EEG）

所以问题是：怎么让你的模型随时扩展，不推翻重来？

8.1 模态适配器机制（Modality Adapter）

借鉴 LoRA 的思想，每种新模态接入一个轻量模块：

[新模态输入] → [适配器网络] → [模态token] → 拼接主模型

特点：新模态不影响主干模型，只需训练适配器参数
优点：低成本扩展、多模态组合灵活

参考模型：

Perceiver IO：支持任意模态输入
GIT / OFA：通过 unified encoder 实现视觉 + 文本同时接入

8.2 使用统一模态接口规范（UMI）

在工程架构上，推荐为每种模态实现接口类：

class Modality:
    def encode(self, input):
        ...
    def mask(self):
        ...

这样就能：

接入新模态只需写 Adapter + Encoder
训练时根据 sample[“modality”] 动态调用

像 Transformer 模型的 Embedding 层一样抽象各模态，未来更易集成。

第9章模型性能评估指标：一致性 × 精度 × 概念覆盖率

多模态模型的评估远比语言模型复杂，不能只看 BLEU / Rouge / accuracy。

你至少需要从以下三个维度去评估模型：

9.1 语义一致性（Semantic Alignment）

目标是衡量模型输出是否与输入模态信息匹配，尤其是图/音信息。

常用评估方式：

CLIP Score：图文匹配评分，已用于不少生成任务评估
SPICE / CIDEr / METEOR：图像caption任务中常见
OpenAI VQA Bench / LLaVA Bench：图文问答标准集

如果输出偏向“语言幻想”而非真实感知内容 → 一致性评分会偏低

9.2 多模态精度指标（Per-Modality Accuracy）

你需要拆分每个模态的准确性：

模态	评估方式
图像输入	是否正确理解图中实体 / 动作
音频输入	是否正确识别语音内容 / 情感状态
多轮对话	模型是否理解前文模态内容

推荐引入人类评审标注 × 自动评分结合机制，如：

人工评判回答是否正确
自动匹配关键词+相似度
回答中是否提及图像/语音核心内容

9.3 概念覆盖率（Conceptual Coverage）

这是一个高级但很有用的评估角度：

多模态模型是否真的能处理丰富的语义概念？还是只是背题？

例如：

是否能理解抽象动词（比如“庆祝”、“吵架”）？
是否能识别图片中的小物体或边角内容？
是否能处理不同文化/语言的视觉内容？

这种能力建议构造多样化对抗样本 + 测试集评估。

第10章多模态模型的趋势观察与开发建议

写在最后，我来总结一下多模态领域的方向、机会与坑。

10.1 三大趋势正在形成

轻量模态融合模块爆发（Adapter / 插件 / LoRA for Vision）
- 模型无需重训，只加上 vision/audio 插件就能升级为多模态
- 代表：LLaVA-Adapter、MiniGPT-LoRA
全模态交互系统出现（Agent + 多模态）
- 模型具备“对图说话”“听语音理解命令”等真实感知能力
- 项目如：OpenAI GPT-4V、Claude Vision、DeepSeek-VL
行业多模态微调需求大爆发
- 医疗影像分析、交通图像识别、工业检测、图文问答系统等
- 关键是：自定义数据、低成本调优、多终端部署能力

10.2 我对开发者的建议

✅ 优先学会用好以下开源模型：

LLaVA（图文问答）
MiniGPT-4（图像描述）
OpenFlamingo（灵活多模态输入）

✅ 关注新模态与结构化数据融合：

LIDAR、表格、传感器数据如何变为 Prompt 输入？

✅ 构建你自己的多模态评估数据集：

按行业 / 模态 / 难度分层组织，更贴近业务落地

✅ 多模态部署场景，提前考虑设备资源（Jetson / 低功耗设备）

写在最后

这篇文章从理论到实践，详细解析了：

多模态大模型有哪些典型训练方式？
模态融合是怎么做的？
损失函数设计、工程化工具如何落地？
怎么扩展新模态，怎么做评估？

希望你对“多模态训练”这件事有了更深的理解。

❤️ 如果这篇内容对你有启发

那就请你：

点个赞——让我知道你喜欢这种硬核干货
留个评论——聊聊你在哪个环节卡住了 / 想继续看哪些内容
⭐ 收藏这篇——方便你日后训练自己的多模态模型！

别忘了关注我，我会持续更新更多国产大模型实战 × 工程化训练闭环 × 多模态开发系列文章！

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
车载刷写架构 --- 整车刷写中为何增加了ECU 队列刷写策略？汽车电子实验室电子电器架构——刷写方案车载电子电气架构架构开发语言车载诊断进阶篇汽车中央控制单元HPC软件架构关于网关转发性能引起的思考
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
车载诊断架构 ---面向售后的DTC应该怎么样填写？汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列 EV（电动汽车）常规知识必备架构面向售后的DTC 车载诊断架构 OEM怎么掌握软件开发能力车载通信网络槪述 android ZEVonUDS-J1979
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
车载诊断架构 --- 关于诊断时间参数P4的浅析汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
关于诊断时间参数P4的浅析我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：所谓鸡汤，要么蛊惑你认命，要么怂恿你拼命，但都是回避问题的根源，以现象替代逻辑，以情绪代替思考，把消极接受现实的懦弱，伪装成乐观面对不幸的豁达，往不幸上面喷“香水”来掩盖问题。无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦
车载刷写架构 --- 刷写思考扩展汽车电子实验室电子电器架构——刷写方案架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，