kebijuelun

KANDINSKY 3.0 TECHNICAL REPORT

Paper name

KANDINSKY 3.0 TECHNICAL REPORT

Paper Reading Note

Paper URL: https://arxiv.org/pdf/2312.03511.pdf

Project URL: https://ai-forever.github.io/Kandinsky-3/

Code URL: https://github.com/ai-forever/Kandinsky-3

TL;DR

2023 年 Sber AI（俄罗斯最大的银行和金融服务公司 Сбер 银行 Sberbank的人工智能部门）和 AIRI 出品的文章，提出了 Kandinsky 3.0，这是一种基于潜在扩散的新型文本到图像生成模型，专注于改善对文本的理解、图像质量。同时开源了相关模型和代码，相关模型在 https://fusionbrain.ai/en/editor 网页上可免费玩

Introduction

背景

文本到图像生成模型的质量显著提高，这得益于扩散概率模型的发明
尽管如此，文本到图像生成的任务仍然对研究人员提出严重挑战。在商业和设计中实际应用的不断增加导致了与复杂文本描述相一致的难度逐渐提升

本文方案

本文介绍了 Kandinsky 3.0，这是一种基于潜在扩散的新型文本到图像生成模型。Kandinsky家族的早期模型（Kandinsky 1.0）架构基于在图像和文本的潜在向量空间之间使用扩散映射的两阶段 pipeline，然后进行解码。在 Kandinsky 3.0 模型中，专注于改善对文本的理解、图像质量，并通过提供单阶段 pipeline 来简化架构，在该 pipeline 中，生成直接使用文本嵌入，无需任何额外的先验知识。整个 pipeline 包含 119 亿（11.9B）个参数，几乎是 Kandinsky 家族先前模型中最大的模型的三倍。此外，作者将 Kandinsky 3.0 集成到用户友好的交互系统中。完全公开了模型，以促进新技术的发展并在科学界推动开放性。
这份技术报告的结构如下：
- 首先，描述用户交互演示系统；
- 其次，详细介绍 Kandinsky 3.0 模型的关键组成部分、数据集使用策略、训练技术以及各种应用；
- 最后，报告基于人类偏好的并列比较结果，并讨论模型的局限性。

Methods

Demo System

demo system 地址：https://fusionbrain.ai/en/editor/ （注册后可免费玩，页面如下，注意一开始登录进去是俄文显示，点左下角的按钮后切换为英文）
该系统可以接受俄语、英语和其他语言的文本提示。还允许在文本描述中使用表情符号。文本的最大长度为1000个字符；
在“Negative prompt”字段中，用户可以指定模型在生成过程中不应使用的信息（例如颜色）；
最大分辨率为1024 × 1024；
选择边缘比例：1：1，16：9，9：16，2：3或3：2；
选择生成样式以加速推理：数字图像，像素艺术，卡通，肖像照片，工作室照片，赛博朋克，3D渲染，古典主义，动漫，油画，铅笔画，霍赫洛马绘画风格，以及著名艺术家如艾瓦佐夫斯基，康定斯基，马列维奇和毕加索的风格；
放大/缩小；
使用橡皮擦突出显示可以用新的文本描述进行填充的区域（修补技术）；
使用滑动窗口扩展生成图像的边界，并使用新边界进行进一步生成（扩展技术）；
我们还实现了我们开发的内容过滤器，以处理不正确的请求。
该网站还支持具有以下特征的图像到视频生成：
- 分辨率：640 × 640，480 × 854和854 × 480；
- 用户可以通过使用文本提示描述每个场景来设置最多4个场景。每个场景持续4秒，包括过渡到下一个场景；
- 对于每个场景，可以选择相机运动的方向：向上、向下、向右、向左、逆时针或顺时针旋转、缩小、放大以及围绕对象的不同飞行类型；
- 平均生成时间范围从一个场景的1.5分钟到四个场景的6分钟不等；
- 生成的视频可以以mp4格式下载

Kandinsky 3.0 Architecture

Kandinsky 3.0是一种潜在扩散模型，其整个 pipeline 包括用于处理用户提示的文本编码器，用于在去噪（反向）过程中预测噪声的U-Net，以及用于从生成的 latent 中进行图像重建的解码器

各模块的参数量如下，总共的参数量为 11.9B

UNet 架构

做了 500 次左右的模型架构实验，探索要将主要的参数放在 CNN 上还是 transformer 上
- 提升网络的层数，同时降低总参数量可以获得更好的训练效果
- 在初始阶段，仅使用卷积块处理高分辨率图像，而更压缩的特征才送到 transformer 层。这确保了图像元素的全局交互
  - 作者尝试了基于全 transformer 搭建的 magvit 架构，通过减少自注意力的平方复杂度适应图像处理。在分类任务中，与上述模型相比，该架构显示出最佳结果。尽管如此，在实验中，发现该架构在生成任务中表现不佳
在探讨了以上所有架构之后，我们选择了 ResNet-50 block 作为我们去噪U-Net的主要模块。因此，我们的架构的输入和输出的残差块包含具有1×1核的卷积层，相应地减少和增加通道数。我们还通过一个具有 3×3 核的额外卷积层扩展了它，就像 BigGAN-deep 残差块架构一样。在残差块中使用瓶颈使得我们能够加倍卷积层的数量，同时保持几乎相同数量的参数。与Kandinsky 2.x 模型的先前版本相比，我们新架构的深度增加了 1.5 倍。在放大和缩小的更高级别的部分，我们仅放置了我们实现的卷积残差 BigGAN-deep 块。同时，在较低分辨率处，架构包括自注意和交叉注意层。我们的 U-Net 架构、残差 BigGAN-deep 块和交叉注意块的完整方案如下图所示：
我们的BigGAN-deep残差块版本与 BigGANs 中提出的版本有以下不同之处：
- 我们使用 GN 而不是 BN；
- 我们使用 SiLU 而不是ReLU；
- 作为跳跃连接，我们在标准的 BigGAN 残差块中实现它们。例如，在U-Net的放大部分，我们不会丢弃通道，而是进行上采样并应用1×1核的卷积。

text encoder

文本编码器使用目前最强大的编码器解码器开源模型之一，即 Flan-UL2 20B 模型的 8.6B 编码器。该模型基于预训练的 UL2 20B模型，目前是开源的最强大的编码器解码器模型。除了在大量文本语料库上进行预训练外，Flan-UL2 还使用Flan Prompting 进行了许多语言任务的监督微调。我们的实验证明，这样的微调也显著改善了图像生成效果。

Sber-MoVQGAN

为在文本和人脸等复杂领域实现高质量的图像重建，我们开发了 Sber-MoVQGAN 自编码器，在 Kandinsky 2.2 中取得了良好的结果。
Sber-MoVQGAN 架构基于 VQGAN 架构，并添加了 MoVQ 的空间条件归一化。空间条件归一化的实现方式类似于 StyleGAN 架构中使用的自适应实例归一化（AdaIN）层，其计算公式为：
$F_i = \phi_\gamma(z_q)\frac{F_{i-1} - \mu(F_{i-1})}{\sigma(F_{i-1})} + \phi_\beta(z_q) \quad$
其中， $F_{i-1}$ 是中间特征图， $z_q$ 是 encoder 输出的量化后的 latent 特征， $\mu$ 和 $\sigma$ 是激活的均值和标准差计算函数， $\phi_\gamma$ 和 $\phi_\beta$ 是可训练的仿射变换，将 $z_q$ 转换为缩放和偏置值。我们的实现的其他重要特征包括在训练阶段使用了 EMA（指数移动平均）权重和修改的来自 ViT-VQGAN 的损失函数。
我们训练了 Sber-MoVQGAN 的三个版本 – 67M、102M 和 270M。67M版本与标准 VQGAN 的大小相同。102M 模型相较于 67M 使用了两倍数量的残差块，而270M模型则使用了两倍原始通道数。Kandinsky 3.0使用270M模型作为图像解码器。我们在 LAION HighRes 数据集上训练了 Sber-MoVQGAN，获得了在图像重建方面的 SOTA 结果。我们在下表中对我们的自编码器与竞争对手以及 Sber-VQGAN 进行了比较。我们在开源许可下发布了这些模型的权重和代码。

数据

在训练过程中，我们使用了一个大型的线上收集的文本图像对数据集。训练数据集包括流行的开源数据集以及我们内部的约 1.5 亿个文本图像对。
为提高数据质量，我们通过了几个过滤器：图像的审美质量、水印检测、图像与文本的 CLIP 相似性以及感知哈希检测重复。
我们发现从Common Crawl 收集的数据几乎不包含与俄罗斯文化相关的图像。为解决这个问题，我们收集并标注了一个包含 20 万个苏联和俄罗斯卡通、名人和地点文本图像对的数据集。该数据集有助于提高模型在生成与俄罗斯相关的图像时的质量和文本对齐。
我们还将所有数据分为两类。我们在低分辨率预训练的初始阶段使用第一类数据，而在最后阶段使用混合和高分辨率微调时使用第二类数据。
- 第一类包括像 LAION-5B 和 COYO-700M 这样的开源大型文本图像数据集以及我们从互联网收集的“脏”数据
- 第二类包含相同的数据集，但使用更严格的过滤器，尤其是图像审美质量

训练

我们将训练过程分为以下几个阶段，以使用更多的数据并训练模型在广泛的分辨率范围内生成图像：

256 × 256 分辨率：11亿文本图像对，批量大小 = 20，训练步数为60万，使用104台NVIDIA Tesla A100；
384 × 384 分辨率：7.68亿文本图像对，批量大小 = 10，训练步数为50万，使用104台NVIDIA Tesla A100；
512 × 512 分辨率：4.5亿文本图像对，批量大小 = 10，训练步数为40万，使用104台NVIDIA Tesla A100；
768 × 768 分辨率：2.24亿文本图像对，批量大小 = 4，训练步数为25万，使用416台NVIDIA Tesla A100；
混合分辨率：768² ≤ W × H ≤ 1024²，2.8亿文本图像对，批量大小 = 1，训练步数为35万，使用416台NVIDIA Tesla A100。

应用

Inpainting and Outpainting

实现与 GLIDE 相同，从基础 Kandinsky 模型权重初始化 inpainting 模型
修改 U-Net 的输入卷积层，以便输入还能接受图像 latent 和掩码。因此，U-Net 的输入通道增至 9 个：4 个用于原始 latent，4 个用于图像 latent，以及一个额外的通道用于掩码。我们将额外的权重置零，因此训练始于基础模型。
在训练过程中，我们生成以下形式的随机掩码：矩形、圆形、笔画和任意形状。对于每个图像样本，我们使用最多 3 个掩码，并为每个图像使用唯一的掩码。我们使用与基础模型训练相同的数据集，其中包括生成的掩码。我们使用 Lion 进行训练，lr=1e-5，并在前 1 万步训练应用线性 warmup。总共训练 250 万步。

Image-to-Video Generation

图像到视频生成涉及一系列迭代步骤，包括下图中所示的四个阶段。我们的动画 pipeline 基于 Deforum 技术
- 包括一系列应用于场景的变换
  - 将图像转换为具有深度图的三维表示；
  - 对结果场景应用空间变换以产生动画效果；
  - 将2.5D场景投影回2D图像；
  - 通过图像到图像转换技术消除变换缺陷并更新语义。

Text-to-Video

基于Kandinsky 3.0模型，我们还创建了文本到视频生成流程 Kandinsky Video，除了包含文本编码器和图像解码器外，还包括两个模型——用于关键帧生成和在它们之间插值的模型。这两个模型都使用 Kandinsky 3.0 的预训练权重作为骨干。

Experiments

人工评测

每个人根据两个标准选择最佳图像：1. 图像内容与提示的对齐度（文本理解）；2. 图像的视觉质量。我们总体比较了所有类别的视觉质量和文本理解，以及每个类别的独立比较

与上一代模型对比

有明显提升（黄色比例更大）

与 DALLE 比较

不如 DALLE

与 SDXL 比较

整体效果优于 SDXL，不过 pictures with texts 这一项还是明显不如 SDXL

Thoughts

开源诚意很好的工作，不过实验部分对比不够充分
通过加大模型参数量的方式在 autoencoder 层面上达到了 SOTA
针对俄罗斯做了一些体验优化，优化方式主要在数据层面

英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
重复文件清理工具，附免费链接 mixiumixiu 其他
链接:https://pan.baidu.com/s/1s_Zx1eHp5Y-XnbbGldIgvw?pwd=kjex提取码:kjex复制这段内容后打开百度网盘手机App，操作更方便哦
【三桥君】AI技术发展下，单智能体局限性凸显，如何通过MCP和A2A协议实现智能体团队协作转变？
你好，我是✨三桥君✨本文介绍>>一、引言在AI技术突飞猛进的今天，单智能体的局限性正日益暴露，而智能体（AIAgents）协作已然成为不可逆转的趋势。你是否曾思考过，如何通过MCP和A2A协议实现智能体从单兵作战到团队协作的革命性转变？本文三桥君将深入探讨MCP和A2A协议的核心功能与优势，帮助你全面理解智能体协作的无限可能。二、A2A与MCP协议作用MCP（ModelControlProtoco
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

KANDINSKY 3.0 TECHNICAL REPORT

TL;DR

Introduction

背景

本文方案

Methods

Demo System

Kandinsky 3.0 Architecture

UNet 架构

text encoder

Sber-MoVQGAN

数据

训练

应用

Inpainting and Outpainting

Image-to-Video Generation

Text-to-Video

Experiments

人工评测

与上一代模型对比

与 DALLE 比较

与 SDXL 比较

Thoughts

你可能感兴趣的:(paper_reading,人工智能,AI作画,深度学习)