Deepseek又开源了颠覆性的新模型Janus-Pro

Deepseek又开源了颠覆性的新模型Janus-Pro

Deepseek真的是一点都不休息啊,除夕还发模型
刚刚推出并开源了Janus-Pro,作为之前Janus 的全面升级版,这次它不仅参数从 1B扩展到 7B
而且在多模态理解与生成能力上实现飞跃,还大幅提升了图像生成的稳定性和细节表现!

先介绍一下Janus架构☝️
Janus是为了解决多模态AI领域的一个根本性矛盾:“理解”与“生成”任务对视觉表征的需求

核心科技⬇️
视觉编码解耦
通过为理解和生成任务分别设计专用编码器:
理解编码器:采用SigLIP(高维语义提取),将图像压缩为紧凑的语义向量,适配语言模型的推理需求。
✍️生成编码器:基于VQ(向量量化)的离散化编码,保留局部细节信息,为像素级重建提供基础。
避免任务冲突,实现“专业的人做专业的事”;
生成时无需依赖理解任务中间特征,减少信息损失

Janus-Pro-7B的表现证明了这条路是走的通的✅
多模态理解能力在MMBench上得分79.2,比单编码器模型(如LLaVA-1.5)提升超15%;复杂场景问答(如文档解析)准确率显著提高

同时在生成图片的质量也有了质变:
短提示稳定性提升(如“戴草帽的少女”不再崩脸);画面细节更丰富,光影层次更自然

Janus架构的本质突破在于:首次系统性解耦多模态任务底层表征需求。这不仅解决了传统模型的性能瓶颈,更开辟了一条可扩展的技术路径
1️⃣ 灵活适配:未来可针对视频3D等新模态设计专用编码分支;
2️⃣ 效率优化:也许可以各模块独立训练/更新,降低迭代成本
3️⃣AGI基石:为“感知-推理-创造”的闭环智能奠定基础。

Janus不是简单的技术迭代,而是多模态架构设计的一次哲学升级——它用“分工协作”取代“大一统”,让AI真正学会“看”与“画”的平衡艺术(这句话来自deepseek-R1)

PS:目前代码与模型已公开(MIT许可)速去 GitHub 围观

你可能感兴趣的:(人工智能)