2025 年,字节跳动(ByteDance)发布了革命性的多模态 UI 转换模型 —— UI-Trans,引发了业界广泛关注。作为一款融合视觉理解、语义分析与用户交互意图解析的 AI 工具,UI-Trans 在多个领域展现出强大能力,正在重塑 UI 智能生成和多模态理解的未来。
UI-Trans 是一种面向用户界面(UI)的多模态预训练模型,具备如下核心能力:
自动理解 UI 截图内容与结构
结合自然语言指令执行 UI 元素重构
支持 UI 到代码、UI 到语义草图等转换任务
支持网页、移动端等跨平台适配
UI-Trans 采用视觉 Transformer 架构,将 图像(UI 截图)与文本描述(自然语言指令) 完整对齐,在单一模型中完成:
图文编码
UI 意图解析
多模态目标生成(结构/代码/标签等)
这使得模型能“看懂”UI、“听懂”人话、“动手”重构。
UI-Trans 训练使用了字节自建的 高质量 UI-Instruction 数据集,覆盖:
超过 200K UI 截图与结构树
对应数百万级指令-响应对
支持网页、小程序、APP、桌面软件等多种类型 UI
这为模型的泛化能力和真实任务迁移提供坚实基础。
UI-Trans 不仅支持传统的“UI→代码”任务,还能完成:
任务类型 | 输入形式 | 输出形式 |
---|---|---|
UI 结构重建 | UI 图片 + 语言指令 | JSON/DOM 层级结构 |
UI 代码生成 | UI 图片 + 指令 | HTML/CSS/React代码 |
元素理解与标注 | UI 图片 | 元素类型/层级/操作建议 |
UI 翻译/替换 | UI 图片 + 目标语言 | 替换后的 UI 或结构信息 |
根据官方技术报告,UI-Trans 在 UI-Bench、MUIT、VDOM-Bench 等多个标准评测中全面超越 GPT-4V、Claude 3、Gemini Ultra 等主流多模态模型。
模型 | UI结构重建准确率 | UI元素定位 mAP | 文本生成 BLEU |
---|---|---|---|
GPT-4V | 78.5% | 61.3 | 69.0 |
Gemini | 75.2% | 63.0 | 65.5 |
UI-Trans | 89.7% | 72.8 | 81.4 |
设计师:根据自然语言修改 UI 页面,无需重新绘图;
产品经理:快速生成原型草图,辅助需求评审;
前端工程师:通过 UI 图自动生成结构化页面框架;
无障碍场景:帮助视障用户理解 UI 页面内容;
小程序/网页智能化迁移:跨平台 UI 自动适配生成。
输入:
️ 一张登录页 UI 图片
指令:“请将‘手机号登录’改为‘邮箱登录’,并移除验证码输入框。”
输出(结构 JSON):
{
"type": "form",
"children": [
{"type": "input", "label": "邮箱"},
{"type": "input", "label": "密码"},
{"type": "button", "text": "登录"}
]
}
UI-Trans 的发布标志着多模态 AI 在真实软件系统中的落地迈出了关键一步。未来,它将成为 UI 自动化、无代码开发、辅助可访问性、UI 生成式编程等多个领域的核心组件。
字节跳动已表示将开放部分模型与 API,推动社区共建。我们有理由相信,UI-Trans 将成为智能人机交互的新起点。
UI-Trans 官方仓库