官网地址:Sonic: Shifting Focus to Global Audio Perception in Audio-driven Portrait Animation
项目地址:https://github.com/jixiaozhong/Sonic
论文地址:arxiv.org/pdf/2411.16331
体验地址:
Sonic是由腾讯与浙江大学团队研发的AI数字人生成工具,核心目标是通过音频驱动生成逼真的人物动画。它无需依赖复杂的视觉信号,仅凭声音即可控制虚拟人的面部表情、唇部动作和头部运动,生成流畅自然的视频。
技术亮点
1.上下文增强音频学习:捕捉长时间音频中的音调、语速等细节,生成更自然的唇形和表情。
2.运动解耦控制器:将头部运动与表情分开控制,避免动作僵硬,让数字人更接近真人。
3.时间感知位置移位融合:通过全局音频信息融合,生成长时间稳定的动画视频,告别“鬼畜”画面。
官网地址:https://humva.ai/
Humva是一款注重虚拟形象生成的工具,提供丰富的模板和自定义选项,用户可轻松创建符合需求的虚拟形象。产品主要面向需要虚拟形象进行内容创作、社交互动或商业展示的用户。
Humva用户群体
适合需要虚拟形象进行内容创作、社交互动或商业展示的用户。例如,内容创作者可使用Humva快速生成虚拟形象用于视频制作或直播;社交用户可创建个性化的虚拟形象用于在线社交平台;商业用户可利用虚拟形象进行品牌推广或客户服务。
内容创作者使用Humva创建虚拟形象用于视频制作,增加视频的趣味性和吸引力。社交用户通过Humva生成个性化虚拟形象,用于社交媒体的个人资料图片。商业品牌利用Humva设计虚拟形象作为品牌代言人,用于线上广告和客户服务。
Humva的核心功能
论文地址:https://arxiv.org/pdf/2311.17117
项目地址:https://humanaigc.github.io/animate-anyone/
HumanDIT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DIT),能在大规模数据集上训练,生成具有精细身体渲染的长序列人体运动视频。HumanDIT 的核心优势在于姿态引导机制,通过关键点扩散变换器(Keypoint-DIT)生成后续姿态序列,保证视频中人体动作的连贯性和自然性。引入了前缀落在参考策略,在长序列中保持个性化特征。HumanDIT 支持多种视频分辨率和可变序列长度,适合长序列视频生成。基于姿态适配器实现给定序列的姿态转移,进一步提升了姿态对齐的准确性。
HumanDIT的主要功能
HumanDIT的技术原理
项目地址:Animate Anyone 2
阿里的Animate Anyone 2发布:与环境相适应的高保真角色视频,提出了一种全新的角色图视频生成方法。
这项研究不仅提高了角色视频的质量,而且通过考虑角色与环境之间的交互,为未来的AI视频生成开辟了新的可能性。
官网地址:https://id.recraft.ai/
Recraft是一款由Recraft AI推出的多功能人工智能图像生成与编辑工具。它集成了AI绘画、矢量图生成和设计工具,是一款强大的AI图像生成与编辑工具。
主要功能:
图片生成(Image):可以通过文本生成图片
海报生成(Frame):根据框选的大小,通过文字生成图片,可给图片里面加上文字(目前不支持中文)
图片集(Image set):图片集,可以一次生成风格一致的多张图像
模型(Mockup):以一张图片为底图,在这种图片的基础上融合上另一种图片,可以将logo等品牌标识贴在产品上
项目地址:https://menyifang.github.io/projects/MIMO/index.html
Github地址:https://github.com/menyifang/MIMO
论文地址:https://arxiv.org/pdf/2409.16160
体验地址:MIMO视频角色编辑 · 创空间
MIMO是阿里推出的具有对象交互能力的可控视频生成通用模型。
1、技术原理
2D转3D与空间分解:利用单目深度估计器将二维帧像素提升到三维,基于三维深度把视频片段分解为主要人物、底层场景和浮动遮挡三个空间分量。
组件编码:将上述三个空间分量进一步编码为规范身份代码、结构化运动代码和完整场景代码,作为合成过程的控制信号。
属性控制:用户输入角色单幅图像、运动姿势序列、场景单幅视频或图像等信息,模型把目标属性嵌入潜在空间构建目标代码,用空间感知分解将驱动视频编码为空间代码,通过自由集成潜在代码实现对合成的属性控制。
2、主要功能
任意角色控制:可对单幅图像中的人类、卡通角色或拟人化角色进行动画化处理。
新颖3D运动控制:能从现实视频中生成复杂动作,实现对新颖3D运动的控制。
交互式场景控制:可处理复杂的现实场景,包括物体之间的互动和遮挡效果,实现场景交互的3D感知合成。
3、应用场景
影视制作与特效:能创建逼真虚拟演员替代传统演员拍摄危险特技或大型场面,还可数字复生已故演员。
游戏开发:帮助开发者生成具有复杂动作的游戏角色,玩家也能上传自己的动作或视频生成相似角色,增强游戏沉浸感和个性化体验。
增强现实与虚拟现实:在AR/VR环境中,用户可通过MIMO与虚拟人物自然交互,也可模拟复杂现实情境用于虚拟培训。
展览与博物馆体验:博物馆利用它创造互动展览体验,让访客与历史人物对话或观看故事再现,提升展览的教育效果。
GitHub地址:https://github.com/Wan-Video/Wan2.1
模型地址:https://www.modelscope.cn/models/Wan-AI/Wan2.1-T2V-14B
体验地址:https://www.modelscope.cn/studios/Wan-AI/Wan-2.1
阿里巴巴开源Wan2.1 视频生成模型,在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择合适的模型和功能,轻松实现高质量的视频生成。
同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。
在权威评测集VBench中,万相以总分86.22%的成绩登上榜首位置,大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。
基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的3D因果VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。
官网地址:Cursor - The AI Code Editor
Cursor工作流仓库:https://cursor.directory/
Cursor 是一款专为开发者设计的智能代码编辑器,它集成了先进的 AI 技术,旨在提升编程效率和代码质量。以下是 Cursor 的主要特点和功能:
官方网址:Trae - Ship Faster with Trae
Windows版本已发布,目前支持Mac和Windows系统,Linux系统适配中。
字节跳动于2023年1月推出了一款革命性的AI编程工具Trae,最初只有Mac版本。如今,这款工具终于迎来了Windows版的正式上线,支持Windows 10和Windows 11系统,为更多开发者提供了便利。Trae是一个功能强大的AI中文IDE工具,由字节跳动旗下的新加坡公司SPRINGPTE提供服务。它的目标是简化程序员的开发流程,提高工作效率,使编程变得更加智能化。
具体来说,Trae具备多项实用功能,包括AI问答、代码自动补全和基于Agent的AI编程等。用户只需在输入框中提问,该工具即可为其提供详细的代码示例和解决方案。例如,当你在开发某个复杂项目时,想要实现某个功能,可以通过Trae的问答功能获得一段完整的代码,它不仅能节省时间,还能确保代码的准确性。在此基础上,Trae还支持自动化任务,帮助用户高效完成任务,让他们从繁琐的手动操作中解放出来。
根据用户反馈,Trae在实现端到端开发时表现得尤为出色。用户只需输入项目的需求,Trae便能够生成完整的代码项目,大大减轻了开发者的工作压力。这一功能特别适合初学者和中小型团队,他们通常缺乏足够的技术支持和人力资源。而Trae的多语言支持,既能提供简体中文也能提供英文,确保不同背景的开发者都能无障碍使用。
为了解决开发者在学习和使用中的难点,字节跳动还在Trae内置了最新的AI模型,包括GPT-4o和Claude-3.5-Sonnet模型。这些模型为用户提供了更为强大的智能交互能力,让编程不再是孤军奋战的过程。用户能够更加轻松地理解复杂代码,同时还能与AI进行实时交流,极大提高了学习效率。
那么,面对如此强大的AI工具,如何开始使用Trae呢?首先,用户需前往字节跳动的官方网站下载软件,安装完成后即可创建账户并登录。在主界面中,用户可以选择简体中文或英文进行操作,非常友好。接下来,用户可以直接在IDE环境中进行提问,无论是简单的代码片段,还是复杂的编程任务,Trae都能提供实时反馈与帮助。
使用Trae的过程简洁流畅:
论文地址:https://arxiv.org/pdf/2409.12186
体验地址:
Qwen2.5-Coder系列模型是基于Qwen2.5基础大模型进行初始化的,具备「强大」、「多样」和「实用」等优点。该系列模型通过持续的训练,结合了源代码、文本代码混合数据以及合成数据,总计使用了5.5T tokens的数据,从而在代码生成、代码推理和代码修复等核心任务上实现了显著的性能提升。
Qwen2.5-Coder-32B-Instruct模型在多个代码生成基准测试(EvalPlus、LiveCodeBench和BigCodeBench)中,超越大多数开源竞争对手,并能够与GPT-4o进行有效对比。
在编程大模型主要关注的5个方面上,它都实现了对GPT-4o的超越:
GitHub仓库:https://github.com/RooVetGit/Roo-Code
Cursor 的开源替代品——Roo-Cline,不仅保留了 Cursor 的所有功能,还增加了命令行交互能力,甚至能打开浏览器,完成基于 AI 的自动化测试!
Roo Cline 免费工具Token收费、功能丰富、易用性好,是一个融合了 Cline、Roo Cline 和 Bao Cline 最佳特性的主动式编程助手。它能与你的命令行界面和编辑器无缝协作,带来最强大的 AI 开发体验。
Roo Cline亮点功能:
官网地址:Windsurf Editor by Codeium
Codeium 团队推出的一款侧重于文档管理和团队协作的工具,同时提供代码生成支持,专注于知识共享和实时协作
Windsurf亮点功能:
Cascade 具有两种模式:Write 和 Chat。
Write 模式允许 Cascade 创建并修改您的代码库,而 Chat 模式则专为解答您关于代码库的问题或一般编程原则的疑问而优化。
Windsurf 和 Cascade 的一大独特功能是能够感知您的实时操作,从而实现前所未有的协作效果。
您无需再通过上下文提示 AI 了解先前操作,因为 Cascade 和 Windsurf 已经有所感知。
Cascade 可以检测您正在使用的包和工具,识别需要安装的项,甚至可以为您进行安装。只需向 Cascade 询问如何运行您的项目并点击“接受”。
官网地址:UI Design Made Easy, Powered By AI | Uizard
Autodesigner是Uizard公司最新推出的AI设计功能,工作原理和ChatGPT类似,都是基于Open AI,但输出的是图像。你只需要简单描述一下想要的界面、主要功能和设计风格,Autodesigner就能快速生成带流程的设计原型。
总结
整体来看,Autodesigner确实能有效提升设计效率,尤其适合前期概念的产出或者紧急项目。但模版类工具比较中规中矩,创意的发挥和细节的刻画还得需要Sketch/Figma完成,倒是可以作为辅助快速开启一个项目。
参考博客:多模态语音合成-CosyVoicev2实战
Github地址: https://github.com/FunAudioLLM/InspireMusic/
体验地址:InspireMusic音乐生成模型 · 创空间
参考博客:多模态图文理解-GLM-Edge实战
参考博客:OmniParser V2 安装与使用教程
GitHub仓库:https://github.com/microsoft/OmniParser
官方文档:https://huggingface.co/microsoft/OmniParser
OmniParser V2.0是一款基于纯视觉的GUI智能体解析和识别屏幕上可交互图标的AI工具。它通过大规模的交互元素检测数据和图标功能标题数据的训练,在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。在高分辨率Agent基准测试ScreenSpotPro中,V2+GPT-4o的准确率达到了39.6%,这一成绩无疑证明了OmniParser的强大实力。
微软发布OmniParser V2.0的举动,无疑在办公领域掀起了一场革命。这款AI工具将传统的人工操作工作转化为由AI智能体完成,大大提高了工作效率,降低了错误率。而这一切,都得益于微软对AI技术的深入研究和广泛应用。
OmniParser V2.0的强大功能并非偶然。微软在官网发布的最新版本V2.0中,将OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和Anthropic(Sonnet)等模型变成可以操控计算机的AI智能体。这一举措充分展示了微软在AI领域的深厚积累和领先地位。
此外,OmniParser V2.0的高分辨率Agent基准测试ScreenSpot Pro中准确率达到39.6%的优异表现,更是证明了微软在AI智能体领域的前瞻性视野和强大实力。这种准确率的提升不仅彰显了微软在AI技术研发上的执着和创新精神,也预示着AI智能体将在未来的办公领域发挥越来越重要的作用。
总的来说,微软发布的OmniParser V2.0以其强大的功能和广泛的应用前景,无疑将颠覆传统的办公模式。它将人工操作工作转化为由AI智能体完成,大大提高了工作效率,降低了错误率。这一创新性的举措,无疑将引领我们进入一个全新的办公时代。
在这个时代,我们将看到AI智能体在各种办公场景中发挥越来越重要的作用。无论是简单的数据录入,还是复杂的策略制定,AI智能体都能以其卓越的效率和准确性,为我们带来前所未有的便利。而这一切,都要归功于像OmniParser V2.0这样的先进AI工具的出现。微软的这一举动,无疑将为我们打开一扇全新的大门,让我们期待未来更多的可能性。
官网地址:https://agent.aminer.cn/?utm_source=aihub.cn
AutoGLM是智谱推出的AI智能体应用,清言app的“自动驾驶”模式,它能帮你用自然语言完成手机上的各种任务,就像有个小助手在帮你操作一样。它适合所有需要提高效率、想要轻松管理手机任务的人群。无论是网购、订餐还是处理工作,AutoGLM都能帮你轻松搞定!
AutoGLM的功能特性
AutoGLM的应用场景
参考博客:Mobile-Agent-v2:多模态多智能体系统显著提升端侧Agent任务成功率
论文地址:https://zhuanlan.zhihu.com/p/704846781
Github地址:https://github.com/X-PLUG/MobileAgent
Mobile-Agent 于2024年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了2,000个Star。该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大,Mobile-Agent实现了即插即用,无需进行额外的训练和探索。
近日,团队推出了新版本Mobile-Agent-v2,并列举了几大改进亮点:继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。
作者团队在社交媒体和Github发布了一系列展示Mobile-Agent-v2在手机上实操的视频。视频中展示了一个跨应用操作的实例。首先,用户需要Mobile-Agent-v2查看聊天软件中的未读消息并执行相关任务。
Mobile-Agent-v2根据指令先打开了WhatsApp,查看了来自 “Ao Li” 的消息。消息内容要求在TikTok上找到一个与宠物相关的视频并分享。于是,Mobile-Agent-v2退出WhatsApp,进入TikTok开始浏览视频。在发现一个宠物猫的视频后,它点击分享按钮,将视频链接发送给了 “Ao Li”。