每周AI新闻(2024年第7周)OpenAI发布视频生成模型Sora | 谷歌推出Gemini 1.5 | 英伟达公开超级计算机

这里是陌小北,一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的,背诗的里面最会写段子的,写段子的里面代码写得最好的…厨子。

每周日解读每周AI大事件。

这一周,国外各厂真是不让我们消停儿过年呐,新闻一个个跟下饺子似的,冷不丁还炸锅一两个。

(备注:消停儿 xiāo ting er ,东北方言,释义安静点儿)

大厂动向

【1】OpenAI推出首款文生视频大模型Sora

OpenAI推出其首款文生视频大模型Sora。该模型能根据提示词生成长达1分钟的视频,或者扩展生成的视频使其更长,同时视觉质量相当惊艳。Sora不仅对文本理解更深刻,能准确地呈现提示词,而且可在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。除了支持文本指令输入外,该模型支持生成图像,也支持将现有静止图像变成视频,能对现有视频进行扩展、将两个视频衔接并填充缺失的帧。根据OpenAI技术报告,通过观察大量数据,Sora并且能够理解和模拟现实世界中的物理场景和运动,有了世界模型的雏形。

【2】谷歌推出Gemini 1.5 突破100万个tokens

谷歌发布其大模型矩阵的最新力作Gemini 1.5。这是一个多模态模型,针对广泛任务进行了优化,其性能与谷歌迄今最大的模型1.0 Ultra相当,同时使用了更少的计算。该模型在长语境理解方面取得突破,能显著增加模型可处理的信息量——持续运行多达100万个tokens,实现迄今任何大型基础模型中最长的上下文窗口。这意味着Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。

【陌小北解读】 心疼谷歌15s,谷歌内心os:快看我,我都100万tokens了,100万tokens了…

每周AI新闻(2024年第7周)OpenAI发布视频生成模型Sora | 谷歌推出Gemini 1.5 | 英伟达公开超级计算机_第1张图片

【3】传OpenAI在开发网络搜索产品

据外媒The Information报道,据了解OpenAI计划的人士透露,OpenAI一直在开发一款网络搜索产品,这将使其与谷歌展开更直接的竞争。这位人士说,搜索服务将部分由必应(Bing)提供。

【陌小北解读】 上述消息传出后,谷歌股价应声下跌3.8%,谷歌都哭了,再次心疼谷歌15s。**

每周AI新闻(2024年第7周)OpenAI发布视频生成模型Sora | 谷歌推出Gemini 1.5 | 英伟达公开超级计算机_第2张图片

【4】Meta发布世界模型早期版本V-JEPA

Meta推出V-JEPA模型,模型使用自监督学习进行了特征预测目标的训练,能够在信息有限的情况下理解和预测视频中发生的事情。它通过在其内部特征空间中预测视频中缺失或模糊的部分来学习。与填充缺失像素的生成方法不同,这种灵活的方法可以使训练和样本效率提高6倍。结果表明,其顶级V-JEPA模型在kinect-400上成绩达到82.0%,在Something-Something-v2上达到72.2%,在ImageNet1K上达到77.9%,比肩或超过此前的领先视频模型。

GitHub地址:https://github.com/facebookresearch/jepa

论文地址:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

【5】英伟达首次公开Eos超级计算机

英伟达2月15日发布了一段视频,首次向公众展示了其最新的数据中心级超级计算机Eos。Eos在全球超级计算机500强中排名第9,是一款极大规模的英伟达DGX SuperPOD,开发人员可以在Eos上使用加速计算基础设施和完全优化的软件来实现AI突破。Eos超算采用576个英伟达DGX H100系统、英伟达Quantum-2 InfiniBand网络和软件构建,共有4608个H100 GPU,可提供总计18.4EFLOPS的FP8 AI性能。

【6】谷歌被曝内部推出AI大语言模型Goose

据Business Insider 2月15日报道,谷歌悄悄推出了名为“Goose”的内部AI大语言模型,以帮助员工更快地编写代码,协助开发新产品,提高工作效率。Goose“在谷歌拥有25年的工程专业知识”,仅供谷歌员工使用,“可以回答有关谷歌特定技术的问题,使用内部技术栈编写代码,并支持基于自然语言提示编辑代码等新颖功能”。一份内部文件指出,Goose是“将AI带入产品开发过程的每个阶段”计划的一部分。目前还不清楚它是否功能齐全。Goose“还计划成为谷歌批准的第一个用于内部编程的通用大语言模型”。

【7】OpenAI CEO正请求美国批准成立AI芯片公司

据彭博社报道,OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)制定了一项计划,从根本上增加可用于开发和操作AI的专用服务器的数量。知情人士称,过去几周,阿尔特曼一直在与美国、中东和亚洲的潜在投资者和合作伙伴会面,但他告诉其中一些人,如果没有华盛顿的批准,他就无法前进。据知情人士透露,阿尔特曼正在努力争取美国政府批准一项大规模合资企业,以促进AI芯片的全球制造。

【8】ChatGPT记忆管理功能本周上线

OpenAI在其官网宣布正在测试ChatGPT的记忆管理功能。该功能可以记住用户在所有聊天中所讨论的内容,也可以让用户不必重复输入信息,并对以后的对话更有帮助。本周OpenAI将向一小部分ChatGPT免费版和Plus用户推出记忆管理功能。

【9】苹果推出AI动画设计助手Keyframer

苹果团队推出了一款AI动画设计助手Keyframer。团队将自然语言设计提示和大型语言模型的代码生成功能相结合,打造了这款AI动画工具,使得用户只需通过自然语言提示,便能将静态的2D图像转化为生动的动画插图。借助GPT-4、GPT-3,Keyframer能够生成CSS动画代码,让输入的SVG(可缩放矢量图形)变为动态,平均耗时17秒,最长不过1分钟。Keyframer提供多种编辑器,让用户可以直接编辑生成的动画;用户还可以通过顺序提示来逐步改进设计,并向大语言模型请求不同的变体。

论文地址:https://arxiv.org/abs/2402.06071

【10】微软推出首个专为Windows定制的Agent

微软推出了一个以用户界面(UI)为核心的Agent(智能体)——UFO,该智能体专为满足用户在Windows操作系统上应用程序的需求而设计。UFO充分利用了GPT-Vision的能力,采用独特的双代理框架,深入观察和分析Windows应用程序的图形用户界面(GUI)以及控制信息,使得Agent能够在单个应用程序内自由导航和操作,甚至能够跨应用程序满足用户请求,即使涉及到多个应用程序也毫无压力。该框架还集成了一个控制交互模块,使得代理可以在无需人为干预的情况下自主操作,实现完全自动化的执行流程。因此,UFO将原本艰巨且耗时的任务转化为仅通过自然语言命令即可轻松完成的简单任务。据了解,UFO是首个专为Windows操作系统环境下任务量身定制的UI Agent。

论文地址:https://arxiv.org/abs/2402.07939

GitHub地址:https://github.com/microsoft/UFO

创业 & 投融资

【1】投资者热情高涨,多家AI创企获融资

据The Information报道,最近几周,投资者表现出了对AI创企的极大热情,初创公司也正在寻求资本化。据多位知情人士透露,AI高质量训练数据提供商Scale AI一直在与投资者讨论筹集更多资金的事宜;AI搜索引擎创企Perplexity AI收到主动报价,估值可能超过10亿美元;高通和Intuit已向AI创企Anthropic投入了一轮150亿美元的估值融资;医疗AI创企Abridge完成新一轮融资,投资后估值为8.5亿美元。

【2】传OpenAI完成新交易,估值或超800亿美元

据《纽约时报》报道,近日,据三位知情人士透露,OpenAI已完成一笔交易,使其估值达到800亿美元或以上,在不到10个月的时间里这家创企的估值几乎增加了两倍。知情人士称,该公司将通过风险投资公司Thrive Capital牵头的要约收购出售现有股份。

【3】基础设施创企Meter获新融资 OpenAI CEO领投

互联网基础设施的初创公司Meter表示,已在OpenAI CEO萨姆·阿尔特曼(Sam Altman)和Stripe早期员工兼著名投资者Lachy Groom领投的新一轮融资中筹集了3500万美元。该轮融资计划投资产品、供应链并发展团队。

【4】OpenAI董事会主席创办AI Agent创企

据The Information报道,OpenAI创始成员之一安德烈·卡帕蒂(Andrej Karpathy)已离开公司。离职后,他正在开发一款AI助手产品,并与OpenAI研究主管鲍勃·麦格鲁(Bob McGrew)密切合作。“安德烈将离开去追求个人项目。我们对他的贡献深表感谢,并祝他一切顺利。”OpenAI发言人Kayla Wood在一份声明中表示。“他的职责已转变为与安德烈密切合作的高级研究员。”

产品 & 模型

【1】Stability AI推出文生图模型 消费级硬件可训练

根据Stability AI官网,2月12日,美国AI创企Stability AI推出了一个文生图模型Stable Cascade预览版。Stable Cascade基于大规模文本到图像扩散模型的高效架构Würstchen,易于在消费级硬件上训练和微调。为了让大家能够更方便地使用和定制这一模型,Stability AI还发布了相应的训练和推理代码,这些代码可以在GitHub页面上找到。

GitHub地址:https://github.com/Stability-AI/StableCascade

【2】亚马逊推出10亿参数文本转语音模型

亚马逊团队于2月12日推出一个名为BASE TTS的文本转语音(TTS)模型,它代表了大规模自适应流式TTS的崭新涌现能力。作为迄今为止最大的TTS模型,BASE TTS在10万小时的公共语音数据上进行了训练,从而提高语音自然度。其工作原理是通过一个拥有10亿参数的自回归转换器,将原始文本转化为离散代码(语音代码);接着,一个基于卷积的解码器以增量的、流式的方式将这些语音代码转化为波形。值得一提的是,模型的语音编码采用了新颖的语音标记化技术,该技术具有说话人ID解纠缠和字节对编码压缩的特点。团队发现,使用10K+小时和500M+参数构建的BASE TTS变体开始在处理复杂文本句子时展现出自然韵律。

论文地址:https://arxiv.org/pdf/2402.08093.pdf

音频生成样本地址:https://amazon-ltts-paper.com

【3】Cohere推开源大模型Aya 覆盖101种语言

美国AI创企Cohere2月13日推出新生成式大语言研究模型 (LLM),涵盖101种不同的语言,是现有开源模型涵盖的语言数量的两倍多。开源Aya模型以及迄今为止最大的多语言指令微调数据集,其规模为5.13亿,涵盖114种语言。该数据收集包括来自世界各地的母语人士和流利使用者的注释。

【4】Salesforce旗下Slack AI上线

根据Slack官网,美国SaaS龙头Salesforce子公司Slack于2月14日推出了Slack AI服务,能力包括:搜索答案,提供个性化的、智能的问题回答服务;从可访问的通道生成关键亮点回顾;一键从大量对话中获得议程总结。围绕Slack AI的一项内测分析发现,优步(Uber)和Anthropic等客户使用Slack AI来寻找答案、提炼知识和激发创意,平均每周可以为每位用户节省约97分钟时间。Slack公司CEO丹尼斯·德雷瑟(Denise Dresser)说:“在生成式AI时代,Slack是一个值得信赖的对话平台,它将企业的每个部分联系起来,从而提高团队的生产力。”

如果觉得不错,随手点个赞、评论、转发吧。我是陌小北,一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章,欢迎关注。

你可能感兴趣的:(AI,人工智能)