每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
观看视频B站链接:
【本周AI新闻: OpenAI & Google 强势回应 DeepSeek!最新AI模型免费开放,谁更胜一筹?】 https://www.bilibili.com/video/BV162NuecESX/?share_source=copy_web&vd_source=32ed33e1165d68429b2e2eb4749f3f26
谷歌重磅发布 Gemini 2.0 Pro、Flash-Lite,并将推理模型 Flash Thinking 接入 YouTube、地图和搜索
谷歌的 Gemini 系列 AI 大模型(LLM)最初的表现并不完美,甚至在图像生成方面闹出了一些令人尴尬的乌龙,但经过近一年的优化和改进,这款 AI 终于迎来了质的飞跃。如今,谷歌似乎决心要让第二代——Gemini 2.0 成为目前市场上最强大的 AI 之一,不仅面向普通消费者,还大力拓展企业级应用。
今天,谷歌正式发布 Gemini 2.0 Flash,推出全新的 Gemini 2.0 Flash-Lite,并上线实验版的 Gemini 2.0 Pro。
这几款新模型专为开发者和企业用户打造,可通过 Google AI Studio 和 Vertex AI 访问。目前,Flash-Lite 处于公测阶段,而 Pro 版则开放早期测试。
正如谷歌 DeepMind CTO Koray Kavukcuoglu 在博客中强调的那样,所有新模型都支持 多模态输入+文本输出,未来还将支持更多数据类型。这一特性让谷歌在竞争中占据先机,毕竟,DeepSeek 和 OpenAI 最新发布的 LLM 仍然难以实现全面的多模态交互。
值得注意的是,DeepSeek-R1 和 OpenAI 的 o3-mini 仍然无法原生支持多模态输入。DeepSeek-R1 仅在官网和移动端能处理图像,但本质上是依赖 OCR(光学字符识别) 提取文字,而非真正理解图像内容。因此,在 AI 领域,谷歌依然凭借多模态能力遥遥领先。
除了大模型更新,谷歌今天还在推理能力方面放出重磅炸弹。Gemini 2.0 Flash Thinking 现已接入 Google Maps、YouTube 和搜索,这意味着用户可以利用 AI 进行更深入的研究和互动,而竞争对手 DeepSeek 和 OpenAI 显然无法提供类似服务。
谷歌 CEO 桑达尔·皮查伊在 X(原 Twitter)上宣布,Gemini 移动端应用(iOS & Android)已更新 Flash Thinking,用户可以利用这一 AI 模型更智能地搜索信息。例如,它能快速分析过去一个月 YouTube 最受欢迎的视频趋势,或者秒查附近诊所的营业时间,体验比以往更丝滑。
早在去年 12 月,Gemini 2.0 Flash 以实验版亮相,而如今它已全面上线,成为谷歌 AI 生态中的关键角色。
这一模型主打高效 AI 应用,不仅提供低延迟响应,还能支持大规模多模态推理。与竞争对手相比,上下文窗口(Context Window) 成为了 Gemini 2.0 Flash 的一大亮点。
目前,大多数主流 LLM(例如 OpenAI 的 o3-mini)最多只能处理 20 万 tokens,相当于 400-500 页小说的内容。而 Gemini 2.0 Flash 支持 100 万 tokens,能够处理海量信息,非常适合高频、高规模的 AI 任务。
如果说 Flash 是高性能选手,那 Flash-Lite 就是低成本高效能的代表。这款全新 LLM 在降低 AI 使用成本的同时,仍然保持出色的 AI 推理能力。
根据 DeepMind 官方数据,Flash-Lite 在**多任务语言理解(MMLU Pro)**和 SQL 编程(Bird SQL) 基准测试中均超越前代 Gemini 1.5 Flash(77.6% vs. 67.3%;57.4% vs. 45.6%),但价格和运行速度保持一致。
Flash-Lite 也支持 100 万 tokens 的上下文窗口,与 Flash 版本相同。目前,Flash-Lite 已在 Google AI Studio 和 Vertex AI 公测,预计将在未来几周内正式开放。
在价格上,Flash-Lite 仅需 $0.075/百万 tokens(输入) 和 $0.30/百万 tokens(输出),对比 OpenAI 的 4o-mini($0.15/$0.6)、Anthropic Claude($0.8/$4!)以及 DeepSeek V3($0.14/$0.28),堪称市场上的最佳性价比之选。
对于需要更强 AI 计算能力的用户,Gemini 2.0 Pro 终于上线试验版!
DeepMind 将其描述为 最强编码性能 LLM,能够处理更复杂的 AI 任务。Gemini 2.0 Pro 支持 200 万 tokens 上下文窗口,并且在推理能力方面全面升级,能够整合 Google Search 进行实时搜索,还能进行代码执行。
Red Dragon AI CEO Sam Witteveen 在 YouTube 评测中表示:“新版本的 Gemini 2.0 Pro 具备工具调用、代码执行、函数调用,以及Google 搜索增强推理,在 Pro 1.5 的基础上更进一步。”
谷歌的 AI 策略一向注重 先实验后正式发布,这种模式让 AI 迭代速度更快,用户体验也能得到迅速优化。
为了确保 AI 的可靠性,谷歌 DeepMind 也在不断优化 Gemini 2.0 的安全机制。团队正利用 强化学习 让 AI 自我纠正答案,同时进行自动化安全测试,以识别可能的安全漏洞,如 间接提示注入攻击。
未来,Gemini 2.0 还将拓展更多能力,支持更丰富的多模态输入,进一步提升 AI 的智能化水平。
谷歌正通过 Gemini 2.0 系列模型,巩固自己在 AI 领域的竞争力。从 Flash 到 Pro,各种层级的 LLM 既能满足高性能需求,又能提供极致性价比,显然是在对标 DeepSeek 和 OpenAI。
谷歌是否能在企业 AI 市场夺回主导地位?这场 AI 争霸赛才刚刚开始,接下来还有更多精彩,敬请期待!