tpu

计算机视觉：Transformer的轻量化与加速策略

轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU

xcLeigh·2025-07-10 00:44

AI日报-20250703：DeepSeek-R2神秘现身？！游戏模型一句话生成GTA神作！

大模型竞技场惊现"steve"引全网热议5、OpenAI紧急切割Robinhood代币风波：虚假股权引发市场震荡6、OpenAI暂停谷歌TPU合作，英伟达AMD稳坐

·2025-07-04 21:26

OpenAI租用谷歌TPU，降低推理计算成本

OpenAI近期开始租用谷歌TPU芯片，这是该公司首次大规模使用非英伟达芯片。除了OpenAI外、苹果、SafeSuperintelligence和Cohere等公司也一直租用谷歌云的TPU。

加百力·2025-07-02 06:49

20倍推理加速秘诀！揭秘批处理（Batching）的底层优化逻辑 | 附工业级调优指南

：单样本推理：输入=[样本1]→输出=[结果1]批处理推理：输入=[样本1,样本2,...,样本N]→输出=[结果1,结果2,...,结果N]关键技术价值：通过并行计算最大化硬件利用率，尤其对GPU/TPU

Lilith的AI星球·2025-06-24 14:07

AI Infra：C-S-N-D模型，解码 AI 基础设施的黄金比例

引言：从“算力战争”到“基础设施全景图”过去十年，AI技术的爆发让全球陷入了对算力的争夺战：从GPU到TPU，从千卡集群到超算中心。但当我们真正将AI技术落地于工业

·2025-06-21 13:01

JAX革命性优势解剖：GPU/TPU自动并行计算实战

近年来，大模型训练与科学计算对算力的需求呈现指数级增长。传统框架面临硬件绑定深、并行编码复杂、跨平台迁移成本高三大痛点。Google开源的JAX框架通过函数式编程范式、XLA编译优化与自动并行原语，正在重塑高性能计算的技术栈。一、JAX核心优势：三位一体的技术突破1.1函数式编程+即时编译（JIT）与PyTorch/TensorFlow的面向对象范式不同，JAX强制纯函数设计：#传统PyTorch

AI咸鱼保护协会·2025-06-18 10:58

TPU结构总结

TPU只完成推理过程，训练过程在GPU上完成。TPU可以像GPU一样通过PCIe总线接口挂载到现有的服务器上。

枫溪夜影·2025-06-08 15:37

深入了解AI人工智能深度学习的硬件加速方案

深入了解AI人工智能深度学习的硬件加速方案关键词：AI人工智能、深度学习、硬件加速方案、GPU、TPU、FPGA摘要：本文旨在深入探讨AI人工智能深度学习的硬件加速方案。

AI大模型应用之禅·2025-05-29 09:25

【深度学习新浪潮】2025年谷歌I/O开发者大会keynote观察

1.2025年谷歌I/O开发者大会keynote重点信息本次GoogleI/O大会的核心策略是降低AI使用门槛与加速开发者创新，通过端侧模型（GeminiNano）、云端工具（VertexAI）和基础设施（TPU

小米玄戒Andrew·2025-05-23 15:25

GPU和TPU有什么区别

GPU（图形处理单元）和TPU（张量处理单元）都是用于加速计算的硬件，但它们的设计目标和应用场景不同。

MonkeyKing.sun·2025-05-12 10:17

PyTorch 中如何针对 GPU 和 TPU 使用不同的处理方式

一个简单的矩阵乘法例子来演示在PyTorch中如何针对GPU和TPU使用不同的处理方式。这个例子会展示核心的区别在于如何获取和指定计算设备，以及（对于TPU）可能需要额外的库和同步操作。

frostmelody·2025-05-12 10:43

如何加速机器学习模型训练：深入探讨与实用技巧

1.硬件加速：利用GPU与TPU提升训练速度1.1GPU加速图形处理单元（GPU）与中

未名编程·2025-05-04 09:38

AI-大模型

是指参数量达到亿级甚至万亿级的深度学习模型，其核心特征包括：参数量级：现代大模型参数规模通常超过100亿（如GPT-3达1750亿）架构基础：基于Transformer的自注意力机制训练成本：需要数千张GPU/TPU

ghjhjjjbjibh·2025-04-25 06:09

服务器优化全领域深度解析 ——从硬件到量子计算的性能跃迁体系

其核心目标包括：1.降低延迟：通过NUMA绑核、零拷贝网络等技术将内存访问延迟压至纳秒级2.提高吞吐：借助TPU加速芯片、异步I/O架构实现每秒千万级事务处理能力3.保障稳定：采用分布式存储、量子加密等机制确保

国际云，接待·2025-04-22 14:47

《关税冲击波、AI芯片革命与无人机安全新纪元——2025年4月10日全球科技热点全解析》

本文将深度剖析关税政策如何颠覆PC市场、谷歌TPU如何定义下一代算力、中国无人机安全技术的突破性进展，并结合实训案例，带您亲历技术变革的底层

emmm形成中·2025-04-11 19:27

FPGA 2 ，FPGA与CPU GPU APU DSP NPU TPU 之间的关系与区别

一.关系与区别FPGA、CPU、GPU、APU、DSP、NPU和TPU虽然都属于处理器的范畴

北城笑笑·2025-04-08 04:59

计算加速技术比较分析：GPU、FPGA、ASIC、TPU与NPU的技术特性、应用场景及产业生态

在计算技术快速迭代的今天，传统通用处理器(CPU)正逐步被专用硬件加速器补充或替代，尤其在特定计算领域。这些加速器通过针对性设计，在功耗效率、计算吞吐量(FLOPS)和内存带宽方面实现了显著优化。截至2025年4月，加速器市场需求呈指数级增长，主要驱动因素来自人工智能(AI)、机器学习(ML)、高性能计算(HPC)及边缘计算应用的广泛部署。本文将深入剖析五类主要计算加速器——GPU、FPGA、AS

deephub·2025-04-06 15:33

结构化剪枝（Structured Pruning）与动态蒸馏（Dynamic Distillation）

其优势在于：硬件友好性：生成规则稀疏模式（如4×4权重块），便于GPU/TPU等加速器并行计算。块状结构定义：首先将神经网络的权重矩阵划分为固定大小的块，例如4×4的小方块。每个块包含16个权重参数。

frostmelody·2025-04-02 19:53

常见的人工智能学习框架以及特点、应用场景

支持分布式计算，可以使用多个GPU和TPU进行训练。提供了TensorBoard用于可视化训练过程和模型性能。应用场景：图像识别、自然语言处理（NLP）、生成模型等

2020314·2025-04-02 03:31

TensorFlow 深度学习框架详解

核心特点：跨平台支持：可在CPU/GPU/TPU上运行多语言接口：原生支持Python，通过API支持JS/Java/C++生态丰富：集成Keras、TF-Lite、TFX等工具链2.核心概念解析2.1

奶油话梅糖·2025-03-29 17:34

OpenBayes 教程上新丨单卡A6000轻松部署Gemma 3，精准识别黄仁勋演讲实拍

3月12日晚间，谷歌发布了「单卡大魔王」Gemma3，号称是能在单个GPU或TPU上运行的最强模型，真实战绩也证实了官方blog所言非虚——其27B版本击败671B的满血DeepSeekV3，以及o3-

·2025-03-20 18:00

Gemma 3 发布：最强单 GPU/TPU 可运行模型，性能超 Llama-405B！

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮，正式推出Gemma3——一款轻量级但性

新加坡内哥谈技术·2025-03-15 04:35

【vLLM 学习】使用 TPU 安装

依赖环境GoogleCloudTPUVM（单主机和多主机）TPU版本:v5e、v5p、v4Python:3.10安装选项：href=“https://v

HyperAI超神经·2025-03-14 17:26

AI系统架构

关键组成计算硬件GPU（如NVIDIAA100、H100）TPU（GoogleTensorProcessingUnit）NPU（如华为昇腾、寒武纪等）CPU（用于轻量级推理任务）

flying robot·2025-03-12 07:32

【vLLM 教程】使用 TPU 安装

依赖环境GoogleCloudTPUVM（单主机和多主机）TPU版本:v5e、v5p、v4Python:3.10安装选项：href="https://v

·2025-03-10 05:07

AI芯片概述-分类、应用、技术（APU、CPU、DPU、GPU、NPU和TPU）及厂家

二、AI芯片分类1.Training(训练)2.Inference(推理)三、AI芯片应用领域四、AI芯片技术路线五、APU、CPU、DPU、GPU、NPU和TPU六、AI芯片厂家一、AI芯片是什么？

一码当前·2025-03-09 00:27

极智芯 | 解读国产AI算力算能产品矩阵

邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码和资源下载，链接：https://t.zsxq.com/0aiNxERDq算能属于自研TPU阵营，算能，有时候又叫比特大陆，有时候又叫算丰

极智视界·2025-03-08 00:28

梯度累加（结合DDP）梯度检查点

通常，较大的批量可以提高训练的稳定性和效率，但受限于GPU或TPU的内存，无法一次性加载大批量数据。梯度累积通过多次前向传播和反向传播累积梯度，然后一次性更新模型参数，从而模拟大批量训练的效果。

糖葫芦君·2025-02-25 23:16

探秘 DeepSeek 硬件适配：GPU/TPU/NPU 异构计算原理剖析

DeepSeek作为前沿且极具创新性的技术框架，在与GPU、TPU、NPU等异构硬件的融合适配方面展现出卓越特性。

FinkGO小码·2025-02-25 18:11

Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用

硬件加速：GPU、TPU等加速计算，提升实

mosquito_lover1·2025-02-25 01:07

TPU编程竞赛系列｜第八届集创赛“算能杯“报名开启！

近日，第八届全国大学生集成电路创新创业大赛正式开幕，"算能杯"以基于TPU处理器的边缘计算系统设计为赛题，围绕算能提供的多款TPU硬件，展开软硬件协同设计，创新开发算法及探索新兴应用。

算能开发者社区·2025-02-07 08:34

什么是大模型框架？常用的大模型框架盘点对比

这些框架通常提供了高效的计算资源管理、分布式训练、模型优化和推理加速等功能，以便更好地利用硬件资源（如GPU和TPU）来处理庞大的数据集和复杂的模型结构。

AI产品经理·2025-02-05 21:25

kaggle花分类比赛91.168%

之前一直都没注意显存，也没注意数据格式，直到跑模型的时候电脑直接崩了，因为排队用TPU，感觉人多，就直接在自己电脑上跑，我自己是有一张8G的4070,没想到啊，光是读取数据，就占用了6G历次成绩这个是用分布式

仙尊方媛·2025-02-04 16:28

看深度求索如何思索自己的未来

对比谷歌TPU+JAX框架实现的20%效率提升，深度求索的技

tuan_zhang·2025-02-01 19:11

如何训练Stable Diffusion 模型

训练StableDiffusion模型是一个复杂且资源密集的过程，通常需要大量的计算资源（如GPU或TPU）和时间。

俊偉·2025-01-25 00:59

# AI计算模式神经网络模型深度神经网络多层感知机卷积神经网络循环神经网络长短期记忆网络图像识别、语音识别、自然语言轻量化模型和模型压缩大模型分布式并行

原先单CPU可进行模型的训练与推理，如今需要使用GPU、TPU等设备，并通过分布式并行的

EwenWanW·2025-01-24 16:59

神经架构搜索在大模型效率优化中的应用

计算资源消耗巨大:大模型的训练需要大量的计算资源，例如高性能GPU和TPU，这导致训练成本高昂，难以普及。内存占用量大:大模型的参数量庞大，需要大量的内存进行存储和

AI大模型应用之禅·2025-01-17 03:06

入门篇，带你了解CPU, GPU, TPU, NPU, DPU

目录CPU(中央处理器)GPU(图形处理器)TPU(张量处理单元)NPU(神经网络处理器)DPU(数据处理器)CPU(中央处理器)专业介绍：CPU是计算机系统的核心，负责执行操作系统和应用程序的指令。

今夕是何年，·2024-09-13 00:55

TensorFlow库详解：Python中的深度学习框架

它能够处理大规模的多维数据，并支持在多种硬件平台上运行，如CPU、GPU和TPU（TensorProcessingUnit）。

Ambition_LAO·2024-08-25 21:28

AI芯片的基础

根据用户预先编译好的程序，把指令集存储起来，再从指令寄存器取出来，用译码器解码后，按照确定的时序，向对应的不见发出控制信号；什么是AI芯片简言之，就是为了AI算法的运行而专门设计的芯片；CPU&GPU&NPU&TPU

Jumi爱笑笑·2024-02-20 00:44

python常用的深度学习框架

它支持分布式训练，能够在不同硬件上高效运行，包括CPU、GPU和TPU。TensorFlow还提供了一个高级API，称为Keras，它使构建和

攻城狮的梦·2024-02-08 13:43

自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

这包括高性能的图形处理单元（GPU）或者专用的张量处理单元（TPU），以及大内存和高速存储器。说白了，本地没N卡，

快乐非自愿·2024-02-05 06:26

TensorFlow 的基本概念和使用场景

它支持CPU、GPU和TPU（TensorProcessingUnit）等多种硬件。Tens

数据科学与艺术的贺公子·2024-02-02 09:27

深度学习-搭建Colab环境

Colab在云端提供了预配置的环境，可以直接开始编写代码，并且提供了免费的GPU和TPU资源，这对于训练深度学习模型等计算密集型任务非常有帮助，可以加速模型训练过程。

Damon小智·2024-02-02 04:24

机器学习与流体动力学：谷歌AI利用「ML+TPU」实现流体模拟数量级加速

作者｜魔王来源｜机器之心谷歌AI最近一项研究表明，利用机器学习和硬件加速器能够改进流体模拟，且不损害准确率或泛化性能。流体数值模拟对于建模多种物理现象而言非常重要，如天气、气候、空气动力学和等离子体物理学。流体可以用纳维-斯托克斯方程来描述，但大规模求解这类方程仍属难题，受限于解决最小时空特征的计算成本。这就带来了准确率和易处理性之间的权衡。不可压缩流体通常由如上纳维-斯托克斯方程来建模。最近，来

PaperWeekly·2024-01-29 08:49

【加速计算】从硬件、软件到网络互联，AI时代下的加速计算技术

接下来，我们将回顾和梳理常见的硬件加速器，如GPU、ASIC、TPU、FPGA等，以及如CUDA、OpenCL等软件

沐风—云端行者·2024-01-28 23:10

【深度学习：开源BERT】用于自然语言处理的最先进的预训练

双向性的优势使用云TPU进行训练BERT结果让BERT为您所用自然语言处理（NLP）面临的最大挑战之一是训练数据的短缺。

jcfszxc·2024-01-28 07:03

利用tpu-mlir工具将深度学习算法模型转成算能科技平台.bmodel模型的方法步骤

目录1TPU-MLIR简介2开发环境搭建2.1下载镜像2.2下载SDK2.3创建容器2.4加载tpu-mlir3准备工作目录4onnx转mlir文件5mlir转INT8模型5.1生成校准表5.2便以为INT8

陈洪伟·2024-01-25 14:10

PVC与TPU材料

PVC聚氯乙烯（Polyvinylchloride)，英文简称PVC。聚氯乙烯也是经常使用的一种塑料，它是由聚氯乙烯树脂、增塑剂和防老剂组成的树脂，本身并无毒性。但所添加的增塑剂、防老剂等主要辅料有毒性，日用聚氯乙烯塑料中的增塑剂，主要使用对苯二甲酸二丁酯、邻苯二甲酸二辛酯等，这些化学品都有毒性，聚氯乙烯的防老剂硬脂酸铅也是有毒的。含铅盐防老剂的聚氯乙烯（PVC）制品和乙醇、乙醚及其他溶剂接触会析

静恒·2024-01-21 17:48

热塑性聚氨酯TPU的特性有哪些？UV胶水能够粘接热塑性聚氨酯TPU吗？又有哪些优势呢？

热塑性聚氨酯（ThermoplasticPolyurethane，TPU）是一种具有多种优异性能的弹性塑料，广泛用于各种应用领域。

TDK15622868324·2024-01-19 20:58

推荐频道

tpu