近日,谷歌母公司Alphabet(NASDAQ:GOOGL)股价连续多日强势上涨,市值逼近4万亿美元,创下历史新高。截至24日收盘,Alphabet市值约为3.84万亿美元,位列全球第三,仅次于英伟达和苹果。
这股推动Alphabet市值创新高的动力,不仅源于巴菲特旗下公司破圈大举买入谷歌所带来的市场信心,更来自谷歌TPU业务今年以来接连获得的全球关键客户背书:10月24日Anthropic与谷歌共同宣布,双方达成价值数百亿美元、规模达百万片的TPU采购协议;11月23日,马斯克披露特斯拉已在车辆控制系统与数据中心大规模部署自研AI芯片,数量达数百万颗;11月25日The Information报道称,Meta正计划于2027年将谷歌TPU部署至自有数据中心,并最早自明年起租用谷歌云TPU算力;而近期口碑爆棚的Gemini 3正是谷歌用深耕10年的自研TPU芯片训练的成果。
这些看似独立的动向,共同指向一个清晰的行业转折点:AI算力市场正加速摆脱对英伟达GPU的单一依赖,寻求基础设施多元化,拥抱以TPU为代表的AI专用芯片的新架构方向。
Meta加持:谷歌TPU从云服务到本地部署的战略升级
TPU是谷歌专为机器学习定制的AI加速芯片,在性能、能效比和成本方面为AI计算提供了新的选择。与英伟达的通用GPU相比,TPU采用脉动阵列等简化控制逻辑的设计,在执行大规模的矩阵乘加等神经网络核心运算时,能够实现极高的能效比和吞吐量。
2015年始,TPU在谷歌内部部署,并成功支撑了AlphaGo击败李世石等里程碑事件。多年来,谷歌始终将TPU严格限制于自家云平台(Google Cloud),通过出租接入权限的方式,向需要大规模AI训练和部署的企业提供算力。谷歌本次计划放开在客户本地部署,是其首次以英伟达替代方案的方式进入市场,标志着其战略的重大转变。
Meta与谷歌的这笔潜在交易可能是谷歌十年TPU投入的一次关键性背书。按照讨论中的方案,Meta将把谷歌的TPU部署到其自有数据中心,并最快从明年起租用Google Cloud的TPU算力,凸显了Meta构建和运行人工智能模型所需的高性能计算能力需求。
随着模型参数规模从百亿向万亿迈进,Meta面临的算力成本压力呈指数级增长。据公开计划,Meta正在大幅增加其在AI基础设施上的投入,Meta今年在AI基础设施方面的支出将高达720亿美元,以满足人工智能研发及业务运营的需求。当前,众多深度思考推理模型,多采用MoE(混合专家)架构。这类架构虽激活参数量相对较少,但总参数量巨大,对大规模并行处理和高效内存访问需求迫切,单个芯片难以满足其计算需求。TPU v7正是基于此设计,在执行大规模张量操作时,最大程度减少芯片上的数据移动和延迟。对于Meta这样每天需要处理数百万亿个AI模型的任务和操作的企业,TPU在总拥有成本上的优势成为关键考量因素。
本次潜在合作可能会超越传统的供应商-客户关系。通过将TPU引入自有数据中心,Meta实质上是在构建一个异构算力架构,为未来接入更多专用芯片奠定基础。同时,这一合作也将加速TPU生态的完善,推动其成为行业事实标准之一。对于年投入数百亿美元建设AI基础设施的Meta而言,与谷歌的深度合作不仅关乎成本节约,更关系到其在下一代AI竞争中的战略地位。
TPU VS. GPU,为AI大模型而生的天然优势架构
GPU最初设计用于图形处理,尤其是实时渲染和图像处理,因此对其中体面结构的矩阵和向量运算做了专门优化,后来逐渐发展成为通用计算设备(GPGPU)。GPU具有大量结构较为简单的并行处理单元,适合处理高度并行的任务,如图形渲染和科学计算,因此被广泛应用于计算机图形学、游戏开发、视频编码/解码、深度学习训练和推理。
TPU是谷歌专为加速机器学习和深度学习任务而设计的专用芯片,特别是针对深度学习模型的训练和推理。TPU针对张量运算进行了高度优化,单个的脉动阵列架构吞吐量和处理效率相较GPU有了更大提升,特别适合于处理矩阵乘法等常见于神经网络的操作,主要用于机器学习和深度学习模型的训练和推理,特别是使用TensorFlow框架的任务。
TPU以强大的并行处理能力实现了模型训练速度和精度的双重提升,可以说是比GPU更适合进行大量部署或使用的深度学习计算单元:
*多维度的计算单元提高计算效率:相较于CPU中的标量计算单元和GPU中的矢量计算单元,TPU使用二维乃至更高维度的计算单元完成计算任务,将卷积运算循环展开的方式实现最大限度的数据复用,降低数据传输成本,提升加速效率;
*更省时的数据传输和高效率的控制单元:冯诺依曼架构带来的存储墙问题在深度学习任务当中尤为突出,而TPU采用更为激进的策略设计数据传输,且控制单元更小,给片上存储器和运算单元留下了更大的空间;
*设计面向AI的加速,强化AI/ML计算能力:定位准确,架构简单,单线程控制,定制指令集,TPU架构在深度学习运算方面效率极高,且易于扩展,更适合超大规模的AI训练计算。
TPU为代表的新架构冲击英伟达GPU主导的AI算力市场
当前,Meta的选择折射出众多整个行业的战略转向——AI算力基础设施的构建已不再局限于通用GPU的堆砌,正向更具能效优势的TPU或者类TPU等定制化芯片深入。
今年10月24日,谷歌与Anthropic共同发布声明,宣布谷歌将向Anthropic供应至多100万块专用AI芯片TPU以及附加的谷歌云服务,这笔交易价值数百亿美元;谷歌在声明中称,这是Anthropic迄今为止规模最大的TPU扩容计划。至此,Anthropic已与谷歌、亚马逊与英伟达三大芯片提供商达成合作。
11月23日,特斯拉首席执行官马斯克通过社交平台发布长文,特斯拉已组建一支全球顶尖的芯片研发团队,特斯拉已具备从芯片设计到量产的全链条能力,支撑起FSD自动驾驶、Dojo超级计算机等核心业务。据马斯克介绍,特斯拉已在车辆控制系统与数据中心大规模部署自研AI芯片,数量达数百万颗。特斯拉当前车载芯片为AI4(原HW4),其下一代产品AI5已完成关键设计,即将进入流片阶段,而第六代芯片AI6的研发工作也已正式启动。公司计划以“一年一代”的节奏推进芯片迭代。
不止如此,自2019年始,许多科技巨头已经开始探索非GPU算力解决方案:
*早在2019年,英特尔就收购了来自以色列的AI芯片制造商Habana Labs,并在2024年4月推出了专攻深度学习神经网络推理的类TPU芯片Gaudi 3;预计2025年初,IBM Cloud将率先部署英特尔Gaudi 3 AI加速器;
*2023年11月,微软在其全球技术大会Ignite上宣布推出专为Azure云服务和AI工作负载设计的ASIC芯片Maia 100,预计2026年正式发布;
*2023年11月底,AWS在其“AWS re:Invent 2023”大会发布了为生成式AI和机器学习训练设计的云端AI算力芯片Trainium 2;2024年底,AWS与Anthropic官宣共同打造名为Project Rainier的EC2 UltraCluster,将使用数十万片Trainium2芯片;
*2024年7月苹果公司使用谷歌TPU训练其人工智能系统“苹果智能”(Apple Intelligence)的AI模型AFM,通过2048片TPUv5p芯片来训练拥有27.3亿参数的设备端模型AFM-on-device ,以及8192片TPUv4芯片来训练其为私有云计算环境量身定制的大型服务器端模型AFM-server。
*2025年6月,据路透社报道,作为英伟达GPU长期以来的最大采购商之一的OpenAI已开始租用谷歌的TPU为其ChatGPT及其他AI产品提供算力支持。
*******
国内唯一全自研、已量产TPU芯片的公司
核心创始团队组建于2018年,作为国内唯一一家掌握TPU架构AI专用芯片核心技术并实现全自研TPU芯片量产的公司,中昊芯英的创始人及CEO杨龚轶凡曾作为谷歌TPU芯片核心研发者,深度参与过TPU v2/3/4的设计与研发工作。当前,OpenAI大规模租用TPU算力、Meta广泛采购部署TPU芯片,特斯拉为特定场景研发专用AI芯片,共同标志着为AI负载优化的专用计算架构已成为行业演进的关键路径,也从产业层面验证了TPU技术方向的可行性与前瞻性。
TPU为AI大模型而生的天然优势架构,使其在面向AI计算场景时,在同等生产制程下相较于GPU可以拥有3-5倍的性能提升。以中昊芯英历时近五年全自研的国内首枚已量产TPU AI芯片“刹那®”为例,“刹那®”在处理大规模AI模型运算时与海外知名GPU芯片相比,计算性能可以超越其近1.5倍,在完成相同计算任务量时的能耗降低30%,将价格、算力和能耗综合测算,“刹那®”的单位算力成本仅为其42%。
TPU所引领的架构革新,正在重塑全球AI算力的竞争格局。在模型复杂度与算力成本双重攀升的背景下,以TPU为代表的专用芯片凭借其在能效、集群性能与总拥有成本上的综合优势,正逐步成为大规模AI基础设施的可靠选择。正是这些多元技术路径的探索,最终推动算力效率持续突破,进而为下一代AI模型的宏大未来构建起坚实而高效的算力基础。专注于TPU技术路线的中昊芯英为本土AI产业市场提供一个经过实践检验的高效算力选项。

扫一扫关注微信