谷歌TPU市值逼近4万亿美元: AI算力驶离英伟达"单行道"

01 12月 2025

2025-12-01 11:56

近日，谷歌母公司Alphabet（NASDAQ:GOOGL）股价连续多日强势上涨，市值逼近4万亿美元，创下历史新高。截至24日收盘，Alphabet市值约为3.84万亿美元，位列全球第三，仅次于英伟达和苹果。

这股推动Alphabet市值创新高的动力，不仅源于巴菲特旗下公司破圈大举买入谷歌所带来的市场信心，更来自谷歌TPU业务今年以来接连获得的全球关键客户背书：10月24日Anthropic与谷歌共同宣布，双方达成价值数百亿美元、规模达百万片的TPU采购协议；11月23日，马斯克披露特斯拉已在车辆控制系统与数据中心大规模部署自研AI芯片，数量达数百万颗；11月25日The Information报道称，Meta正计划于2027年将谷歌TPU部署至自有数据中心，并最早自明年起租用谷歌云TPU算力；而近期口碑爆棚的Gemini 3正是谷歌用深耕10年的自研TPU芯片训练的成果。

这些看似独立的动向，共同指向一个清晰的行业转折点：AI算力市场正加速摆脱对英伟达GPU的单一依赖，寻求基础设施多元化，拥抱以TPU为代表的AI专用芯片的新架构方向。

Meta加持：谷歌TPU从云服务到本地部署的战略升级

TPU是谷歌专为机器学习定制的AI加速芯片，在性能、能效比和成本方面为AI计算提供了新的选择。与英伟达的通用GPU相比，TPU采用脉动阵列等简化控制逻辑的设计，在执行大规模的矩阵乘加等神经网络核心运算时，能够实现极高的能效比和吞吐量。

2015年始，TPU在谷歌内部部署，并成功支撑了AlphaGo击败李世石等里程碑事件。多年来，谷歌始终将TPU严格限制于自家云平台（Google Cloud），通过出租接入权限的方式，向需要大规模AI训练和部署的企业提供算力。谷歌本次计划放开在客户本地部署，是其首次以英伟达替代方案的方式进入市场，标志着其战略的重大转变。

Meta与谷歌的这笔潜在交易可能是谷歌十年TPU投入的一次关键性背书。按照讨论中的方案，Meta将把谷歌的TPU部署到其自有数据中心，并最快从明年起租用Google Cloud的TPU算力，凸显了Meta构建和运行人工智能模型所需的高性能计算能力需求。

随着模型参数规模从百亿向万亿迈进，Meta面临的算力成本压力呈指数级增长。据公开计划，Meta正在大幅增加其在AI基础设施上的投入，Meta今年在AI基础设施方面的支出将高达720亿美元，以满足人工智能研发及业务运营的需求。当前，众多深度思考推理模型，多采用MoE（混合专家）架构。这类架构虽激活参数量相对较少，但总参数量巨大，对大规模并行处理和高效内存访问需求迫切，单个芯片难以满足其计算需求。TPU v7正是基于此设计，在执行大规模张量操作时，最大程度减少芯片上的数据移动和延迟。对于Meta这样每天需要处理数百万亿个AI模型的任务和操作的企业，TPU在总拥有成本上的优势成为关键考量因素。

本次潜在合作可能会超越传统的供应商-客户关系。通过将TPU引入自有数据中心，Meta实质上是在构建一个异构算力架构，为未来接入更多专用芯片奠定基础。同时，这一合作也将加速TPU生态的完善，推动其成为行业事实标准之一。对于年投入数百亿美元建设AI基础设施的Meta而言，与谷歌的深度合作不仅关乎成本节约，更关系到其在下一代AI竞争中的战略地位。

TPU VS. GPU，为AI大模型而生的天然优势架构

GPU最初设计用于图形处理，尤其是实时渲染和图像处理，因此对其中体面结构的矩阵和向量运算做了专门优化，后来逐渐发展成为通用计算设备（GPGPU）。GPU具有大量结构较为简单的并行处理单元，适合处理高度并行的任务，如图形渲染和科学计算，因此被广泛应用于计算机图形学、游戏开发、视频编码/解码、深度学习训练和推理。

TPU是谷歌专为加速机器学习和深度学习任务而设计的专用芯片，特别是针对深度学习模型的训练和推理。TPU针对张量运算进行了高度优化，单个的脉动阵列架构吞吐量和处理效率相较GPU有了更大提升，特别适合于处理矩阵乘法等常见于神经网络的操作，主要用于机器学习和深度学习模型的训练和推理，特别是使用TensorFlow框架的任务。

TPU以强大的并行处理能力实现了模型训练速度和精度的双重提升，可以说是比GPU更适合进行大量部署或使用的深度学习计算单元：

*多维度的计算单元提高计算效率：相较于CPU中的标量计算单元和GPU中的矢量计算单元，TPU使用二维乃至更高维度的计算单元完成计算任务，将卷积运算循环展开的方式实现最大限度的数据复用，降低数据传输成本，提升加速效率；

*更省时的数据传输和高效率的控制单元：冯诺依曼架构带来的存储墙问题在深度学习任务当中尤为突出，而TPU采用更为激进的策略设计数据传输，且控制单元更小，给片上存储器和运算单元留下了更大的空间；

*设计面向AI的加速，强化AI/ML计算能力：定位准确，架构简单，单线程控制，定制指令集，TPU架构在深度学习运算方面效率极高，且易于扩展，更适合超大规模的AI训练计算。

TPU为代表的新架构冲击英伟达GPU主导的AI算力市场

当前，Meta的选择折射出众多整个行业的战略转向——AI算力基础设施的构建已不再局限于通用GPU的堆砌，正向更具能效优势的TPU或者类TPU等定制化芯片深入。

今年10月24日，谷歌与Anthropic共同发布声明，宣布谷歌将向Anthropic供应至多100万块专用AI芯片TPU以及附加的谷歌云服务，这笔交易价值数百亿美元；谷歌在声明中称，这是Anthropic迄今为止规模最大的TPU扩容计划。至此，Anthropic已与谷歌、亚马逊与英伟达三大芯片提供商达成合作。

11月23日，特斯拉首席执行官马斯克通过社交平台发布长文，特斯拉已组建一支全球顶尖的芯片研发团队，特斯拉已具备从芯片设计到量产的全链条能力，支撑起FSD自动驾驶、Dojo超级计算机等核心业务。据马斯克介绍，特斯拉已在车辆控制系统与数据中心大规模部署自研AI芯片，数量达数百万颗。特斯拉当前车载芯片为AI4（原HW4），其下一代产品AI5已完成关键设计，即将进入流片阶段，而第六代芯片AI6的研发工作也已正式启动。公司计划以“一年一代”的节奏推进芯片迭代。

不止如此，自2019年始，许多科技巨头已经开始探索非GPU算力解决方案：

*早在2019年，英特尔就收购了来自以色列的AI芯片制造商Habana Labs，并在2024年4月推出了专攻深度学习神经网络推理的类TPU芯片Gaudi 3；预计2025年初，IBM Cloud将率先部署英特尔Gaudi 3 AI加速器；

*2023年11月，微软在其全球技术大会Ignite上宣布推出专为Azure云服务和AI工作负载设计的ASIC芯片Maia 100，预计2026年正式发布；

*2023年11月底，AWS在其“AWS re:Invent 2023”大会发布了为生成式AI和机器学习训练设计的云端AI算力芯片Trainium 2；2024年底，AWS与Anthropic官宣共同打造名为Project Rainier的EC2 UltraCluster，将使用数十万片Trainium2芯片；

*2024年7月苹果公司使用谷歌TPU训练其人工智能系统“苹果智能”（Apple Intelligence）的AI模型AFM，通过2048片TPUv5p芯片来训练拥有27.3亿参数的设备端模型AFM-on-device ，以及8192片TPUv4芯片来训练其为私有云计算环境量身定制的大型服务器端模型AFM-server。

*2025年6月，据路透社报道，作为英伟达GPU长期以来的最大采购商之一的OpenAI已开始租用谷歌的TPU为其ChatGPT及其他AI产品提供算力支持。

*******

国内唯一全自研、已量产TPU芯片的公司

核心创始团队组建于2018年，作为国内唯一一家掌握TPU架构AI专用芯片核心技术并实现全自研TPU芯片量产的公司，中昊芯英的创始人及CEO杨龚轶凡曾作为谷歌TPU芯片核心研发者，深度参与过TPU v2/3/4的设计与研发工作。当前，OpenAI大规模租用TPU算力、Meta广泛采购部署TPU芯片，特斯拉为特定场景研发专用AI芯片，共同标志着为AI负载优化的专用计算架构已成为行业演进的关键路径，也从产业层面验证了TPU技术方向的可行性与前瞻性。

TPU为AI大模型而生的天然优势架构，使其在面向AI计算场景时，在同等生产制程下相较于GPU可以拥有3-5倍的性能提升。以中昊芯英历时近五年全自研的国内首枚已量产TPU AI芯片“刹那®”为例，“刹那®”在处理大规模AI模型运算时与海外知名GPU芯片相比，计算性能可以超越其近1.5倍，在完成相同计算任务量时的能耗降低30%，将价格、算力和能耗综合测算，“刹那®”的单位算力成本仅为其42%。

TPU所引领的架构革新，正在重塑全球AI算力的竞争格局。在模型复杂度与算力成本双重攀升的背景下，以TPU为代表的专用芯片凭借其在能效、集群性能与总拥有成本上的综合优势，正逐步成为大规模AI基础设施的可靠选择。正是这些多元技术路径的探索，最终推动算力效率持续突破，进而为下一代AI模型的宏大未来构建起坚实而高效的算力基础。专注于TPU技术路线的中昊芯英为本土AI产业市场提供一个经过实践检验的高效算力选项。