1. 首页 > 手游攻略

NVIDIA要用上X3D堆叠设计!下代GPU将引入LPU单元 nvidia驱动需要cuda才能用吗

作者:admin 更新时间:2025-12-31
摘要: 虽然NVIDIA目前在AI训练领域无可匹敌,但面对日益增长的即时推理需求,其正筹划一项足以改变行业格局的“秘密武器”。据AGF透露,NVIDIA计划在2028年推出的Feynman(费曼)架构GPU中,整合来自Groq公司的LPU(语言处理单元),以大幅提升AI推理性能。Feynma,NVIDIA要用上X3D堆叠设计!下代GPU将引入LPU单元 nvidia驱动需要cuda才能用吗

 

尽管NVIDIA目前在AI训练领域无可匹敌,但面对日益增长的实时推理需求,它正在筹划一款能够改变行业格局的“秘密武器”。

据AGF透露,NVIDIA计划将Groq的LPU(语言处理单元)集成到2028年推出的Feynman架构GPU中,以显着提升AI推理性能。

Feynman架构将继承Rubin架构,并采用台积电最先进的A16(1.6nm)工艺。为了突破半导体的物理限制,NVIDIA计划利用台积电的SoIC混合键合技术,将专为推理加速而设计的LPU单元直接堆叠在GPU之上。

这种设计与AMD的3D V-Cache技术类似,但NVIDIA堆叠的不是普通的缓存,而是专门为推理加速而设计的LPU单元。

该设计的核心逻辑是解决SRAM的缩放困境。在1.6nm的极限制程下,直接在主芯片上集成大量SRAM成本极高,而且占用空间。

通过堆叠技术,NVIDIA可以将计算核心保留在主芯片上,并将需要大面积的SRAM堆叠到另一层芯片中。

台积电A16工艺的一大特点是支持背面供电技术。该技术可以释放芯片正面的空间用于垂直信号连接,确保堆叠的接口板能够以极低的功耗进行高速数据交换。

结合LPU的“确定性”执行逻辑,未来的NVIDIA GPU在处理即时AI响应(例如语音对话、实时翻译)时将实现速度质的飞跃。

然而,存在两个主要的潜在挑战,即散热和CUDA兼容性。在计算密度极高的GPU上加一层芯片,如何避免“热崩溃”是工程团队面临的首要问题。

同时,LPU强调“确定性”执行顺序,需要精确的内存配置,而CUDA生态系统是基于硬件抽象设计的。要实现两者的完美协同,需要进行顶层软件优化。