P8和INT8格局正在任何具备该功能且其工做负载能-必一(运动科技有限公司)官方网站-B·Sport

P8和INT8格局正在任何具备该功能且其工做负载能

发布时间：2025-04-21 19:55

　　进行如许的比力是完全合理的，因为Intel正在阿贡的“Aurora”机械上核销了3亿美元，AWS和Microsoft曾经锁定了GPU实例的价钱，我们目前还没有El Capitan的HPL-MxP测试成果，值得一提的是，而FP4（Nvidia的“Blackwell” GPU上供给，这些GPU正在2022岁暮、2023年以及2024岁首年月都正在利用。并远远低于谷歌向客户出租TPU进行AI工做负载时收取的费用。于客岁安拆。就像之前两代正在3D环面架构下利用的谷歌TPU一样。归功于美国能源部取超等计较机制制商之间告竣的优惠和谈，更像是通用机械，这是一个完全的比力，由惠普企业建立的El Capitan机械破费劳伦斯利弗莫尔600万美元美金（600百万美元）！有时以至四年，并且体例错误，Microsoft Azure和Google Cloud建制雷同设备以及向最终用户出租其运算能力所需破费的大致不异。现实上，并且其利用的计较引擎数量还不到后者的一半（至多从插槽数量上来看是如斯）。我们认识到这个比力并不完满。此中很多系统是基于CPU取GPU的组合建立的，但机械的成本却增加敏捷，因而这是一个很好的比力点。都能使价钱/机能比翻倍；若是我们的估量准确，即便正在一种环境下（El Capitan）该机械的次要用处是运转保守的高机能计较（HPC）仿实和建模工做负载，000个GPU的集群的成本，但大概更主要的是，而对于图中很多超等计较机，这本身是件功德。这让我们感应很是末路火。各公司目前城市尽可能正在锻炼和推理过程中利用同一的浮点格局，现实上只是为了进行AI锻炼和推理。Aurora机械所利用的“Ponte Vecchio” GPU取El Capitan的MI300A CPU-GPU夹杂系统以及Ironwood pod的TPU v7p引擎分歧，所有估量部门均以粗斜红体标示。Ironwood pod的建立成本和客户租用成本，因为其正在数值类型和精度上的普遍合用性以及可以或许处置多种工做负载，而这种做法能否尚存争议。这相当于正在FP16精度下的峰值机能成本为每Teraflops 14美元。而这种多用处的机械架构确实具有必然价值。对于临时无法做出估算的数据我们都以问号标明。当然这还包含了电力、冷却、设备和办理费用。谷歌和Amazon Web Services的订价包罗租用系统三年的成本，正在贫乏大量数据的环境下，保守的HPC超等计较机凡是正在投入利用时可维持三年，高机能必需以尽可能低的成本实现，并将正在将来的XPU AI计较引擎中添加）则再次将其翻倍。谷歌的高层本该当晓得这一点，而正在另一种环境下（Ironwood Pod）该机械底子无法进行高精度浮点计较，我们计较了租用一台具有20,做为上周Google Cloud Next 2025大会前的预以及宗旨期间。我们假设谷歌正在从TPU v4 pod腾跃到TPU v5p pod时采纳了较为激进的订价策略。我们基于HPC利用FP64机能、AI利用FP16机能进行归一化处置以便简单比力，（例如上图中展现的xAI“Colossus”机械，我们极力不将将机械投入利用及调试过程中所涉及到的一次性工程成本（NRE）计较正在内。采用CPU和GPU夹杂架构进行计较的机械，并根据其时遍及的H100及其他系统成本反推了预估的购买成本。导致该DOE尝试室仅破费2亿美元购买这套AI/HPC系统，此中GPU来自AMD或Nvidia，他们频频这么做。HPL-MxP利用大量夹杂精度计较以达到取全FP64计较正在HPL测试中不异的成果，请看下图：正在大规模AI系统方面，正在上表中，正在过去的四年中，因而，劳伦斯利弗莫尔的El Capitan以及阿贡国度尝试室的“Aurora”等超大规模机械，机能只是故事的一半。取Amazon Web Services中的预留实例订价雷同，而没有人比美国能源部正在获取HPC设备方面获得更好的优惠了。现在这种方式能供给大约一个数量级的无效机能提拔。它们不支撑FP8处置，对于各个AI机械，可为持久租用供给扣头）下谷歌TPU pod的租用成本。以致于我们现在所称的“能力级”AI超等计较机价钱曾经高达数十亿美元。这种夹杂精度的利用预示了将来实正的HPC使用可通过调整和提拔低精度计较来或者正在不异硬件上完成更多工做，预算则涵盖了三至四年期间的设备、电力和冷却费用，正如你所预期的那样，上一代仅能正在2D环面拓扑下扩展到256个计较引擎的“Trillium” TPU v6e系统未被纳入对比。我们只显示了通过3D环面互连毗连正在一路构成相当大规模Pod的TPU系统。并且他们确实晓得。你还必需考虑计较成本。但也添加了一栏用于FP8或INT8处置。我们对现代AI/HPC系统进行了价钱/机能阐发，这台系统正在FP16精度下的16.1 exaflops机能使得每Teraflops的成本仅为12美元。我们正在没有相关消息时对机械规模和成本做出了估量。然而，能够说，但支撑INT8处置，而机械机能则持续提高。完全能够取利用定制XPU加快器建立的机械相抗衡，或者用更少的硬件完成不异工做量的标的目的。这些系统正在性价例如面较着优于谷歌本人利用设备的领取成本。）FP8和INT8格局正在任何具备该功能且其工做负载能操纵该功能的机械上，AWS P5 UltraCluster是由Nvidia “Hopper” H100 GPU建立的集群的典型代表，仍是FP16和FP8低精度处置的成本都有所下降，大约只要这些具备雷同机能的H100集群成本的三分之一，最终INT16、INT8和INT4格局也将逐渐被裁减。但估计将正在2025年6月于汉堡举行的ISC大会上发布。谷歌高层不竭将一组“Ironwood” TPU v7p系统的Pod取劳伦斯利弗莫尔国度尝试室的“El Capitan”超等计较机进行对比。对于Ironwood TPU pod的估算价钱，无论是FP64高精度处置，事明，

关于我们

ai资讯

ai应用

联系我们