NVIDIA 与合作伙伴在 MLPerf 中展示了领先的 AI 性能和多功能性

根据6月29日发布的 MLPerf 基准,NVIDIA 及其合作伙伴继续提供最佳的整体 AI 训练性能和所有基准中最多的提交,其中 90% 的条目来自生态系统。

NVIDIA AI 平台涵盖了 MLPerf Training 2.0 回合中的所有八个基准测试,突出了其领先的多功能性。

没有其他加速器能够运行所有基准,这些基准代表了流行的 AI 用例,包括语音识别、自然语言处理、推荐系统、对象检测、图像分类等。自 2018 年 12 月提交第一轮 MLPerf(一套行业标准的 AI 基准测试)以来,NVIDIA 一直这样做。

领先的基准结果,可用性

在连续第四次提交 MLPerf 训练时,基于 NVIDIA Ampere 架构的NVIDIA A100 Tensor Core GPU继续表现出色。

每个提交者的平台在每个网络上训练的最快时间 | 格式:芯片数、提交者、MLPerf-ID | RNN-T:1536x NVIDIA 2.0-2104 | BERT:4096x NVIDIA 2.0-2106、4096x Google 2.0-2012、256x Graphcore 2.0-2053、8x Intel-HabanaLabs 2.0-2073 | RN-50:4216x NVIDIA 2.0-2107、4096x Google 2.0-2012、256x Graphcore 2.0-2054、8x Intel-HabanaLabs 2.0-2073 | 3D U-Net:768x NVIDIA 2.0-2100 | RetinaNet:1280x NVIDIA 2.0-2103、2048x Google 2.0-2010 | Mask R-CNN:384x NVIDIA 2.0-2099、2048x Google 2.0-2010 | MiniGo:1792x NVIDIA 2.0-2105 | DLRM:112 倍 NVIDIA 2.0-2098

Selene——基于模块化 NVIDIA DGX SuperPOD 的内部 AI 超级计算机,由 NVIDIA A100 GPU、软件堆栈和 NVIDIA InfiniBand 网络提供支持——以最快的速度完成了八项测试中的四项的训练。

每芯片性能不是 MLPerf™ 训练的主要指标。为了计算每个芯片的性能,该图表将每个提交标准化为最快的竞争对手的最接近规模。最快的竞争对手以 1x 显示。为了确定最快的竞争对手,我们选择了大多数提交者通用的尺度。| 格式:芯片数、提交者、MLPerf-ID | ResNet-50:8x Inspur 2.0-2069、3456x Google 2.0-2011、16x Graphcore 2.0-2047、8x Intel-HabanaLabs 2.0-2073 | BERT:8x Inspur 2.0-2070、3456x Google 2.0-2011、16x Graphcore 2.0-2045、8x Intel-HabanaLabs 2.0-2073 | DLRM:8 倍浪潮 2.0-2068 | Mask R-CNN:384x NVIDIA 2.0-2099、1024x Google 2.0-2009 | RetinaNet:1280x NVIDIA 2.0-2103、2048x Google 2.0-2010 | RNN-T 8x 浪潮 2.0-2066 | 3D-UNet:8x H3C 2.0-2060,| MiniGo:8x H3C 2.0-2059

NVIDIA A100 还继续保持其单芯片领先地位,在八项测试中的六项测试中证明是最快的。

本轮共有 16 家合作伙伴使用 NVIDIA AI 平台提交了结果。它们包括华硕、百度、CASIA(中国科学院自动化研究所)、戴尔科技、富士通、技嘉、新华三、惠普企业、浪潮、KRAI、联想、微软 Azure、MosaicML、Nettrix 和 Supermicro。

大多数 OEM 合作伙伴使用 NVIDIA 认证系统 提交结果,这些服务器经过 NVIDIA 验证,可为企业部署提供出色的性能、可管理性、安全性和可扩展性。

许多模型为真正的 AI 应用程序提供动力

AI 应用程序可能需要了解用户的语音请求、对图像进行分类、提出建议并将响应作为语音消息传递。

即使是上面简单的用例也需要近 10 个模型,突出了运行每个基准测试的重要性

这些任务需要多种 AI 模型依次工作,也称为流水线。用户需要快速灵活地设计、训练、部署和优化这些模型。

这就是为什么多功能性(在 MLPerf 及更高版本中运行每个模型的能力)以及领先的性能对于将现实世界的 AI 投入生产至关重要。

借助 AI 实现投资回报

对于客户来说,数据科学和工程团队是最宝贵的资源,生产力决定了人工智能基础设施的投资回报。客户必须考虑昂贵的数据科学团队的成本,这通常在部署 AI 的总成本中起着重要作用,以及部署 AI 基础设施本身的相对较小的成本。

AI 研究人员的生产力取决于快速测试新想法的能力,这既需要训练任何模型的多功能性,也需要大规模训练这些模型所提供的速度。这就是为什么组织专注于每美元的整体生产力来确定最佳 AI平台——更全面的视图,更准确地代表了部署 AI 的真实成本。

此外,AI 基础设施的利用依赖于它的可替代性,或在单个平台上加速整个 AI 工作流程(从数据准备到训练到推理)的能力。

借助 NVIDIA AI,客户可以对整个 AI 管道使用相同的基础架构,重新调整其用途以匹配数据准备、训练和推理之间的不同需求,从而显着提高利用率,从而实现非常高的投资回报率。

而且,随着研究人员发现新的人工智能突破,支持最新的模型创新是最大化人工智能基础设施使用寿命的关键。

NVIDIA AI 提供最高的每美元生产力,因为它对每个模型都具有通用性和高性能,可扩展到任何规模并从端到端加速 AI——从数据准备到训练再到推理。

今天的结果提供了迄今为止每轮 MLPerf 训练、推理和 HPC 轮次中展示的 NVIDIA 广泛而深入的 AI 专业知识的最新演示。

3.5 年内性能提高 23 倍

自 NVIDIA 首次使用 A100 提交 MLPerf 以来的两年中,NVIDIA 平台提供了 6 倍以上的性能。对软件堆栈的持续优化有助于推动这些收益。

自 MLPerf 出现以来,NVIDIA AI 平台在基准测试中的性能在 3.5 年内提高了 23 倍——这是跨越 GPU、软件和大规模改进的全栈创新的结果。正是这种对创新的持续承诺向客户保证,今天投资并保持服务 3 到 5 年的 AI 平台将继续推进以支持最先进的技术。

此外,3 月份宣布的 NVIDIA Hopper 架构有望在未来的 MLPerf 轮次中实现另一个巨大的性能飞跃。

NVIDIA 是如何做到的

软件创新继续释放NVIDIA Ampere 架构的更多性能。

例如,CUDA Graphs——一种有助于最小化跨多个加速器运行的作业的启动开销的软件——在 NVIDIA 的提交中被广泛使用。库中的优化内核(如 cuDNN)和 DALI 中的预处理解锁了额外的加速。还对硬件、软件和网络(例如 NVIDIA Magnum IO 和 SHARP)实施了全栈改进,将一些 AI 功能卸载到网络中,以推动更高的性能,尤其是在规模上。

NVIDIA使用的所有软件都可以从 MLPerf 存储库中获得,因此每个人都可以获得同样世界级的结果。再不断将这些优化整合到NGC(GPU 应用程序软件中心)上可用的容器中,并提供 NVIDIA AI Enterprise 来交付优化的软件,并得到 NVIDIA 的全面支持。

在 A100 首次亮相两年后,NVIDIA AI 平台继续提供 MLPerf 2.0 中的最高性能,并且是唯一一个提交每个基准测试的平台。下一代 Hopper 架构有望在未来的 MLPerf 轮次中实现又一次巨大飞跃。

NIVIDIA平台适用于任何规模的每个模型和框架,并提供处理 AI 工作负载每个部分的可替代性。它可从每个主要的云和服务器制造商处获得。




SHAR NARASIMHAN