NVIDIA 与合作伙伴在 MLPerf 中展示了领先的 AI 性能和多功能性

根据6月29日发布的 MLPerf 基准，NVIDIA 及其合作伙伴继续提供最佳的整体 AI 训练性能和所有基准中最多的提交，其中 90% 的条目来自生态系统。

NVIDIA AI 平台涵盖了 MLPerf Training 2.0 回合中的所有八个基准测试，突出了其领先的多功能性。

没有其他加速器能够运行所有基准，这些基准代表了流行的 AI 用例，包括语音识别、自然语言处理、推荐系统、对象检测、图像分类等。自 2018 年 12 月提交第一轮 MLPerf（一套行业标准的 AI 基准测试）以来，NVIDIA 一直这样做。

领先的基准结果，可用性

在连续第四次提交 MLPerf 训练时，基于 NVIDIA Ampere 架构的NVIDIA A100 Tensor Core GPU继续表现出色。

每个提交者的平台在每个网络上训练的最快时间 | 格式：芯片数、提交者、MLPerf-ID | RNN-T：1536x NVIDIA 2.0-2104 | BERT：4096x NVIDIA 2.0-2106、4096x Google 2.0-2012、256x Graphcore 2.0-2053、8x Intel-HabanaLabs 2.0-2073 | RN-50：4216x NVIDIA 2.0-2107、4096x Google 2.0-2012、256x Graphcore 2.0-2054、8x Intel-HabanaLabs 2.0-2073 | 3D U-Net：768x NVIDIA 2.0-2100 | RetinaNet：1280x NVIDIA 2.0-2103、2048x Google 2.0-2010 | Mask R-CNN：384x NVIDIA 2.0-2099、2048x Google 2.0-2010 | MiniGo：1792x NVIDIA 2.0-2105 | DLRM：112 倍 NVIDIA 2.0-2098

Selene——基于模块化 NVIDIA DGX SuperPOD 的内部 AI 超级计算机，由 NVIDIA A100 GPU、软件堆栈和 NVIDIA InfiniBand 网络提供支持——以最快的速度完成了八项测试中的四项的训练。

每芯片性能不是 MLPerf™ 训练的主要指标。为了计算每个芯片的性能，该图表将每个提交标准化为最快的竞争对手的最接近规模。最快的竞争对手以 1x 显示。为了确定最快的竞争对手，我们选择了大多数提交者通用的尺度。| 格式：芯片数、提交者、MLPerf-ID | ResNet-50：8x Inspur 2.0-2069、3456x Google 2.0-2011、16x Graphcore 2.0-2047、8x Intel-HabanaLabs 2.0-2073 | BERT：8x Inspur 2.0-2070、3456x Google 2.0-2011、16x Graphcore 2.0-2045、8x Intel-HabanaLabs 2.0-2073 | DLRM：8 倍浪潮 2.0-2068 | Mask R-CNN：384x NVIDIA 2.0-2099、1024x Google 2.0-2009 | RetinaNet：1280x NVIDIA 2.0-2103、2048x Google 2.0-2010 | RNN-T 8x 浪潮 2.0-2066 | 3D-UNet：8x H3C 2.0-2060，| MiniGo：8x H3C 2.0-2059

NVIDIA A100 还继续保持其单芯片领先地位，在八项测试中的六项测试中证明是最快的。

本轮共有 16 家合作伙伴使用 NVIDIA AI 平台提交了结果。它们包括华硕、百度、CASIA（中国科学院自动化研究所）、戴尔科技、富士通、技嘉、新华三、惠普企业、浪潮、KRAI、联想、微软 Azure、MosaicML、Nettrix 和 Supermicro。

大多数 OEM 合作伙伴使用 NVIDIA 认证系统提交结果，这些服务器经过 NVIDIA 验证，可为企业部署提供出色的性能、可管理性、安全性和可扩展性。

许多模型为真正的 AI 应用程序提供动力

AI 应用程序可能需要了解用户的语音请求、对图像进行分类、提出建议并将响应作为语音消息传递。

即使是上面简单的用例也需要近 10 个模型，突出了运行每个基准测试的重要性

这些任务需要多种 AI 模型依次工作，也称为流水线。用户需要快速灵活地设计、训练、部署和优化这些模型。

这就是为什么多功能性（在 MLPerf 及更高版本中运行每个模型的能力）以及领先的性能对于将现实世界的 AI 投入生产至关重要。

借助 AI 实现投资回报

对于客户来说，数据科学和工程团队是最宝贵的资源，生产力决定了人工智能基础设施的投资回报。客户必须考虑昂贵的数据科学团队的成本，这通常在部署 AI 的总成本中起着重要作用，以及部署 AI 基础设施本身的相对较小的成本。

AI 研究人员的生产力取决于快速测试新想法的能力，这既需要训练任何模型的多功能性，也需要大规模训练这些模型所提供的速度。这就是为什么组织专注于每美元的整体生产力来确定最佳 AI平台——更全面的视图，更准确地代表了部署 AI 的真实成本。

此外，AI 基础设施的利用依赖于它的可替代性，或在单个平台上加速整个 AI 工作流程（从数据准备到训练到推理）的能力。

借助 NVIDIA AI，客户可以对整个 AI 管道使用相同的基础架构，重新调整其用途以匹配数据准备、训练和推理之间的不同需求，从而显着提高利用率，从而实现非常高的投资回报率。

而且，随着研究人员发现新的人工智能突破，支持最新的模型创新是最大化人工智能基础设施使用寿命的关键。

NVIDIA AI 提供最高的每美元生产力，因为它对每个模型都具有通用性和高性能，可扩展到任何规模并从端到端加速 AI——从数据准备到训练再到推理。

今天的结果提供了迄今为止每轮 MLPerf 训练、推理和 HPC 轮次中展示的 NVIDIA 广泛而深入的 AI 专业知识的最新演示。

3.5 年内性能提高 23 倍

自 NVIDIA 首次使用 A100 提交 MLPerf 以来的两年中，NVIDIA 平台提供了 6 倍以上的性能。对软件堆栈的持续优化有助于推动这些收益。

自 MLPerf 出现以来，NVIDIA AI 平台在基准测试中的性能在 3.5 年内提高了 23 倍——这是跨越 GPU、软件和大规模改进的全栈创新的结果。正是这种对创新的持续承诺向客户保证，今天投资并保持服务 3 到 5 年的 AI 平台将继续推进以支持最先进的技术。

此外，3 月份宣布的 NVIDIA Hopper 架构有望在未来的 MLPerf 轮次中实现另一个巨大的性能飞跃。

NVIDIA 是如何做到的

软件创新继续释放NVIDIA Ampere 架构的更多性能。

例如，CUDA Graphs——一种有助于最小化跨多个加速器运行的作业的启动开销的软件——在 NVIDIA 的提交中被广泛使用。库中的优化内核（如 cuDNN）和 DALI 中的预处理解锁了额外的加速。还对硬件、软件和网络（例如 NVIDIA Magnum IO 和 SHARP）实施了全栈改进，将一些 AI 功能卸载到网络中，以推动更高的性能，尤其是在规模上。

NVIDIA使用的所有软件都可以从 MLPerf 存储库中获得，因此每个人都可以获得同样世界级的结果。再不断将这些优化整合到NGC（GPU 应用程序软件中心）上可用的容器中，并提供 NVIDIA AI Enterprise 来交付优化的软件，并得到 NVIDIA 的全面支持。

在 A100 首次亮相两年后，NVIDIA AI 平台继续提供 MLPerf 2.0 中的最高性能，并且是唯一一个提交每个基准测试的平台。下一代 Hopper 架构有望在未来的 MLPerf 轮次中实现又一次巨大飞跃。

NIVIDIA平台适用于任何规模的每个模型和框架，并提供处理 AI 工作负载每个部分的可替代性。它可从每个主要的云和服务器制造商处获得。

SHAR NARASIMHAN

2022-11-27
达人秀上的人工智能：超现实的头像推动初创公司进入“美国达人”总决赛
2022-11-27
小马与三一重工开发自动驾驶卡车
2022-11-27
AI补货机器人,推向数百家日本便利店
2022-11-27
模范教师：初创公司通过机器学习让学校更智能

商务合作：business@bfet.net

相关链接

联系我们