AI处理器供应商以多种方式TOPS、FLOPS、GFLOPS计算其架构的最大推理性能。 这些数字是否重要?它们中的大多数都是在实验室类型的环境中生产的,在理想的条件和工作负载下,被测设备(SUT)可以为营销目的产生最高分。另一方面,大多数工程师可能不太在乎这些理论上的可能性。他们更加关注技术如何影响其推理设备的准确性,吞吐量和/或延迟。
将计算元素与特定工作负载进行比较的行业标准基准要有用得多。例如,图像分类工程师可以识别出满足其性能要求的多个选项,然后根据功耗,成本等因素对其进行缩减。语音识别设计人员可以使用基准测试结果来分析各种处理器和内存组合,然后决定是否在本地或云端进行合成。
但是AI和ML模型,开发框架和工具的快速引入使这种比较变得复杂。如图1所示,AI技术堆栈中越来越多的选项也意味着可用于判断推理性能的排列指数增长。而且,这是在考虑针对给定系统体系结构优化模型和算法的所有方式之前。
图1. AI开发堆栈中越来越多的选项具有复杂的行业标准基准测试
毋庸置疑,开发这样一个全面的基准测试超出了大多数公司的能力或期望。即使有人有能力完成这项壮举,工程界是否真的会接受它作为“标准基准”?
MLPerf:更好的AI推理基准
更广泛地说,行业和学术界在过去几年中已经开发了多个推理基准,但是它们倾向于关注新
兴AI市场的更多细分领域。一些示例包括EEMBC的MLMark用于嵌入式图像分类和对象检测,苏黎世联邦理工学院的AI基准测试(针对Android智能手机上的计算机视觉)以及哈佛大学的Fathom基准测试,该基准测试强调了各种神经网络的吞吐量,但并不强调准确性。 在MLPerf的最新发布的Inference v0.5基准测试中可以找到对AI推理环境的更完整评估。MLPerf Inference是社区开发的测试套件,可用于衡量AI硬件,软件,系统和服务的推理性能。这是来自30多家公司的200多名工程师之间合作的结果。
如您所期望的那样,MLPerf Inference定义了一套标准化的工作负载,这些工作负载被组织为“任务”,以进行图像分类,对象检测和机器翻译用例。每个任务由与要执行的功能相关的AI模型和数据集组成,其中图像分类任务支持ResNet-50和MobileNet-v1模型,对象检测任务利用具有ResNet34或MobileNet-v1主干的SSD模型,以及使用GNMT模型的机器翻译任务。
除了这些任务,MLPerf Inference也开始偏离传统基准的规范。由于对于不同的用例,精度,延迟,吞吐量和成本的重要性具有不同的权重,因此MLPerf推理通过在移动设备,自动驾驶汽车,机器人和云的四个关键应用领域中根据质量目标对推理性能进行等级来权衡取舍。 为了在尽可能接近在这些应用程序区域中运行的实际系统的环境中有效地对任务进行评分,MLPerf Inference引入了一个Load Generator工具,该工具可以基于四种不同的情况来生成查询流量:
连续单流查询,样本大小为一,在移动设备中很常见
连续多流查询,每个流具有多个样本,这在延迟至关重要的自动驾驶汽车中会发现 服务器查询,请求随机到达的地方,例如在网络服务中,延迟也很重要 脱机查询,其中执行批处理和吞吐量是一个重要的考虑因素
Load Generator以测试精度和吞吐量(性能)的模式提供这些方案。图2描述了SUT如何接收来自Load Generator的请求,从而将样本从数据集中加载到内存中,运行基准测试并将结果返回给Load Generator。然后,使用精度脚本会验证结果。
图2. MLPerf推理基准测试依赖于负载生成器,该负载生成器根据许多实际场景查询SUT
作为基准测试的一部分,每个SUT必须执行最少数量的查询以确保统计可信度。
增强灵活性
如前所述,在AI技术市场中使用的各种框架和工具是任何推理基准测试的挑战。前面提到的另一个考虑因素是调整模型和算法以从AI推理系统中挤出最高的精度,吞吐量或最低的延迟。就后者而言,诸如量化和图像重塑之类的技术现在是常见的做法。
MLPerf Inference是语义级别的基准测试,这意味着尽管基准提供了一个特定的工作负荷(或一组工作负荷)和执行该工作的一般规则,但实际的实施取决于执行该基准的公司。公司可以优化所提供的参考模型,使用其所需的工具链,并在他们选择的硬件目标上运行基准,只要它们符合特定准则即可。
重要的是要注意,但是,这并不意味着提交公司可以拥有MLPerf模型或数据集的任何和所有自由,仍然有资格获得主要基准。MLPerf Inference基准测试分为封闭式和开放式两个部分,封闭式部分对可以使用哪种类型的优化技术以及禁止使用的其他优化技术有更严格的要求。
为了允许进行封闭式划分,尽管允许量化,但是提交者必须使用提供的模型和数据集。为了确保兼容性,封闭部门的参与者不能使用经过重新训练或修剪的模型,也不能使用已被调整为可感知基准或数据集的缓存或网络。
另一方面,开放部门旨在促进AI模型和算法的创新。执行相同的任务仍然需要提交给开放部门,但是可以更改模型类型,重新训练和修剪其模型,使用缓存等。
尽管封闭部分可能听起来有些严格,但有超过150个条目成功符合MLPerf Inference v0.5启动的条件。图3和图4展示了参赛者使用的AI技术堆栈的多样性,涵盖了从ONNX和PyTorch到TensorFlow,OpenVINO和Arm NN的几乎每种处理器架构和软件框架。
图3. DSP,FPGA,CPU,ASIC和GPU均已成功满足MLPerf Inference封闭部门的要求
图4. AI软件开发框架(如ONNX,PyTorch,TensorFlow,OpenVINO,Arm NN等)用于开发符合封闭
部门基准的MLPerf推理系统
使Guesswork脱离评估
虽然MLPerf Inference的初始版本包含有限的模型和用例集,但基准测试套件是以模块化,可伸缩的方式进行构建的。随着技术和行业的发展,MLPerf可以扩展任务,模型和应用领域,并且该组织已经计划这样做。
作为当前可用的最真实的AI推理性能衡量标准,最新的AI推理基准显然很重要。但是随着它的成熟并吸引更多的提交,它也将成为成功部署的技术堆栈的晴雨表,并为新实施提供试验场。
为什么不让这项技术自己说话呢?毕竟,更少的猜测意味着更强大的解决方案和更快的上市时间。
因篇幅问题不能全部显示,请点此查看更多更全内容