作者 | Shashank Prasanna
翻译 | 胡燕君
CPU等通用处理器牺牲低能耗换取通用性,AI加速器等专用处理器则牺牲通用性换取低能耗。
如上图所示,最具通用性的是CPU,可以运行任意代码。专用芯片可执行的任务,CPU也能执行,如图像处理、语音处理、机器学习等。然而,CPU的性能和能效都比较低。
硬件和软件的协同可以带来更好的性能和更高的能效。
训练后量化(PTQ):使用一个训练好的、以FP32格式计算的模型,确定比例因子,然后将FP32映射为INT8。确定比例因子的方法是:TensorRT衡量每个神经网络层中激活函数输出的分布,然后找到一个使参考分布(reference distribution)和量化分布(quantized distribution)之间信息损失(KL散度)最小的比例因子。
量化感知训练(QAT):在训练中计算比例因子,使模型可以适应信息损失并将信息损失降到最低。
头图源自brookhaven, Pixabay