神秘的AI硬件” Versal”

2018年10月，FPGA制造商Xilinx宣布了不同于传统硬件的创新平台" ACAP"。本文总结了产品组" Versal"。

简介

NTT DoCoMo服务创新部2018年出现日历第24天的文章。

大致来说是

宣布了称为" ACAP"的硬件，例如CPU，FPGA和ASIC的集合
从2019年开始作为" Versal"系列产品发售。
适用于各种应用程序，例如机器学习，自动驾驶，5G通信等。

目标人

对与机器学习相关的处理器技术(例如GPU和TPU)感兴趣
2020年后对计算机感兴趣
一个有意识的人，因为他在圣诞节前夕有太多的空闲时间而来到齐塔

要做的事情

ACAP和Versal的介绍
与传统FPGA的比较
与TPU / GPU的比较

什么是ACAP

发明了FPGA和硬件可编程SoC的赛灵思(Xilinx)推出了新产品类别，称为ACAP(自适应计算加速平台)。适应性强的Xilinx芯片使用先进的软件和工具在从消费设备到汽车和云的广泛行业和技术中进行创新。
Xilinx自适应智能

已将称为ACAP的新硬件添加到常规硬件类别中，例如CPU和GPU。单击此处以概述ACAP的体系结构。

3引擎

ACAP通过NoC连接到以下三个引擎。

标量引擎
- 由ARM处理器组成
自适应引擎
- 由最新的可编程逻辑和存储单元组成
  - 可编程逻辑：用户设计的集成电路
  - 还支持与传统设计的兼容性
- 可以根据任务动态优化内存配置
智能引擎
- 由VLIW？SIMD处理器和内存组成
- 预先优化的AI引擎用于矩阵运算

总之，

<表格>

类型

组件

电路设计

用法

处理单位

<身体>

标量引擎

ARM处理器

固定

通用

顺序处理

适应性引擎

可编程逻辑，存储单元

可重新配置

域专业化

并行处理

智能引擎

VLIW / SIMD处理器，内存

固定

域专业化

并行处理

CPU多功能性，FPGA灵活性和ASIC专业知识。

ACAP是结合了这些内容的硬件。

什么是Versal

业界首款ACAP(自适应计算加速平台)Versal设备将自适应处理和加速器引擎与可编程逻辑和数据中心，汽车，5G无线和有线通信中的可配置连接性相结合，可实现定制的异构硬解决方案，以实现广泛的防御应用程序。 ACAP器件具有单个集成的硅主机互连外壳以及与众不同的功能，例如AI和DSP智能引擎，自适应引擎和标量引擎，其每瓦性能优于传统的FPGA和GPU。
Versal
src=

Versal是称为ACAP的设备的产品系列^{1，其名称来源于" Versatile(Universal)+ Universal"。}

将部署以下6个系列，涵盖从边缘到云的所有用途。

<表格>

系列名称

主要用途

功能

<身体>

Versal AI Core

数据中心，无线通信

最高性能的算术引擎

Versal AI Edge

汽车(ADAS)，无线通信，广播，航空航天？国防

节能算术处理引擎(5W或更小)

Versal AI RF

无线通信，航空航天防御，有线通信

直接无线传感器和软件定义错误校正

Versal Prime

数据中心，有线通信

带外壳的基本平台

Versal Premium

有线通信，测试测量

112G碎片，包括600G IP 高级平台

Versal HBM

数据中心，有线通信，测试测量

具有HBM的高级平台

顾名思义，它似乎已在从汽车边缘到云数据中心的广泛应用中使用。

截至2018年，尚未向公众提供，它将从2019年下半年开始按顺序出售。

开发环境

Versal开发环境？开发流程如下。

src=
src=

提到Python是一种开发语言，但是只能将用Python编写的Tensorflow和Mxnet模型转换为Versal，但这并不意味着您可以使用Python自由地设计电路。

那些了解高级综合(C / C)和VerilogHDL / VHDL的人很可能能够像以前一样使用Vivado进行开发。

比较(1)与常规FPGA

的区别

ACAP与FPGA向上兼容。从下面的幻灯片^{2中可以看到，它已从FPGA演变为SoC系列，并于2018年达到ACAP。}

スクリーンショット 2018-11-22 2.15.25.png

<表格>

年龄

设备

主要功能？更新

<身体>

1980的

FPGA

FPGA历史记录

2011 ^{3

SoC(片上系统)^{4

ARM处理器集成

2015
MPSoC(多处理SoC)
实时处理吗？图形功能

2017
RFSoC(射频SoC)
高频数据转换器集成

2019
ACAP
AI引擎集成

ARM处理器是从SoC设备(例如Zynq)集成而成的，并且将继续添加用于网络和图像处理的功能。随着这种发展，可以看出ACAP的Adaptable和Scalar引擎的功能自2018年起就已经存在。
ACAP与Inteligent Engines中的常规ACAP显着不同。

比较(2)与其他硬件的差异
在2018年，新的硬件如NVIDIA" Turing"和Google" TPU3.0"问世。

让我们比较一下这些。
<表格>

Versal
TPU3.0
图灵/伏特

<身体>

类型
ACAP
ASIC
GPU

公告
2018/10
2018/5
2018/8

概述

编译器库
Vivado
TensorFlow XLA
CUDA

开发语言
C / C，HDL ...
Python，C，Go ...
C / C ...

云提供商
未定
GCP
AWS / GCP / Azure / ...

云
Versal AI Core
云TPU
特斯拉T4

边
Versal AI Edge
边缘TPU
Jetson Xavier

以这种方式进行比较

每个设备都有专门用于阵列状矩阵运算的部件

开发很容易，因为可以直接从TensorFlow调用TPU

如果深度学习框架支持，则Versal和Turing均可与^{5 Python一起使用。}

有两个战场，云与边缘

如果在云中提供Versal，则AWS和阿里云有望

已经安装了FPGA，例如Amazon EC2 F1实例

Google一次提供从软件到硬件的GCP / TensorFlow / TPU和服务。

NVIDIA提供了一个称为NVIDIA GPU CLOUD的框架，该框架利用了容器

您可以看到

。

深度学习硬件之战
在云上的深度学习领域，竞争尤其激烈。
特别是对于推理应用程序^{6，正在引入各种处理器，例如CPU，TPU，GPU和FPGA，并且每个公司都在竞争。}
在这里，让我们比较专门用于矩阵运算的单位。

?? Versal的" AI引擎"
细节未知，但似乎布置大量AI引擎(两个一组)将加快矩阵运算的速度。

当前，数据中心中使用的FPGA" Virtex"提供类似于TPU的功能，称为xDNN。

Xilinx /毫升套件：Xilinx ML Suite入门

?? TPU心脏"收缩阵列"
TPU是最初由Google的硬件工程师开发的ASIC。 TPU的矩阵运算由以下称为脉动阵列的算术单元执行。您可以一眼看出数据已处理成流。

顺便说一句，由于tpudemomo.com的动画易于理解，因此必须对TPU进行说明。
日本Google Cloud Platform官方博客：一种使用Google的Tensor处理单元(TPU)使机器学习速度提高30倍的机制

??图灵"张量芯"
Turing / Volta的核心是称为TensorCore的独特矩阵运算单元。 TensorCore在一周期内执行4x4矩阵运算(FP16)。与TPU和Versal一样，如果数据类型的精度设置为INT8或INT4，则甚至可以实现更高的速度。

NVIDIA GPU也已广泛部署，从边缘设备到云数据中心。

?? AWS ASIC" Inferentia"
当我写这篇文章时，消息传来了。

供参考▼[最新消息] AWS宣布了自己的机器学习处理器" AWS Inferentia"。专门从事高速推理处理。 A…https://t.co/5g6hJveYOJ#deeplearning
—人工智能，机器学习新闻学院(@AI_m_lab)2018年11月28日}}