您好,欢迎光临中国电子应用网![登录] [免费注册] 返回首页 | | 网站地图 | 反馈 | 收藏
在应用中实践
在实践中成长
  • 应用
  • 专题
  • 产品
  • 新闻
  • 展会
  • 活动
  • 博客
  • 招聘
当前位置:中国电子应用网 > 新闻中心 > 正文

以不变应万变,eFPGA为可编程世界添彩

2018年11月29日19:45:49 本网站 我要评论(2)字号:T | T | T



2019年,5G、人工智能、超级计算和大数据等新一代信息技术将出现新的发展机遇,Achronix Semiconductor Corporation在北京举行了Achronix Speedcore7t新产品发布会。Achronix市场营销副总裁Steve Mensor先生介绍了该公司新推出的领先业界的新一代FPGA芯片产品及解决方案,以及该公司的最新中国市场进展和策略,并接受了媒体采访。

计算架构下一步怎么走?
Steve Mensor认为,时至今日,摩尔定律正在放缓,处理器性能的提升已越来越困难。要满足不断增加的计算(远程教育、远程教育、企业管理)需求,就需要针对特定应用和数据集的架构。他说,提高处理器能源性价比的唯一途径是专业化。未来微处理器将包括几个特定于域的内核,这些内核只执行一类计算,而它们的性能明显优于通用型内核。
那么,高效数据加速架构主要应用于计算、数据传输和存储带宽,目标是实现每瓦特最高性能和性价比。其目标市场及其需求包括以下几个方面:
计算加速:典型应用包括人工智能/机器学习(AI/ML)应用、安全性、压缩/解压、基因组学、实时视频转码、区块链,要求最高性能、低功耗、低成本;
边缘计算:典型应用有IoT网关聚合与协议汇聚、高带宽传感器的数据提取、基于人工智能的目标检测、基于人工智能的异常检测,要求最小功率计算;
计算存储:典型应用有压缩/解压、非结构化数据匹配、数据库加速、重复删除,要求接近存储的低功耗和低成本计算;
5G基础设施:典型应用是适应变化的前传协议标准、基带和分裂L1加速、基于人工智能的波束成型、放大器预失真、移动边缘计算,要求低功耗高性能的可编程硬件;
网络加速/智能网络:典型应用有可编程分组处理、加密/解密、压缩/解压、网络遥测、网络函数虚拟化加速,要求用于CPU卸载的高线速加速器;
自主驾驶:典型应用是AI/ML、传感器融合、安全性,要求低功耗和低成本的硬件加速器。
这些应用的相同要求是高性能、低功耗、可编程硬件加速器。
Steve Mensor强调,在我们的生活中AI无处不在,教育、工业4.0、供电、医疗、政府、金融、农业、自主驾驶、游戏、科学、智慧城市、语音识别、安全、智能家居、运输,都离不开AI。今天,我们正处于AI/ML应用的新的增长阶段,正在从以智能手机为代表的移动/互联网时代进入一个AI时代,未来半导体行业的营收也将从几十亿美元增长到500亿美元。

 


为什么选择FPGA?
Steve Mensor表示,固定和无线网络带宽的急剧增加,加上处理能力向边缘等进行重新分配,以及数十亿物联网设备的出现,将给传统网络和计算基础设施带来压力。这种新的处理范式意味着每秒将有数十亿到数万亿次的运算。传统云和企业数据中心计算资源和通信基础设施无法跟上数据速率的指数级增长、快速变化的安全协议、以及许多新的网络和连接要求。
传统的多核CPU和SoC无法在没有辅助的情况下独立满足这些要求,因而它们需要硬件加速器,通常是可重新编程的硬件加速器,用来预处理和卸载计算,以便提高系统的整体计算性能,解决带宽爆炸问题。
以AI/ML应用为例,它需要一种适用于各种适应这个可编程世界的可编程硬件加速手段。可以做到可编程硬件加速的选项包括CPU、GPU、FPGA和ASIC。人工智能计算、5G等为什么既不用CPU,也不用ASIC,而要用FPGA呢?理由是CPU灵活性还可以,但是效率比较低;GPU主要用于加快图形处理速度;ASIC针对性强,效率也高,但是灵活性不足,显而易见,剩下的选项只有FPGA了。它可以兼顾AI/ML应用的灵活性和效率,下图显示了FPGA的一些优势。

 

但是,FPGA是大型逻辑门阵列,也就是大规模可编程芯片,开发起来有一定难度,成本也比较高。

eFPGA应运而生
新出现的嵌入式FPGA(eFPGA)是指将一个或多个FPGA以IP的形式嵌入ASIC、ASSP或SoC等芯片中。eFPGA是一种数字可重构结构,由可编程互连中的可编程逻辑组成,通常表现为矩形阵列,数据输入和输出位于边缘周围。
Steve Mensor告诉记者,今天,经过优化的eFPGA已经可以满足AI/ML和硬件加速应用的高性能需求。采用新一代Speedcore Gen4架构的Speedcore 7t在TSMC 7nm上构建,可以提供最佳PPA(性能、功耗、面积)效果,有助于提升计算、数据传输和存储带宽的性能。
据介绍,新的Speedcore Gen4架构实现了多项创新,其中查找表的所有方面都得到了增强,以支持使用最少的资源来实现各种功能,从而可缩减面积和功耗并提高性能。其中的更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接。
其中的路由架构也采用一种独立的专用总线路由结构得到了增强。在该路由结构中还有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络。这为高带宽和低延迟应用提供了最佳的解决方案,并在业界首次实现了将网络优化应用于FPGA互连。

 

与前一代Speedcore eFPGA产品相比,Speedcore Gen4的性能提高了60%、功耗降低了50%、芯片面积缩小了65%。新的机器学习处理器(MLP)单元模块可为人工智能/机器学习(AI/ML)应用提供高出300%的性能。

 

主打人工智能/机器学习
除了计算和网络基础设施的通用要求之外,人工智能/机器学习还对高密度和针对性计算产生了显著增加的需求。与以前的Achronix FPGA产品相比,新的Achronix机器学习处理器利用了人工智能/机器学习处理的特定属性,并将这些应用的性能提高了300%。这是通过多种架构性创新来实现的,这些创新可以同时提高每个时钟周期的性能和操作次数。
新的Achronix机器学习处理器是一个完整的人工智能/机器学习计算引擎,支持定点和多个浮点数格式和精度。每个机器学习处理器包括一个循环寄存器文件(Cyclical Register File),它用来存储重用的权重或数据。各个机器学习处理器与相邻的机器学习处理器单元模块和更大的存储单元模块紧密耦合,以提供最高的处理性能、每秒最高的操作次数和最低的功率分集。这些机器学习处理器支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。用户可以通过为其应用选择最佳精度来实现精度和性能的均衡。
为了补充机器学习处理器并提高人工智能/机器学习的计算密度,Speedcore Gen4查找表(LUT)可以实现比任何独立FPGA芯片产品高出两倍的乘法器。领先的独立FPGA芯片在21个查找表可以中实现6x6乘法器,而Speedcore Gen4仅需在11个LUT中就可实现相同的功能,并可在1 GHz的速率上工作。
Steve Mensor最后表示,Achronix正在使用经过验证的同样方法为客户提供最新的Speedcore Gen4 eFPGA技术,满足他们将eFPGA IP的所有优势和灵活性与增强的人工智能/机器学习功能相结合的愿望,而这种最前沿的功能得益于最新机器学习处理器单元模块和台积电(TSMC)最先进的7nm工艺技术。

www.achronix.com

相关阅读:

    没有相关新闻...
网友评论:已有2条评论 点击查看
登录 (请登录发言,并遵守相关规定)
如果您对新闻频道有任何意见或建议,请到交流平台反馈。【反馈意见】
关于我们 | 联系我们 | 本站动态 | 广告服务 | 欢迎投稿 | 友情链接 | 法律声明
Copyright (c) 2008-2018 01ea.com.All rights reserved.
电子应用网 京ICP备12009123号 京公网安备110105003345号