AI芯片:指令集架构处理器Diannao分析

7 篇文章 8 订阅
订阅专栏

DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning

一、早期类脑架构(直接映射方案)

  如图1所示,ASIC芯片最早的设计思路是将神经元和突触直接平铺到硬件芯片上,神经元映射为逻辑单元,突触映射为锁存器或者RAM。这种设计方法最早可以追溯到1900s的Intel ETANN芯片(浅层神经网络硬件处理器)。这种神经形态架构可以在保持低功耗和紧凑尺寸的基础上,实现一个类脑架构,使得ASIC芯片可以应用于计算密集型,实时性要求高的实际任务。类脑架构与传统的冯诺依曼结构相比,能够将计算(神经元)和存储(突触)紧耦合在一起。这使得芯片能够以自然并行和事件驱动的方式实现高效的扇出(通信),从而达到超低功耗。
  目前小规模的网络可以采用上述直接映射的方法,能够实现高速低功耗的目标。但是如果采用上述方法实现大规模网络,是不可接受的。如图2所示,当并行乘法单元为16*16时,芯片面积小于0.71mm2;当并行乘法单元为32*32时,芯片面积为2.66mm2。如果按照上述方法实现一个并行乘法单元为1024*1024的硬件单元时,会使得能耗,芯片面积大幅提升。这对于实际应用来说是不可接受的。

pipeline pipeline

二、Diannao架构思路

  为了能够实现大规模深度学习网络的专用硬件执行。2014年,Diannao架构被提出了。Diannao这篇文章是率先探索机器学习加速设计的先驱文章之一,开创了专用处理器实现深度学习的先河。Diannnao这篇文章在65nm工艺,0.98Ghz的频率,面积为3.02mm2的ASIC芯片上针对机器学习算法(DNN,CNN)实现了一个高性能的Diannao处理器架构,相比于128bit 2GHz的4发射SIMD处理器,达到了117.87x的加速比,21.08x能耗比。
  Diannao架构主要包含控制、计算和存储三部分。与上面直接映射的方法不同,Diannao架构中控制、计算和存储都是彼此分离的模块,模块化设计思想,可以从图4清楚的看到这一点。Diannao架构的设计很大程度上参考了CPU的设计思想,都是采用指令集控制执行的。目前深度学习网络参数量非常大,如果想要一次性将整个网络全部映射到整个芯片上执行,是不现实的。由此,Diannao架构采用了分时复用硬件单元的方法,每次执行网络一部分。

pipeline pipeline

下面我们列举分析一下Diannao这篇文章的设计细节:
(1)网络层访存特性:文章主要分析了计算密集型的卷积层和通信密集型的全连接层优化的循环展开方法。对于控制流的专用处理器来说,这里是非常有重要的。片上缓存区一般大小为100KB~300KB之间,无法将整个网络参数全部放入。由此尽可能的复用片上缓存区的数据,减少片外访存消耗是很有意义的。
(2)NFU计算单元:NFU计算单元划分为3个阶段,NFU-1是16x16的并行乘法单元;NFU-2是大小为16x15的加法树以及用于池化层的移位器;NFU-3是激活函数处理,用线性函数拟合实现的。不同网络层的执行会进入不同阶段,例如:卷积层会进入NFU1,2,3三个阶段,池化层只需要进入NFU-2阶段执行。NFU的3个阶段在实际调度执行时,会被继续拆分为8段,以流水线形式执行,使得最终其时钟周期为1.02ns,频率为0.98GHz。
(3)专用存储设计
a 利用Scratchpad存储替代Cache存储,减少了访问冲突和复杂的匹配查找过程;
b 输入存储(NBin),权值存储(SB),输出存储(NBout)各自单独实现,方便设置独有的数据传输宽度,减少访存冲突。
c 针对输出数据,配备了的专用寄存器和临时缓存用于存储产生的临时数据。
(4)数据预取:每个存储单元配备有一个DMA和一个指令缓存FIFO。这使得计算过程和数据传输过程解耦。这里的数据预期是指只要前一条指令使用完了传输的数据,后一条指令即可开启数据传输,不需要等待前一条指令的计算完成,从而达到数据预取的效果。
(5)16bit定点数(6 for integer+10 for fractional):保证网络精度的同时,降低硬件单元消耗。
(6)指令集:这里指令集粒度与CPU的指令集粒度相当,是load,store,mul,add粒度的。

实验分析
1.加速比
  作者选取了4发射超标量128bit的SIMD处理器作为对比,该处理器理论上每个周期能执行8次16bit的定点数运算。Diannao架构每周期可以执行496次(16x16+16x15=496)16bit的定点数操作。仅仅从运算次数角度来看,Diannao相比SIMD,有496/8=62x的加速比,但实际测量时能够达到117.87x的加速比。也就是说实际加速比高于理论操作数加速比,作者将其归结于两个原因:(1)预取和重用—从大小网络层加速比实验结果分析可知,大网络层预取和重用更好。 (2)调度开销。 总结来说缓存结构设计对于Diannao性能起到了重要的作用。
2.能耗
  在能耗上,Diannao相比于SIMD处理器,节省了21.08x。虽然前面一些研究中能耗比可以节省达到500x,974x,这是因为它们没有考虑访存的能耗,仅考虑了运算单元上的能耗,间接说明片外访存能耗影响达到10x(图5是在45nm CMOS上测量的不同操作的能耗,可以看出片外访存能耗远高于运算和片上访存)。这也给未来的研究指出了一个方向。比如说在Dadiannao中,取消了片外DRAM访存过程,而是将数据全部存储在多核片上的eDRAM缓存中;在Shidiannao中,通过将处理器放置于感知采集装置附近,取消了DRAM访存过程。

pipeline

Finished.

寒武纪 DianNao: Machine-Learning
01-14
DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning
AI加速器设计资料合集.zip
08-18
各大公司关于AI加速器设计的进展信息,包括:Google TPU, Microsoft Brainwave, 寒武纪 DIANNAO, Baidu XPU, Amazon echo, Apple A11,
CPU、GPU、FPGA、ASIC等AI芯片特性及对比
maopig的专栏
10-12 1万+
1、前言 目前,智能驾驶领域在处理深度学习AI算法方面,主要采用GPU、FPGA 等适合并行计算的通用芯片来实现加速。同时有部分芯片企业开始设计专门用于AI算法的ASIC专用芯片,比如谷歌TPU、地平线BPU等。在智能驾驶产业应用没有大规模兴起和批量投放之前,使用GPU、FPGA等已有的通用芯片可以避免专门研发定制芯片(ASIC)的高投入和高风险,但是,由于这类通用芯片设计初衷并非专门针对深度学习,因而存在性能不足、功耗过高等方面的问题。这些问题随着自动驾驶行业应用规模的扩大将会日益突出。 本文从芯..
寒武纪的DianNao论文
07-17
这是寒武纪的第二篇论文DianNao,是我从google上下载的原文
寒武纪DianNao系列论文
03-28
寒武纪系列论文原文:DianNao、DaDianNao、ShiDianNao、PuDianNao、Cambricon等
AI芯片:寒武纪NPU设计分析DianNao
luoganttcc的博客
01-31 1482
其实,CPU是为处理各种不同任务设计的,这就造成CPU内部有许多功能逻辑单元,应该说能用到的常用计算功能,比如定浮点的加减乘除/开方/求倒等常规操作,CPU内部都实现了,但是通常同一种功能只会有一套逻辑,最多4套,比如最常用的32位定浮点乘法计算,其他的计算,可能就只有一套,这就造成CPU可以执行各种复杂的计算,但是针对某种类型的计算任务,就不那么高效了。因为成本原因,芯片面积是有限的,在有限的面积上,只能放置有限的资源,而且,大部分时候,很多计算资源的使用率并不高,这也是一种浪费。
AI芯片学习小结1-DianNao
qq_35989942的博客
04-14 943
AI芯片学习小结1-DianNao 文章:DianNao: a small-footprint high-throughput accelerator for ubiquitous machine-learning 发表时间:2014
AI芯片的基础
weixin_39326879的博客
06-27 764
简言之,就是为了AI算法的运行而专门设计的芯片
AI芯片架构体系综述:芯片类型CPU\GPU\FPGA\ASIC以及指令集CSIS\RISC介绍
最新发布
Garvin的专栏
11-05 2726
因为精简的设计,RISC在优化编译方面有很大的空间,目前深度学习主要计算都在RISC指令集的英伟达GPU芯片,所以目前在计算的编译优化方向,有很大空间,也是行业聚焦的技术方向。RISC-V是近些年非常流行的指令架构,RISC-V与 ARM 和 MIPS 最大的差别还是在于其为 RISC-V 基金会进行标准的制定和维护工作而非商业公司,任何人可以无偿使用该指令集开发自己的 CPU ,或者往自己已有的芯片中集成开源免费的 RISC-V IP Core,这是比较吸引电子设备厂商的重要原因。
AI工具(ChatGPT)常用指令,持续更新...
热门推荐
qwert
03-22 1万+
例如:用列点的方式总结出这篇文章的5个重点:例如:用列点的方式总结出 [3] 个 [人工智能算法领域]的 知识重点五、简历与自传例:教我python for循环,最后给我一个测验八、学习英语1、用 [中文/英文] 解释以下英文单字:[填入一个或多个单字]。请用表格的方式呈现,并且表格内须包含单字、词性、解释与例句。例:用中文解释以下英文单字:apple, orange, doctor, car, run。请用表格的方式呈现,并且表格内须包含单字、词性、解释与例句。
论文DianNao总结(重点在后半段) A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning
春江花月夜
08-15 4907
参考论文: 1、https://blog.csdn.net/u013108511/article/details/78577405 2、https://yiweifen.com/v-1-337993.html 3、https://blog.csdn.net/evolone/article/details/80765094 4、http://baijiahao.baidu.com/s...
文献阅读笔记(1)JSSC-清华Sticker ai芯片
chang_sirui的博客
01-14 1666
文章为:Z. Yuan et al., “STICKER: An Energy-Efficient Multi-Sparsity Compatible Accelerator for Convolutional Neural Networks in 65-nm CMOS,” in IEEE Journal of Solid-State Circuits, vol. 55, no. 2, pp. 465-477, Feb. 2020, doi: 10.1109/JSSC.2019.2946771. 引言&.
【小白设计AI芯片】定义指令集(一)
baidu_23941513的博客
09-10 112
上面提到了深度神经网络的常用操作,也就是我们设计一款AI处理器要支持的功能。比如我们要设计一个NPU(Neuron Processing Unit),必然要支持Conv、MatMul、Gemm以及FullyConnect这些矩阵运算,因为这些操作是CNN或Transformer中最费时、对计算资源要求最高的运算,而且深度神经网络都是基于这些操作实现,所以NPU上支持这些运算收益比较明确。类似的还有Pooling类操作。
AI指令百科全书:1000条AI指令,一次性全给你!
01101
09-27 3062
我需要一个有影响力的营销活动大纲,让我的[理想客户角色]与[有影响力的类型]的[特定类型的内容]互动,他们可以以引人注目和真实的方式展示我们[产品/服务]的独特功能和优势”“我需要一个有影响力的营销活动大纲,让我的[理想客户角色]与[有影响力的类型]的[特定类型的内容]互动,他们可以以有趣和创造性的方式展示我们[产品/服务]的独特功能和优势”
2014:DianNao a small-footprint high-throughput accelerator for ubiquitous machine-learning
fgh123的博客
11-25 437
文章目录Abstract下一段第三段1. Introduction第二段 我是在这个网址上找到这篇文章的! https://dl.acm.org/doi/10.1145/2654822.2541967   属于 Abstract ML pervasive in a broad range of domains, in a broad range of systems (embedded to data centers)   At the same time, a small set of m
深度神经网络处理器--DianNao系列
yy171310916的博客
10-19 978
全世界都在学中国话 一次看到这些 paper的名字,是在一个冰天雪地的,美国东北部偏僻的一个大学城里。听到印度女教授努力的发出‘dian nao’的发音,我心中不禁有一种温暖而自豪的感觉。我们花了整整半节课研究了diannao等一系列的产品。毕竟这一系列paper可以说是开启了AI加速器的先河了。之后才有了如今AI Accelerator百花齐放的局面,真可谓是前人‘挖坑’,后人‘灌水’。总而言之,这一系列产品尤其是Dian Nao 和Da Dian Nao在AI加速器发展过程中起到了举足轻重的作用。异国他
AI芯片CAISA】
weixin_42483745的博客
07-09 760
面向边缘视觉分析的数据流AI芯片CAISA是鲲云科技自主研发的专为人工智能图像提供高性能计算加速的AI芯片产品,是全球首个量产的数据流AI芯片。CAISA芯片基于自主研发的定制数据流架构,不同于传统的冯诺依曼的指令架构,为AI计算平台提出了一种新的架构实现方式,通过数据流流动次序来控制计算顺序,打破传统芯片架构下的实测算力瓶颈。经工信部下属中国信息通信研究院AIIA第三方评测,CAISA芯片利用效率可达95.43%,并参与由中国信通院牵头编制的全球首个AI 芯片基准测试国际标准ITU-T F.748.11
import numpy as np import pandas as pd import matplotlib.pyplot as plt diannao= pd.read_csv('E:\333\computer.csv') diannao.head()这段代码有问题吗,问题在哪
06-07
这段代码在语法上没有问题,但是可能会在文件读取过程中出现问题,具体原因取决于读取的CSV文件是否存在和正确的路径是否已指定。如果文件不存在或路径错误,则会引发FileNotFoundError异常。另外,如果CSV文件的格式与代码中指定的不同,则可能会导致读取数据时出现错误。因此,建议在使用这段代码之前,先检查文件路径和文件内容是否正确,并进行必要的修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • Vivado HLS加速卷积层运算 6190
  • Zedboard系列教程 3600
  • AI芯片:几种常见类型的AI芯片 2779
  • Zedboard上部署Vivado HLS实现的矩阵乘IP核 2498
  • 利用AXI-stream总线实现PS-PL端数据传输 2355

分类专栏

  • HLS 6篇
  • ASIC芯片论文阅读 7篇
  • Zedboard 8篇
  • 其它体系结构知识 1篇
  • caffe 3篇

最新评论

  • Zedboard上部署Vivado HLS实现的矩阵乘IP核

    yepImgg: 想问问博主 sdk的代码教程是在哪里看到呢

  • Vivado HLS加速卷积层运算

    BlackSheep2333: Load_In函数中的offset计算写错了,R和C要再乘上S才正确,不修改的话分块就会报错,但是例子中R和C没分块(即TR=R,TC=C),所以刚好避开了这个问题

  • AXI4总线实现PS-PL的float类型数据传输

    pjzmj2012: 老哥 工程能提供下吗pjzmj2012@163.com

  • Vivado HLS加速卷积层运算

    普通网友: 循环分块的R和C这两个参数是什么意思?

  • Zedboard上部署Vivado HLS实现的矩阵乘IP核

    Edward1272: 你的这个问题解决了吗?

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • AXI4总线实现PS-PL的float类型数据传输
  • 利用AXI-stream总线实现PS-PL端数据传输(float类型)
  • 利用AXI-stream总线实现PS-PL端数据传输
2021年19篇
2020年5篇
2018年1篇

目录

目录

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司白银百度标王多少钱海南网站开发公司宿迁推广网站价格宿州设计网站报价木棉湾如何制作网站梧州seo排名价格金华网站seo优化推荐南宁网络营销报价达州seo优化推荐武威seo优化公司海口外贸网站设计常州SEO按天扣费公司玉树关键词按天收费公司淮南网站推广方案多少钱昌都百姓网标王价格潜江推广网站多少钱福永如何制作网站公司廊坊企业网站建设多少钱河源网页设计推荐扬州SEO按天收费报价金华网站建设哪家好崇左seo排名银川seo排名报价安阳百度竞价潍坊如何制作网站推荐新余百姓网标王公司苏州网站建设设计推荐垦利品牌网站设计太原优化多少钱重庆网站推广系统歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化