datasheet

清微智能全球首款可重构超低功耗语音AI芯片开始量产

2019-06-28来源: 心缘 智东西关键字:AI  低功耗

最近,脱胎于清华大学微电子所Thinker团队的AI芯片创企清微智能迎来新进展:


全球首款可重构超低功耗语音人工智能(AI)芯片TX210已实现规模化量产,于6月中旬正式交付市场,而此时清微智能距成立还不到1年。


这是一款语音SoC芯片,针对手机、可穿戴设备、智能家居等多种应用场景的智能终端产品开发,工作功耗不超过2mW,语音活动检测(VAD)功耗小于100uW,延时不到10ms。


清微智能,拆开来,就是清华、微电子、人工智能,也就代表了这家公司的定位——专注可重构计算芯片,提供以端侧为基础,并向云侧延伸的芯片产品及解决方案。


其核心技术团队来自清华微电子学研究所(以下简称微电子所),其芯片所采用的架构正是中国芯片技术学术领军者——中国半导体行业协会IC设计分会理事长、清华大学微电子所所长魏少军教授所带领研发的可重构计算架构。


谋定而后动,脱胎清华微电子系


清微智能成立于2018年7月,其技术脱胎于清华大学微电子学Thinker团队。


如今的芯片产业,放眼望去,数不胜数的国内外半导体企业高管从清华大学电子工程系和微电子所走出。


而微电子所的灵魂人物——现任清华大学微电子研究所所长、中国半导体行业协会IC设计分会理事长魏少军教授,在过去的十几年间一直深耕于一项核心技术——“软件定义芯片”,即可重构计算芯片技术。


意识到可重构计算架构对于芯片算力提升和功耗降低的巨大优势,2006年,魏少军教授牵头成立了清华大学可重构计算研究团队,而这支团队后来成为清微智能的核心。


2015年,AI复兴,对芯片运算能力产生了远高于传统芯片的要求,这个时候,沉寂了9年的可重构计算因其与AI算法契合的特性,开始重新进入“聚光灯下”。


自2016年起,基于可重构计算架构,魏少军教授团队中的清华大学微纳电子系副系主任尹首一副教授带队设计研发了4款Thinker系列的低功耗终端AI芯片,分别是实验性质的验证芯片Thinker I、人脸识别芯片Thinker II、语音识别芯片Thinker S、语音识别芯片Thinker IM。(AI芯片终极难题 被清华大学IC男神解决了!)


image.png


这三款芯片的设计方案一问世,就收获了国际学术界的认可。比如Thinker-I首次出现在2017VLSI国际研讨会上时,外界评价它“突破了神经网络计算和访存瓶颈,实现了高能效多模态混合神经网络计算。”


而清微智能CEO王博的本科和硕士均在北京邮电大学计算机通信专业就读,他与清华大学Thinker团队的相识,却来自一段同学缘分。


彼时,王博还在一家云计算方案提供商工作,负责智能硬件产品,他在做一款人脸识别智能门锁时,想要找到合适的芯片,却发现市面上的高通等公司无法满足他们对能耗比等性能的需求。


尹首一副教授的大学同学是王博的高中同学,两人因此结识。


王博得知尹首一副教授在带领Thinker团队做AI芯片,看到其芯片设计方案拥有出色的能耗比,再经过深入了解他们所设计的可重构计算架构的技术,王博对这一架构的扩展性感到认可,觉得这条路线是可行的。


预测到AIoT市场将步入全面爆发期后,2018年7月,王博牵头在北京中关村成立了清微智能公司,将技术产品化,由王博任CEO,尹首一副教授为首席科学家,欧阳鹏博士任CTO和Thinker芯片主架构师。


Thinker团队原本就分为两部分,一部分是尹首一副教授带领一些博士生从事整个架构的设计和优化工作,另一部分是清华以社招形式招进来的专门负责芯片实现的工程师。


清微智能的初始技术团队主要来自Thinker团队中负责实现芯片的工程师们,约一二十人,如今其团队数量已扩展到70多人。团队成员来自清华大学、NVIDIA、Sony等知名高校和企业,在半导体行业具备多年经验。


去年第三季度,清微智能拿到百度战投领投的近亿元天使轮融资,由百度战投、分众传媒、禧筠资本、国隆资本、西子联合控股等联合投资,而新一轮融资计划也将于近期启动。


而清微智能在成立不足一年的时间,就交出了TX210语音芯片百万数量级的量产,图像芯片也将于今年12月量产,这一成就,源自清华大学十多年扎实的技术积累、200多项技术专利。


软件定义芯片:可重构计算芯片架构


在今年的全球AI芯片峰会GTIC 2019上,魏少军教授曾展示这样一张PPT。他将芯片分成三部分:第一部分是可更多编程的,如CPU;第二部分是能少量编程的,如GPU;第三部分是不能编程的,如专用芯片。


image.png


除了可编程性,这些不同计算架构的主要差别在于能效。专用芯片到GPU之间有1000倍的能效差距,而1000倍是一个很重要的分界线。


魏少军教授表示,如果我们的AI芯片做不到比GPU高1000倍的能效,就不能满足人们在终端侧的需求。


传统的终端AI芯片,主要基于CPU、DSP、GPU、NPU等架构,这些架构本质属于指令驱动的计算模式,属于冯·诺依曼架构。


这些架构在具体计算过程中,面向某一特定领域,往往存在高能效和灵活性不可兼得的问题,比如华为旗舰手机中强大的麒麟芯片,就不适用于安防摄像头、智能家居等场景。

它们需要从指令存储器中加载指令并解析指令,然后指导执行单元进行计算。在数据计算中,这是一种灵活但是低效的时域计算模式。


此外,在AI芯片的研发过程中,也有团队利用单指令流多数据流(SIMD)的方式来提高数据复用,从而减少指令解析,但是SIMD面向的是同构的操作,当指令功能变换时,仍需要重复前面的过程。


image.png


为了兼具高能效和可编程性,清华大学Thinker团队致力于研究的是一种无需指令驱动的计算模式,即动态可重构计算架构(CGRA,Coarse grain reconfigurable architecture),也就是上图红色区域。


它是一种非冯·诺依曼架构,简单而言,就是将软件通过不同的管道输送到硬件中来执行功能,使得芯片能够实时地根据软件/产品的需求改变功能,实现更加灵活的芯片设计。

传统的芯片需要让应用来适应架构,而CGRA架构更加灵活,能够根据数据流的特点,让软件来调整芯片的计算能力,在最合理分配和使用算力的同时,成倍节约了数据存储和传输带宽。


王博介绍说,CGRA架构适合AI、视频编解码、语音处理等计算密集型场景,但不适用于以逻辑判断为主的非计算密集型场景。


image.png


CGRA基于数据流图,面向的是异构的空域计算,一次配置形成固定的电路结构,从而以接近ASIC效率反复执行,资源利用率和数据复用率高。


同时,相比专用集成电路(ASIC)方式的固定电路结构,它又可以根据应用或者算法进行电路配置,使得硬件重新形成不同的计算电路结构,具有非常强的灵活性。


image.png

▲“指令驱动”的时域计算模式 v.s. “数据驱动、动态重构”的空间计算模式


以这个更低能耗和更强灵活性的架构为基础,清微智能CTO欧阳鹏透露,清微智能在具体的芯片设计上,又做了两方面深化。


1、支持混合精度计算


主流神经网络算法具有混合数据精度表示的特点,即不同的神经网络层可用不同数据位宽来表达中间数据或者权重数据的精度。


然而,传统AI架构无法高效支持混合精度计算,通常只能支持单一精度计算,或者只能通过扩展资源方式支持少数几种精度。


相较而言,清微AI芯片产品能支持从1bit-16bit的混合精度计算,同时,不同的神经网络层可以采用不同的精度表示,可以实时切换精度。


这源自CGRA架构的特点,在具体实现过程中,可重构模式动态重组计算资源和带宽,根据精度表示,让计算资源和带宽接近满负荷进行计算,从而将混合精度网络下的计算资源和带宽的利用率逼近极限,高效支持多种混合精度的神经网络。


2、优化非神经网络计算效率


AI算法不止有神经网络中卷积层、全连接层等逻辑,还有非神经网络计算逻辑。


比如在人脸检测和识别中,有NMS(非极大值抑制)以及仿射变换;在语音识别中,有FBANK/MFCC特征提取以及声学解码等。


而与此同时,非神经网络算法也在快速演进。比如最新NMS已经演化到Soft-NMS。

传统AI芯片架构强调了神经网络逻辑的计算效率,却忽视了非神经网络逻辑的计算效率。

针对非神经网络逻辑,一般仍然采用CPU或者DSP进行处理,或者采用ASIC进行固化。

清微AI芯片产品针对神经网络部分和非神经网络部分均进行了计算效率考虑。


针对非神经网络处理逻辑,从算法数据流图进行空间映射,以接近ASIC效率计算。


同时,其产品通过配置形成不同的电路结构来动态处理不同非神经网络计算逻辑,在保证灵活性前提下,计算效率有极大提升。


首款语音AI芯片量产,超强能效比


基于创新的CGRA架构,清微智能第一款实现规模化量产的语音AI芯片TX210拥有业界领先的算力、能耗比、时延、面积和成本。


image.png


据介绍,TX210采用台积电40nm ULP工艺,支持WLCSP和QFN两种产品封装。


该芯片支持离线语音唤醒功能,支持5个唤醒词和10个命令词,还支持声纹识别。它支持3-5m的远场语音唤醒和识别,工作频率为50MHz,延迟不到10ms。


继承CGRA架构的特点,TX210芯片可编程、可重构,在结构

[1] [2]

关键字:AI  低功耗

编辑:baixue 引用地址:/IoT/ic466035.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:STRATASYS在华推出F120 3D打印机
下一篇:感受工业4.0精益生产 全面展示十大工艺

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

百度飞桨将联手华为麒麟芯片 共同开阔AI市场

2019年百度AI开发者大会召开,现场百度CTO王海峰发布了一款远场语音交互芯片“鸿鹄”,相比去年主推算力,“高效、低成本、易用”特性,鸿鹄主要应用于车载语音交互以及智能家居等场景。鸿鹄芯片采用了HiFi4自定义指令集,双核DSP核心,平均功耗仅100mW,根据车规级标准打造。在今天的开发者大会上,百度方面还带来了“自主泊车”、“数字人服务”、“百度大脑5.0”、“百度输入法中英混输技术”等基于人工智能深度学习的新技术,并且在现场还进行了相应的应用场景演示。例如百度联合浦发银行公布的数字人服务,通过数字员工的形式,将AI更加方便的特性来赋能传统金融领域,节省成本提高效率。值得注意的是,百度首席技术官王海峰与华为消费者BG软件总裁王
发表于 2019-07-03
百度飞桨将联手华为麒麟芯片 共同开阔AI市场

AI、HPC的助推器,下一代并行文件系统解决方案—EXA5

和AI7990)上,它将在今年第三季度初上市。 [1] Lustre,一种平行分布式文件系统,通常用于大型计算机集群和超级电脑。Lustre是源自Linux和Cluster的混成词。它是应用广泛的linux开源分布式存储文件系统,其容量可轻易扩容到PB级别,在HPC、云上有相应的使用。
发表于 2019-07-03
AI、HPC的助推器,下一代并行文件系统解决方案—EXA5

百度AI开发者大会| 李书福来助阵 李彦宏都说了啥?

百度AI开发者大会神秘嘉宾,原来是吉利控股集团董事长李书福。2019百度AI开发者大会,李书福来助阵,双方将会又有哪些动作?大会上李彦宏都说了啥?有哪些值得关注的亮点?图片来源百度百度牵手吉利7月3日,在百度AI开发者大会上,李书福亲临现场,和李彦宏共同宣布,吉利控股与百度将就智能网联、智能驾驶、智能家居、电子商务等AI技术在汽车、出行领域应用展开全面战略合作,共同研究、探索“最强汽车+最强AI”,携手加速中国智能汽车的大规模普及,引领全球智能出行体验。图片来源百度在大会现场,通过小度车载系统,身在会场的李彦宏与车内的李书福做了一次现场连线,为大家演示了车机互动的种种功能。据李书福介绍称,吉利的博越PRO是一款云智能SUV
发表于 2019-07-03
百度AI开发者大会| 李书福来助阵 李彦宏都说了啥?

DeepNude现在火了,看看一键脱衣AI原理的秘密

 输入一张女性的照片,就能得到果体照,一件脱衣的DeepNude火了。但也因为面临巨大的道德争议,这款软件的开发者选择了将它下架。 而且DeepNude本身也不开源,我们只能从开发者零星的介绍中知道,它用到了pix2pix。 在巨大的求知欲驱动下,来自四川大学计算机学院在读硕士袁宵在自己的GitHub探究了DeepNude背后原理,研究图像生成和图像修复相关的技术和论文。 据他的分析,其实DeepNude只是“站在巨人的肩上”,里面用到的技术都是近两年CV领域的重大研究成果,而且都已经开源。 当然,作者本身对这项技术是持批判态度的。 原理 DeepNude主要使用
发表于 2019-07-03
DeepNude现在火了,看看一键脱衣AI原理的秘密

有关AI处理器的名词解释一览

在本文中,我们将从三个方面介绍人工智能系统中使用的核心处理器体系结构的最常见选择:标量、向量和空间。对于每种情况,我们都将对其性能特征和优化算法的类型进行一些概括。在后面的文章中,我们将更深入地讨论它们是如何实现的,以及它们在不同类型的AI工作负载上的性能。Flynn分类法如果没有相当流行的“Flynn分类法”,任何对处理器架构的阐述都是不完整的,因为命名法很常见。它的初衷是描述一台哈佛架构计算机如何摄取指令和数据流,并且尽可能在这种情况下最有意义。尽管如此,现代处理器通常比其他处理器更接近于一种特性,因此我们经常用这种方式来指代它们,但我们应该注意,假设任何现代处理器都完全符合其中一种类型,那将是一个严重的过度简化。这里介绍
发表于 2019-07-03
有关AI处理器的名词解释一览

全球最聪明?李彦宏的无人车获MIT认证

日前,百年科技杂志《麻省理工科技评论》正式揭晓2019年“50家聪明的公司”榜单。此份榜单可谓巨头抢眼,华为、百度、英特尔等大公司纷纷上榜。其中,百度因商用级无人驾驶微循环电动车阿波龙而进入榜单。2018年7月4日,第二届百度AI开发者大会上,李彦宏现场连线厦门金龙客车生产车间,直播第100辆阿波龙自动驾驶小巴量产下线。仅用一年时间,李彦宏就实现了2017年立下的“量产无人车”flag,这让李彦宏和他的百度无人车获得了广泛的认可。李彦宏曾表示:“自动驾驶汽车不出事才是硬道理,很有可能因为我们的一个小错误,导致整个中国的自动驾驶创新技术发展速度减缓,大家都会害怕,我们也会害怕”。事实证明,百度无人车经得起检验,截止至 2018 年
发表于 2019-07-02
全球最聪明?李彦宏的无人车获MIT认证
热门资源推荐
更多
  •  pdf文件单片机系统的低功耗设计策略
  •  pdf文件超低功耗电子电路系统设计原则
  •  doc文件嵌入式移动终端内置WIFI 的低功耗设计
  •  pdf文件PCVD反应器监控系统通讯程序设计
  •  电赛国赛所需要的元器件清单
  •  GPS原理及其应用(武汉大学)课件
  •  2017电赛国赛赛题说明
  •  ucosⅢ在stm32f4上的官方例子

小广播

热门活动
换一批
更多

艾睿电子线上研讨会:英特尔FPGA深度学习加速技术 7月30日上午10:00-11:30 期待您的莅临!
下载有礼|《ADI 流式细胞分析仪解决方案》
造车狂想|假如让你造一辆车!阅读 PI 汽车电子资料,说说你对造车的那些看法!
邀您观看 微信直播:户外照明智能互连解决方案 让TE连接光明与智能未来
免费下载|TE 白皮书《暖通空调制冷系统中压力传感器的重要性》

更多相关热搜器件

  •  HMC573LC3BTR
  •  42-CBSF-1.5X4.5
  •  ATR2406-PNSG
  •  UPC8163TB-E3-A
  •  1052978-1
  •  901-10040-1
  •  51-CBSA-4.0X6.0X0.4
  •  AD-NM-RPTNCM
  •  CHF9838CBF250R
  •  F4766-ND
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright 2005-2019 EEWORLD.com.cn, Inc. All rights reserved