AI芯片现状:领导者很难被超越

2019-10-29 10:27:37

[摘要] 第二届智能硬件峰会于9月17日至18日在硅谷中心举行。大多数初创企业明智地决定专注于推理,而不是培训市场,以避免Avida的挑战。观察#1:很难超越领导者初创企业能够也将会发明新的架构,并在业绩上击败

来源:本文由公共数字半导体产业观察(身份证:集成电路银行)从《福布斯》翻译而来,作者:卡尔·弗伦德(karl freund),谢谢。

第二届智能硬件峰会于9月17日至18日在硅谷中心举行。近50名发言者向500多名与会者发表了演讲(几乎是去年第一批与会者人数的两倍)。虽然我不可能在一个简短的博客中报道所有展示的公司,但我想分享一些观点。

约翰·轩尼诗的观点

计算机建筑传奇人物约翰·轩尼诗,字母表主席,斯坦福大学前校长。他介绍了半导体的历史趋势,摩尔定律和丹尼德标度的过时消亡引发了对“特定领域架构”的需求和机遇。这种“dsa”概念不仅适用于新的硬件设计,也适用于深层神经网络的新软件体系结构。面临的挑战是创建和训练大量的神经网络,然后优化这些网络以在dsa上高效运行,无论是cpu、gpu、tpu、asic、fpga还是acap,用于新输入数据的“推理”处理。大多数初创企业明智地决定专注于推理,而不是培训市场,以避免Avida的挑战。

一种新的软件方法,即软件通过迭代学习过程创建“软件”(也称为“模型”),需要超级计算性能。为了使这个问题更具挑战性,这些网络模型的规模呈指数级增长,每3.5个月翻一番,从而增加了对性能的需求。因此,100多家公司目前正在开发新的体系结构,以提高性能和降低计算成本。然而,他们的工作量很大。英特尔naveen rao指出,要实现每年10倍的改进,架构、芯片、互连、软件和封装需要2倍的改进。

图1:智能网云·拉奥说,处理日益复杂的模型所需的计算能力需要每年增加十倍。

观察#1:很难超越领导者

初创企业能够也将会发明新的架构,并在业绩上击败老牌公司。然而,他们仍然需要与大客户建立伙伴关系,以便将这些技术大规模推向市场。尽管丰富的架构方法令人惊讶,但硬件和必要软件的开发速度慢得令人沮丧。一年前,数十家初创公司在峰会上用powerpoint展示了他们的计划。今年,数十家初创公司展示了更新的powerpoint。然而,硬件在哪里?

事实上,自上次峰会以来,几乎没有新芯片投入大规模生产。高通的snapdragon 855和阿里巴巴的Light 800是例外。Snapdragon当然是一款移动soc,这款灯仅供阿里巴巴内部使用。在某种程度上,延迟部分是由于这种材料比最初看起来要硬得多(不是都是芯片吗?).但我们也需要现实:20、50甚至100名工程师不会排除nvidia、谷歌、xilinx、微软、亚马逊aws和英特尔。他们可以创造惊人的新结构,但执行是工程,而不是艺术。虽然许多人可以使用许多陀螺来制造快速芯片,但它将“吸引”研究人员、工程师、大学教授、互联网数据中心和社交网络公司,把这些陀螺变成可用的性能,并为这些新芯片建立和优化模型。

以色列初创企业哈瓦那实验室就是一个很好的例子。Habana在第一届ai hw数据中心推理峰会上推出了第一款令人印象深刻的芯片goya。然而,整整一年过去了,goya尽管性能卓越、功耗低,却没有得到市场的认可。这不是因为戈雅不能正常工作,而是因为“故事的其余部分”需要一些时间和努力才能完成。

另一个例子是英特尔的神经网络处理器。即使有其创新的设计和世界级的工程团队,芯片在工作了三年后还是被搁置了。大约一年前,英特尔明智地选择从头开始,收集更多的经验和客户反馈,以了解它如何与英伟达3年前的v100 tensorcore技术(仍然是业界最快的人工智能芯片)竞争。与初创企业不同,英特尔可以耐心等待,直到获胜:英特尔的神经处理器(nnp-t和nnp-i)预计将于今年晚些时候提供样本。然而,英伟达也没有停滞不前——我们应该在不久的将来看到它新的7纳米设计(也许是11月的sc19,但更有可能是明年春天的gtc 20)。)

展望未来,新芯片的生产和部署速度将取决于生态系统投资的深度和广度以及芯片本身的完成程度。请记住,当数据中心接受异构性时,他们更喜欢我所说的同构异构性——选择最少数量的芯片架构来覆盖最广泛的工作负载。否则,由于分散计算区域的利用率低和管理成本高,这样做将无利可图。

观察#2:有许多方法可以提高性能

当我在峰会上听演讲时,我对他们描绘的丰富和创新的景观感到惊讶。除了使用低精度、张量核和mac数组(乘法和累加核),这里还有几个亮点。顺便说一下,这些不是正交方法。例如,奥斯汀的mythic公司正在使用闪存阵列进行模拟脉冲神经网络的内存计算。

图2:寻找更快、更节能的dnn处理器的一些创新的简短列表。一些创新,如量子计算,需要几年才能实现。

这些体系结构有两大类:冯·诺依曼的大规模并行设计使用代码(内核)来处理数字计算机传统领域中的矩阵运算(首先,然后...)。更激进的方法通常是将计算和内存融合在一个芯片上。要么使用构成神经网络的权重和激活的数字表示,要么使用更类似于人脑生物功能的模拟技术。仿真技术的风险很高,但前景广阔。

许多数字存储器设计使用数据流计算架构,包括brain as和xilinx versal,其中ai内核嵌入到具有片内存储器的结构中,片内存储器将激活到后续网络层的连接或从后续网络层的传输。为了使这些设计在推理中很好地工作,玩家需要开发定制的编译器技术来优化网络,修剪网络中未使用的部分,并消除零乘法(当然,这里的答案是零)。

图3:一个有用而简单的分类法可以帮助你正确地看到公司和架构风格,即使它忽略了fpga。

不要误会我的意思,这些公司中的大多数,无论大小,都会提供一些优秀的设计。但是,请记住,一台新型dsa设备构建有用的可扩展解决方案需要时间和投资。为了正确看待这一投资,我怀疑英伟达每年花费数亿美元来促进全球芯片人工智能研发的创新。没有一家初创公司能与之竞争,所以他们需要通过一些伟大的设计胜利来帮助他们弥合这一差距。

观察#3:英伟达仍然领先

英伟达数据中心业务部副总裁兼总经理伊恩·伊恩·巴克是此次活动的最后一位发言人。他说,英伟达在其土星五号超级计算机(在500强中排名第22位)的支持下,通过更快的软件和dnn研究,在扩展推理技术方面取得了进展。巴克指出了设计获胜的原因,包括一些受欢迎程度和广泛的用例。

图4:nvidia可以显示12家使用gpu进行推理的公司和所有主要的云提供商。

为了帮助在gpu上推广推理应用,nvidia宣布发布tensorrt软件版本6,其中包括优化器和运行时支持。它可以在训练好的神经网络上部署训练好的神经网络来处理各种nvidia硬件上的推理。它支持99美元的jetson嵌入式处理、xavier自动驾驶汽车、图灵t4数据中心应用等。

其次,亚马逊aws宣布支持nvidia tensorcore t4 gpu,这是一款75W pcie卡,可以支持复杂的图像、语音、翻译和建议的复杂推理处理。Nvidia t4将成为habana labs等初创公司和intel nervana等老牌公司的共同比较目标。虽然我认为新芯片将带来出色的性能指标,但英伟达将认为,这些设备在云中的效用将取决于可用软件的数量以及能够在这些加速器上运行各种型号的用户群。

最终,nvidia证明gpu可以在正确的地方持续发展(与许多初创企业所说的相反)。它宣布了83亿个用于语言处理的威震天-lm转换器网络参数。这是在nvidia土星v上使用512 gpu开发的,它也显示了当你拥有自己的ai超级计算机时可以做什么。请注意,根据mlperf基准测试,nvidia仅在7个月内就将其现有v100 gpu的性能翻了一番。

有些人仍然认为推论是针对轻量级的。然而,nvidia显示,现代推理用例需要具有实时延迟的多个模型来满足用户的期望,并且20-30个容器合作回答简单的口头查询。

图5:这张幻灯片描述了回答简单口头查询的工作流程

结论

寒武纪特定领域架构即将爆发是令人兴奋的,但它仍处于“很快出现在你附近的服务器上”的阶段当大多数初创企业开始开发人工智能时,寒武纪有许多潜在客户,如谷歌、亚马逊、亚马逊、百度和阿里巴巴,所有这些公司都将有自己的设计投入生产。此外,大型半导体供应商将准备使用新的硅材料来处理更大的网络(如威震天-lm)或节能推理设计。

这并不意味着初创企业应该简单地放弃并将资本返还给投资者,但这些初创企业将拥有高门槛和高利润率。否则,他们将需要瞄准利基市场,在那里他们可以以更高的能源效率和更低的价格取胜。

当然,他们的另一个选择是变大或者回家,就像大脑最近在热芯片上发布的晶片级人工智能引擎一样。然而,这不是我向胆小的人推荐的方式。我期待看到建筑在特定领域的进一步发展。

*免责声明:这篇文章最初是作者写的。这篇文章的内容是作者的个人观点。重印半导体行业观察只是为了传达不同的观点。这并不意味着半导体行业观察同意或支持这一观点。如果您有任何异议,请联系半导体行业观察。

广东11选5

图文新闻

热点新闻

推荐

最新

© Copyright 2018-2019 vancenurkala.com 大召资讯 Inc. All Rights Reserved.