存储领域的AI芯片战已打响 内存和人工智能计算正在融合到同一个架构中

上周,当全球最大的存储芯片制造商之一美光科技(Micron Technology)收购人工智能硬件和软件初创公司Fwdnxt时,我一直在关注此事。

此举可能会非常有趣,如果成功的话,Fwdnxt可能会让美光与英特尔和英伟达等合作伙伴展开直接竞争,因为美光相信,内存和人工智能计算正在融合到同一个架构中。

美光科技CEO:存储领域的AI芯片战已打响

美光科技CEO:存储领域的AI芯片战已打响

美光负责这个项目的其中一位高管是Steve Pawlowski,并非偶然,他曾是英特尔的芯片设计师,拥有数十项专利。Pawlowski现在在美光公司担任高级计算解决方案副总裁。

Fwdnxt将与美光的存储芯片进行结合,帮助美光探索数据分析所需的深度学习人工智能解决方案,特别是在物联网和边缘计算方面。也许美光也会生产基于人工智能的内存芯片,或者包括人工智能在内的内存芯片。

总部位于博伊西的美光公司正在做这项工作,该公司首席执行官Sanjay Mehrotra说,因为“曾经的计算架构并不适合未来的发展趋势……从长远来看,我们认为计算最好在内存中完成。”

外媒在上周Micron Insights的活动上采访了Steve Pawlowski,以下是经过编辑整理的采访实录,由猎云网编译。

Steve Pawlowski:2014年我离开英特尔的时候,我来到了美光,他们问我:“你想做什么?”我说:“我认为,为了提高性能效率和降低延迟,计算和内存的融合是必要的。你们是一家存储公司,你们有技术,DRAM即将到来,我想在这一领域作出改变。”然后他们说:“好吧!”

我有一个小团队,专注于在计算和内存方面发现问题——我们可以开始测试概念,然后将概念引入产品,但不会增加成本。我在英特尔学习到的,一件我永远都不会忘记的事情,我们曾经有算数协同处理器,80287,80387,然后我们在387上赚了一大笔钱。当时我们有了一个聪明的想法,如果我们把协处理器集成到486中,我们可以做得更快更好。我们做到了,但突然间我们就没有足够的足迹了。那些不需要它的人说:“你不会为了那个死亡区域向我收费”,而那些需要它的人说:“会像其他人一样付给我钱,因为我是一个受欢迎的顾客。”然后,整个业务就归零了。

这件事给我的一个教训是,你不能增加更多的复杂性和成本,然后指望人们马上为它买单,除非,有大多数人能从中获得真正的价值。我们现在重点关注的是,找到人们今天可以从中获得价值的关键因素,然后看看你能否随着时间的推移扩大这个泡沫。我认为这是一个8到10年的旅程。在那些年的最后,当我回首往事时,我可能会意识到我浪费了它们。或者我可以回头看看,然后说:“哇,我们可能没有做到这一点,但我们做得很好。”

Q:这引发了很多关于这会导致什么后果的想象,你会给出一些具体的暗示吗?

Steve Pawlowski:有一件事,你肯定已经听过很多次了,那就是AI正处在边缘。我们关注这个问题的原因是,没有一个现成的编程模型或现成的架构可以让你与市场竞争。可以说,每个人都在为进入同一个战场而斗争。现在,我们有机会去那里做点什么了。人们不会看着你说:“美光是一家内存公司,你为什么要谈这个?”事实上,他们是这样认为:美光在FPGA上有这种能力,我们的高性能内存和架构映射在FPGA之上。我们会负责所有的抽象,所以你不必成为一个VHDL程序员,那么你愿意开始处理数据集的问题吗?

有趣的是,我并不需要主动去推动它。我们经常会参加FPGA会议。很多政府机构也会参加然后说:“我们在这里有个问题,我们想在这方面多做些尝试。”政府的问题是,他们很早就兴奋了,但如果你想做成什么事情,那就得花很长时间。因为采购周期很长,合同也是长期的,其他的一切都是长期的。

我们决定看看普通市场。有一家汽车公司来了,他们说:“我们还没有达到第五级,但我们肯定可以达到第三级、第四级的自动驾驶汽车,我们希望能够利用网络告诉我们正在发生什么。这看起来是有趣的,你愿意和我们一起工作吗?”还有很多人说:“他们为什么对与你们展开合作感兴趣?”这是因为我不会直接告诉他们需要做什么,我会说“这就是我们所拥有的,然后我们能为你做些什么呢?”他们会说:“好吧,你愿意听我们的,这是我们的问题。”

不管你信不信,我从2005年AMD推出的Opteron中吸取了教训。我们仍在推广7g处理器、33-stage管道,但无人问津。我们去了华尔街,我说:“你能再给我们一次机会吗?我们能坐下来了解一下我们的工作量吗?让我们一起合作,我们可以创造更好的产品吗?”事实证明,我们做到了。

我们找了很多人。瑞银,我记得他们写的一篇评论文章,他们说:“你可能不会制造最大的芯片或最好的芯片,但你来了,理解了我的问题。”这就是所谓的,真正理解客户和他们的问题,以及你能做什么。如果你这样做对他们没有帮助,也没关系,至少你学到了一些东西。

Q:就缩小范围而言,它是在开发一种新的内存,还是在计算处理过程是在哪里完成的?

Steve Pawlowski:答案是肯定的,但它是对动态真正的理解。顺便说一下,这取决于型号。我刚才和下面的人聊了聊有些语言模型需要100g的参数。当你看到有人说:“嘿,我有两个千兆字节,四个千兆字节。”那会适合大多数型号,但不是所有的型号,型号确实在不断发展。

这也取决于解决方案的延迟。我不知道你们是否看过OHSU的视频,那位女士患了乳腺癌,他们需要大量的数据,因为他们想把所有的电子显微镜图像放在一起,建立一个三维卷积模型,一个针对肿瘤的三维显示。他们没有足够的时间去了解,因为他们想要在一天甚至一个小时内获得切实可行的洞察力。我们在欧洲核子研究中心做的工作,我们现在需要数据。我们必须在几微秒内做出决定。这是什么有趣的东西,还是我们把它放弃。

不同的解决方案需要不同类型的内存,这也是我们正在学习的。我一直喜欢英特尔的一点是,用户知道程序的指令是什么。我了解它们是如何在机器上执行的,然后逐渐进入系统。当我来到美光的时候,我看到的只有地址和命令,就是单纯的读/写命令和地址。我完全不明白,这个东西是把15个不同的东西复制到不同的元素上,还是覆盖上去,还是什么?有了我们在6月合作和收购的这些公司,我们就可以构建这些算法、运行它们,看看整体效果如何。

我们的第一个目标是,我们能在内存中做些什么来提高解决方案的运行时间?我们可以建立更高的带宽,但那不一定能让用户达到目的。如果我们能建立一个缓冲区,引入一个矩阵,让我们一下子就能把矩阵移过来,而不是让这个东西去找它,这可能会带来巨大的好处。

最后,我们还会看到:其中大多数是乘法和累加的架构,以及非常简单的一些架构。它们只是被复制了几千次。一旦晶体管变得更好,你就可以在存储设备上做一个很好的乘法和累加。最终,设想一下采用这种架构,然后把它放在一个内存设备本身中,这是一个长期的愿景。

我想说的是,无论我们做什么,我们都要建立一个编程基础设施和一个范例,这样人们就不必每次迁移时都重写他们的代码。在我看来,这就是英特尔的巨大成功。当我们做386的时候,还没有32位的软件。但它确实能很好地运行16位代码,人们买它就是为了这个。你可以有很多平台,然后人们说:“好吧,现在我们去优化32位。”6到8年后,当486问世时,有很多软件可以利用它,然后它就变成了一台永不回头的机器。

先从内存开始,先从存储开始,看看我们能做什么。然后我们将看到什么可以随着时间的推移而真正地迁移,答案可能是什么都不能,答案也可能是一切都能。我想答案是在中间的某个地方,这取决于你把针移到哪里。

Q:是什么让这个项目变得如此困难,以至于可能成为一个历时10年的项目?

Steve Pawlowski:困难的是,这将是一个为期10年的项目。提出一种编程范式,社区就开始使用它,这样你就可以开始把编程带到社区。我不知道你是否知道Steve Wallach(来自Tracy Kidder的一本书),他是多年前的Tracy Kidder的灵魂。他刚退休,但他曾为我工作了一段时间。每次一对一的时候,他都说:“如果我要教你什么的话,就是这个。最容易编程的东西就是获胜的关键,屡试不爽。”底线是,你必须让编程社区参与进来。你不能只是去做一些花哨的硬件,然后把它们丢在一边,因为它们不会碰它,这是个难题。

我们还不是软件公司。我刚开始创业的时候,英特尔还不是一家软件公司。他们就像Nvidia,有很多软件工程师,在某些情况下甚至超过了他们的硬件工程师。你只是看不到他们。

Q:你们拿下了Fwdnxt,它是一个很全面的产品了,那么你们还需要找很多合作伙伴吗?

Steve Pawlowski:我们需要大量的合作伙伴和数据科学家,他们的推理机架构已经开发了5年,10年,12年了。优化它们的人来自不同的公司和不同的学术环境,它的创始人是普渡大学的教授,他们一直在优化这个架构。他们有一个相当好的编译器,采用了一个开放的网络交换前端,然后将其映射到他们的硬件上。

我需要的是数据科学家,是应用程序。我还认为我们需要一个动态运行时/调度程序。如果你真的有这个模型,如果我今天在硬件上写一个网络,在英特尔处理器上,三年后你仍然可以运行同样的程序,所有的东西都是通过指令集抽象出来的。因此,在这里我要做的是抽象网络,这意味着我们需要某种类型的动态运行时。也就是说,“啊,这个东西有8000个乘法和累加单位,这个有1000个,那我可以把那东西再分散一点。哦,这150个单位死了。我不想在这些方面做任何安排,但我仍然希望能够使用该部分。”

有几个实体一直在寻找解决动态运行时问题的方法,我认为这是非常重要的,尤其是我听说过估计值。一年前,我在机场遇到了一个在英特尔公司经营Litho的人。他说,他们相信当达到5nm以下时,30%的设备在制造时会不合格。

Q:你是说有缺陷,还是什么?

Steve Pawlowski:只是不符合规格。我们把所有的东西都装在护栏里,假设它的寿命是7年,而且质量会下降。基于这个特殊的原因,你甚至无法护卫它,它甚至也不能在guardrail里正常工作。

我找到了一篇由巴西研究者写的论文,上面说如果你有,假设你可以做512个核,那么你会降低20%。与峰值性能相比,总体性能下降约4%。32核芯片已经失效,在64核芯片中,只有一个内核处于活动状态。他们只是假设这些值是随机分布的。如果我们要使用比7更好的几何图形,那么为这些大型应用程序提供动态运行时将同样重要。

多年来,内存系统一直存在冗余。他们在测试,会在一个冗余块中交换,如果坏块比冗余块多,这就变成了一个密钥链。

Q:这是否意味着与英特尔和英伟达等公司的竞争很激烈?

Steve Pawlowski:这样会更有合作精神。美光在数据中心很难与英特尔和英伟达竞争,英伟达已经锁定了训练。即使有人提出了新的解决方案,至少有一家初创公司告诉我,超级计算者告诉他们:“很难把我们的训练算法从GPU上转移出来。它做得很好,仍在提高我们的业绩。不要把你的时间花在这上面。”我最后听到的统计数据,很大一部分推论仍然在Xeon上运行。

我们一直在关注——如果我们要在数据中心做些什么,那就是帮助我们的客户,比如英伟达和英特尔。但是如果从内存存储的角度来看有什么创新,让我们来看看它的边缘。我们将在那里获得最大的效率和规模经济。

Q:摩尔定律的部分还可以吗?你们会准时吗?

Steve Pawlowski:这是一个挑战,但这并没有阻止我们继续扩大规模。老实说,我必须永远活在摩尔定律里。不许说摩尔定律的坏话!这是第十一诫。因此当人们问我的时候,我的回答是:Dennard规模增长的放缓和停止才是真正推动创新的原因。现在,我们可能不会每两年得到两倍的晶体管,也许是每三四年一次。但我们会在第三维度成长。这一切并没有阻止我们。问题是怎样做最经济,工程师们会为难题找到真正有创意的解决方案。

Q:英特尔今天强调,他们将在2021年推出7nm图形芯片。他们似乎回到了预定的时间。

Steve Pawlowski:我希望如此。在我离开的时候,那是5年前的事了,4年的领先优势消失得如此之快,令人惊讶。

Q:从这个意义上说,似乎整个行业都在同步前进。

Steve Pawlowski:我认为这个行业还在继续他们的步调:“我们仍然可以看到一条通往规模化的道路。”就像我说的,我不知道这是否是摩尔预测的激进的两年,但想想过去40年来,由于摩尔定律,我们在能力方面取得了哪些进展。太不可思议了!我仍然认为会出现规模扩张,我们会像其他人一样利用它。

Q:Fwdnxt交易给你带来了什么?是更多的软件方面的业务,还是也有芯片制造领域的人才?

Steve Pawlowski:不是真正的芯片制造天才,并不是的。他们是建筑天才,他们有硬件架构方面的天赋。他们已经翻译了FPGA。在采取这方面,使ASIC和做前端和后端,这不是他们的专业知识,但是是他们现在在做的地方。他们带来了软件和体系结构,不仅是硬件的体系结构,还有卷积神经网络的体系结构知识。如果有人向他们提出一个问题,他们如何能够对该网络进行优化,然后使用他们的数据对其进行训练,以获得他们想要的精度水平。一旦他们达到了他们想要的精度,他们就把训练好的算法映射到FPGA上进行分类。

Q:所以它会给你提供多种选择,让你选择想做什么。

Steve Pawlowski:我完全把它看作是,我们正在学习这些东西是如何相互作用的,以及这些不同的网络是如何进化的。好的方面是,我可以放一个有一百万个参数的网络,就是说我可以放一个100gig的网络参数。它的运行速度较慢,但我能够理解那些大型网络将如何发展,以及我们将做些什么。

我在小组里讨论了我们是如何与欧洲核子研究中心合作的。我们从原型设计中学到的东西是惊人的。他们以如此快的速度把数据扔给它,他们需要如此快的洞察力。准确性是好的,但他们不需要像癌症患者那样紧迫的东西,而你需要99.999%的准确性。他们会问,“这70%或80%好吗?这很有趣吗?没有?那就不要了。把它扔出去。我们有更多的东西要对付,最终我们会得到一些达到这个门槛的东西,那将会很有趣。”他们每秒会发生4000万次碰撞。

Q:你对这种方法能解决的问题的一般描述是怎样的?

Steve Pawlowski:这两个问题,卫生保健和欧洲核子研究中心,基本上他们是用2D传感器图像构建一个3D模型。在欧洲核子研究中心一号上,粒子相互碰撞,产生了大量其他粒子。他们想要做的是快速测量这些粒子然后问:“所有的能量加起来了吗?”如果能量是X,你得到Y,它小于X,然后有一些能量没有被考虑进去,这是很有趣的科学,因为能量守恒定律说没有任何东西应该被创造或毁灭。一旦他们这样做了,他们就会想要获得不同的图像并构建一个关于衰减的3D模型,因为它不会全部显示在相同的2D图像中。

可视化肿瘤需要很多很多二维图像,X光,等等,并创建一个三维的体积模型。我们使用相同的3D卷积神经网络样式,因为它们是不同的网络,它们有不同的内层做不同的事情,但是我们用它们来解决一个类似的问题,即创建一个3D的表现。

Q:我不知道你是否听说过MediView公司。他们来自克利夫兰诊所,刚刚筹集了450万美元的风险投资。他们对病人的身体进行核磁共振成像,所有的东西都在里面,然后他们把数据放入微软全息眼镜。然后医生就可以用3D技术将其可视化。你把手术刀放到病人身上,他看到手术刀穿过小孔,进入他想要的地方,否则他就不会看到里面的情况。以前,他必须根据他所看到的所有2D屏幕进行猜测。

Steve Pawlowski:那太棒了。几年前,俄勒冈健康科学大学的外科主任说:“你需要来这里。”当时我在英特尔,他们给我们洗了全身,给我们做了双疝气手术,他说:“我想给你们展示我们现在是怎么做手术的。”他们仔细检查了一切。当然,这个人并不是完全开放的,否则我就不会去做手术了。手术结束后,他说:“现在,让我向你们展示如何训练我们的外科医生。”就工具而言,它就像石器时代。这将是一个完美的教学工具。

关键词: 储存领域 芯片

推荐DIY文章
主机存在磨损或划痕风险 PICO4便携包宣布召回
穿越湖海!特斯拉Cybertruck电动皮卡可以当“船”用
vivoXFold+折叠旗舰开售 配备蔡司全焦段旗舰四摄
飞凡R7正式上市 全系标配换电架构
中兴Axon30S开售 拥有黑色蓝色两款配色
荣耀MagicBookV14 2022正式开售 搭载TOF传感器
it