存储领域的AI芯片战已打响内存和人工智能计算正在融合到同一个架构中-- 迪族网

存储领域的AI芯片战已打响内存和人工智能计算正在融合到同一个架构中

来源：猎云网　2019-11-07 11:05:27

上周，当全球最大的存储芯片制造商之一美光科技(Micron Technology)收购人工智能硬件和软件初创公司Fwdnxt时，我一直在关注此事。

此举可能会非常有趣，如果成功的话，Fwdnxt可能会让美光与英特尔和英伟达等合作伙伴展开直接竞争，因为美光相信，内存和人工智能计算正在融合到同一个架构中。

美光科技CEO：存储领域的AI芯片战已打响

美光负责这个项目的其中一位高管是Steve Pawlowski，并非偶然，他曾是英特尔的芯片设计师，拥有数十项专利。Pawlowski现在在美光公司担任高级计算解决方案副总裁。

Fwdnxt将与美光的存储芯片进行结合，帮助美光探索数据分析所需的深度学习人工智能解决方案，特别是在物联网和边缘计算方面。也许美光也会生产基于人工智能的内存芯片，或者包括人工智能在内的内存芯片。

总部位于博伊西的美光公司正在做这项工作，该公司首席执行官Sanjay Mehrotra说，因为“曾经的计算架构并不适合未来的发展趋势……从长远来看，我们认为计算最好在内存中完成。”

外媒在上周Micron Insights的活动上采访了Steve Pawlowski，以下是经过编辑整理的采访实录，由猎云网编译。

Steve Pawlowski：2014年我离开英特尔的时候，我来到了美光，他们问我：“你想做什么?”我说：“我认为，为了提高性能效率和降低延迟，计算和内存的融合是必要的。你们是一家存储公司，你们有技术，DRAM即将到来，我想在这一领域作出改变。”然后他们说：“好吧!”

我有一个小团队，专注于在计算和内存方面发现问题——我们可以开始测试概念，然后将概念引入产品，但不会增加成本。我在英特尔学习到的，一件我永远都不会忘记的事情，我们曾经有算数协同处理器，80287，80387，然后我们在387上赚了一大笔钱。当时我们有了一个聪明的想法，如果我们把协处理器集成到486中，我们可以做得更快更好。我们做到了，但突然间我们就没有足够的足迹了。那些不需要它的人说：“你不会为了那个死亡区域向我收费”，而那些需要它的人说：“会像其他人一样付给我钱，因为我是一个受欢迎的顾客。”然后，整个业务就归零了。

这件事给我的一个教训是，你不能增加更多的复杂性和成本，然后指望人们马上为它买单，除非，有大多数人能从中获得真正的价值。我们现在重点关注的是，找到人们今天可以从中获得价值的关键因素，然后看看你能否随着时间的推移扩大这个泡沫。我认为这是一个8到10年的旅程。在那些年的最后，当我回首往事时，我可能会意识到我浪费了它们。或者我可以回头看看，然后说：“哇，我们可能没有做到这一点，但我们做得很好。”

Q：这引发了很多关于这会导致什么后果的想象，你会给出一些具体的暗示吗?

Steve Pawlowski：有一件事，你肯定已经听过很多次了，那就是AI正处在边缘。我们关注这个问题的原因是，没有一个现成的编程模型或现成的架构可以让你与市场竞争。可以说，每个人都在为进入同一个战场而斗争。现在，我们有机会去那里做点什么了。人们不会看着你说：“美光是一家内存公司，你为什么要谈这个?”事实上，他们是这样认为：美光在FPGA上有这种能力，我们的高性能内存和架构映射在FPGA之上。我们会负责所有的抽象，所以你不必成为一个VHDL程序员，那么你愿意开始处理数据集的问题吗?

有趣的是，我并不需要主动去推动它。我们经常会参加FPGA会议。很多政府机构也会参加然后说：“我们在这里有个问题，我们想在这方面多做些尝试。”政府的问题是，他们很早就兴奋了，但如果你想做成什么事情，那就得花很长时间。因为采购周期很长，合同也是长期的，其他的一切都是长期的。

我们决定看看普通市场。有一家汽车公司来了，他们说：“我们还没有达到第五级，但我们肯定可以达到第三级、第四级的自动驾驶汽车，我们希望能够利用网络告诉我们正在发生什么。这看起来是有趣的，你愿意和我们一起工作吗?”还有很多人说：“他们为什么对与你们展开合作感兴趣?”这是因为我不会直接告诉他们需要做什么，我会说“这就是我们所拥有的，然后我们能为你做些什么呢?”他们会说：“好吧，你愿意听我们的，这是我们的问题。”

不管你信不信，我从2005年AMD推出的Opteron中吸取了教训。我们仍在推广7g处理器、33-stage管道，但无人问津。我们去了华尔街，我说：“你能再给我们一次机会吗?我们能坐下来了解一下我们的工作量吗?让我们一起合作，我们可以创造更好的产品吗?”事实证明，我们做到了。

我们找了很多人。瑞银，我记得他们写的一篇评论文章，他们说：“你可能不会制造最大的芯片或最好的芯片，但你来了，理解了我的问题。”这就是所谓的，真正理解客户和他们的问题，以及你能做什么。如果你这样做对他们没有帮助，也没关系，至少你学到了一些东西。

Q：就缩小范围而言，它是在开发一种新的内存，还是在计算处理过程是在哪里完成的?

Steve Pawlowski：答案是肯定的，但它是对动态真正的理解。顺便说一下，这取决于型号。我刚才和下面的人聊了聊有些语言模型需要100g的参数。当你看到有人说：“嘿，我有两个千兆字节，四个千兆字节。”那会适合大多数型号，但不是所有的型号，型号确实在不断发展。

这也取决于解决方案的延迟。我不知道你们是否看过OHSU的视频，那位女士患了乳腺癌，他们需要大量的数据，因为他们想把所有的电子显微镜图像放在一起，建立一个三维卷积模型，一个针对肿瘤的三维显示。他们没有足够的时间去了解，因为他们想要在一天甚至一个小时内获得切实可行的洞察力。我们在欧洲核子研究中心做的工作，我们现在需要数据。我们必须在几微秒内做出决定。这是什么有趣的东西，还是我们把它放弃。

不同的解决方案需要不同类型的内存，这也是我们正在学习的。我一直喜欢英特尔的一点是，用户知道程序的指令是什么。我了解它们是如何在机器上执行的，然后逐渐进入系统。当我来到美光的时候，我看到的只有地址和命令，就是单纯的读/写命令和地址。我完全不明白，这个东西是把15个不同的东西复制到不同的元素上，还是覆盖上去，还是什么?有了我们在6月合作和收购的这些公司，我们就可以构建这些算法、运行它们，看看整体效果如何。

我们的第一个目标是，我们能在内存中做些什么来提高解决方案的运行时间?我们可以建立更高的带宽，但那不一定能让用户达到目的。如果我们能建立一个缓冲区，引入一个矩阵，让我们一下子就能把矩阵移过来，而不是让这个东西去找它，这可能会带来巨大的好处。

最后，我们还会看到：其中大多数是乘法和累加的架构，以及非常简单的一些架构。它们只是被复制了几千次。一旦晶体管变得更好，你就可以在存储设备上做一个很好的乘法和累加。最终，设想一下采用这种架构，然后把它放在一个内存设备本身中，这是一个长期的愿景。

我想说的是，无论我们做什么，我们都要建立一个编程基础设施和一个范例，这样人们就不必每次迁移时都重写他们的代码。在我看来，这就是英特尔的巨大成功。当我们做386的时候，还没有32位的软件。但它确实能很好地运行16位代码，人们买它就是为了这个。你可以有很多平台，然后人们说：“好吧，现在我们去优化32位。”6到8年后，当486问世时，有很多软件可以利用它，然后它就变成了一台永不回头的机器。

先从内存开始，先从存储开始，看看我们能做什么。然后我们将看到什么可以随着时间的推移而真正地迁移，答案可能是什么都不能，答案也可能是一切都能。我想答案是在中间的某个地方，这取决于你把针移到哪里。

Q：是什么让这个项目变得如此困难，以至于可能成为一个历时10年的项目?

Steve Pawlowski：困难的是，这将是一个为期10年的项目。提出一种编程范式，社区就开始使用它，这样你就可以开始把编程带到社区。我不知道你是否知道Steve Wallach(来自Tracy Kidder的一本书)，他是多年前的Tracy Kidder的灵魂。他刚退休，但他曾为我工作了一段时间。每次一对一的时候，他都说：“如果我要教你什么的话，就是这个。最容易编程的东西就是获胜的关键，屡试不爽。”底线是，你必须让编程社区参与进来。你不能只是去做一些花哨的硬件，然后把它们丢在一边，因为它们不会碰它，这是个难题。

我们还不是软件公司。我刚开始创业的时候，英特尔还不是一家软件公司。他们就像Nvidia，有很多软件工程师，在某些情况下甚至超过了他们的硬件工程师。你只是看不到他们。

Q：你们拿下了Fwdnxt，它是一个很全面的产品了，那么你们还需要找很多合作伙伴吗?

Steve Pawlowski：我们需要大量的合作伙伴和数据科学家，他们的推理机架构已经开发了5年，10年，12年了。优化它们的人来自不同的公司和不同的学术环境，它的创始人是普渡大学的教授，他们一直在优化这个架构。他们有一个相当好的编译器，采用了一个开放的网络交换前端，然后将其映射到他们的硬件上。

我需要的是数据科学家，是应用程序。我还认为我们需要一个动态运行时/调度程序。如果你真的有这个模型，如果我今天在硬件上写一个网络，在英特尔处理器上，三年后你仍然可以运行同样的程序，所有的东西都是通过指令集抽象出来的。因此，在这里我要做的是抽象网络，这意味着我们需要某种类型的动态运行时。也就是说，“啊，这个东西有8000个乘法和累加单位，这个有1000个，那我可以把那东西再分散一点。哦，这150个单位死了。我不想在这些方面做任何安排，但我仍然希望能够使用该部分。”

有几个实体一直在寻找解决动态运行时问题的方法，我认为这是非常重要的，尤其是我听说过估计值。一年前，我在机场遇到了一个在英特尔公司经营Litho的人。他说，他们相信当达到5nm以下时，30%的设备在制造时会不合格。

Q：你是说有缺陷，还是什么?

Steve Pawlowski：只是不符合规格。我们把所有的东西都装在护栏里，假设它的寿命是7年，而且质量会下降。基于这个特殊的原因，你甚至无法护卫它，它甚至也不能在guardrail里正常工作。

我找到了一篇由巴西研究者写的论文，上面说如果你有，假设你可以做512个核，那么你会降低20%。与峰值性能相比，总体性能下降约4%。32核芯片已经失效，在64核芯片中，只有一个内核处于活动状态。他们只是假设这些值是随机分布的。如果我们要使用比7更好的几何图形，那么为这些大型应用程序提供动态运行时将同样重要。

多年来，内存系统一直存在冗余。他们在测试，会在一个冗余块中交换，如果坏块比冗余块多，这就变成了一个密钥链。

Q：这是否意味着与英特尔和英伟达等公司的竞争很激烈?

Steve Pawlowski：这样会更有合作精神。美光在数据中心很难与英特尔和英伟达竞争，英伟达已经锁定了训练。即使有人提出了新的解决方案，至少有一家初创公司告诉我，超级计算者告诉他们：“很难把我们的训练算法从GPU上转移出来。它做得很好，仍在提高我们的业绩。不要把你的时间花在这上面。”我最后听到的统计数据，很大一部分推论仍然在Xeon上运行。

我们一直在关注——如果我们要在数据中心做些什么，那就是帮助我们的客户，比如英伟达和英特尔。但是如果从内存存储的角度来看有什么创新，让我们来看看它的边缘。我们将在那里获得最大的效率和规模经济。

Q：摩尔定律的部分还可以吗?你们会准时吗?

Steve Pawlowski：这是一个挑战，但这并没有阻止我们继续扩大规模。老实说，我必须永远活在摩尔定律里。不许说摩尔定律的坏话!这是第十一诫。因此当人们问我的时候，我的回答是：Dennard规模增长的放缓和停止才是真正推动创新的原因。现在，我们可能不会每两年得到两倍的晶体管，也许是每三四年一次。但我们会在第三维度成长。这一切并没有阻止我们。问题是怎样做最经济，工程师们会为难题找到真正有创意的解决方案。

Q：英特尔今天强调，他们将在2021年推出7nm图形芯片。他们似乎回到了预定的时间。

Steve Pawlowski：我希望如此。在我离开的时候，那是5年前的事了，4年的领先优势消失得如此之快，令人惊讶。

Q：从这个意义上说，似乎整个行业都在同步前进。

Steve Pawlowski：我认为这个行业还在继续他们的步调：“我们仍然可以看到一条通往规模化的道路。”就像我说的，我不知道这是否是摩尔预测的激进的两年，但想想过去40年来，由于摩尔定律，我们在能力方面取得了哪些进展。太不可思议了!我仍然认为会出现规模扩张，我们会像其他人一样利用它。

Q：Fwdnxt交易给你带来了什么?是更多的软件方面的业务，还是也有芯片制造领域的人才?

Steve Pawlowski：不是真正的芯片制造天才，并不是的。他们是建筑天才，他们有硬件架构方面的天赋。他们已经翻译了FPGA。在采取这方面，使ASIC和做前端和后端，这不是他们的专业知识，但是是他们现在在做的地方。他们带来了软件和体系结构，不仅是硬件的体系结构，还有卷积神经网络的体系结构知识。如果有人向他们提出一个问题，他们如何能够对该网络进行优化，然后使用他们的数据对其进行训练，以获得他们想要的精度水平。一旦他们达到了他们想要的精度，他们就把训练好的算法映射到FPGA上进行分类。

Q：所以它会给你提供多种选择，让你选择想做什么。

Steve Pawlowski：我完全把它看作是，我们正在学习这些东西是如何相互作用的，以及这些不同的网络是如何进化的。好的方面是，我可以放一个有一百万个参数的网络，就是说我可以放一个100gig的网络参数。它的运行速度较慢，但我能够理解那些大型网络将如何发展，以及我们将做些什么。

我在小组里讨论了我们是如何与欧洲核子研究中心合作的。我们从原型设计中学到的东西是惊人的。他们以如此快的速度把数据扔给它，他们需要如此快的洞察力。准确性是好的，但他们不需要像癌症患者那样紧迫的东西，而你需要99.999%的准确性。他们会问，“这70%或80%好吗?这很有趣吗?没有?那就不要了。把它扔出去。我们有更多的东西要对付，最终我们会得到一些达到这个门槛的东西，那将会很有趣。”他们每秒会发生4000万次碰撞。

Q：你对这种方法能解决的问题的一般描述是怎样的?

Steve Pawlowski：这两个问题，卫生保健和欧洲核子研究中心，基本上他们是用2D传感器图像构建一个3D模型。在欧洲核子研究中心一号上，粒子相互碰撞，产生了大量其他粒子。他们想要做的是快速测量这些粒子然后问：“所有的能量加起来了吗?”如果能量是X，你得到Y，它小于X，然后有一些能量没有被考虑进去，这是很有趣的科学，因为能量守恒定律说没有任何东西应该被创造或毁灭。一旦他们这样做了，他们就会想要获得不同的图像并构建一个关于衰减的3D模型，因为它不会全部显示在相同的2D图像中。

可视化肿瘤需要很多很多二维图像，X光，等等，并创建一个三维的体积模型。我们使用相同的3D卷积神经网络样式，因为它们是不同的网络，它们有不同的内层做不同的事情，但是我们用它们来解决一个类似的问题，即创建一个3D的表现。

Q：我不知道你是否听说过MediView公司。他们来自克利夫兰诊所，刚刚筹集了450万美元的风险投资。他们对病人的身体进行核磁共振成像，所有的东西都在里面，然后他们把数据放入微软全息眼镜。然后医生就可以用3D技术将其可视化。你把手术刀放到病人身上，他看到手术刀穿过小孔，进入他想要的地方，否则他就不会看到里面的情况。以前，他必须根据他所看到的所有2D屏幕进行猜测。

Steve Pawlowski：那太棒了。几年前，俄勒冈健康科学大学的外科主任说：“你需要来这里。”当时我在英特尔，他们给我们洗了全身，给我们做了双疝气手术，他说：“我想给你们展示我们现在是怎么做手术的。”他们仔细检查了一切。当然，这个人并不是完全开放的，否则我就不会去做手术了。手术结束后，他说：“现在，让我向你们展示如何训练我们的外科医生。”就工具而言，它就像石器时代。这将是一个完美的教学工具。

关键词：储存领域芯片

推荐DIY文章