计算机的兴起与深度学习(一)——通用技术

计算机的兴起不仅源于技术上的成功,还源于经济力量提供的支持。 Bresnahan 和 Trajtenberg 创造了通用技术 (GPT) 一词,用于表示计算机等具有广泛技术适用性的产品,并且产品改进和市场增长可以在几十年内相辅相成。然而用js做计算器,他们也预测 GPT 在其生命周期的后期可能会遇到挑战:随着进展的放缓,其他技术可以在某些市场地位上取代 GPT,并扰乱这个持续经济增长的周期。今天,我们可以观察到随着中央处理单元 (CPU) 改进的放缓,许多应用程序转向专用处理器,例如图形处理单元 (GPU),它可以做的工作比传统的通用处理器更少,但在实现特定功能时表现出更高的性能。包括深度学习(一种机器学习)和比特币挖掘在内的许多备受瞩目的应用已经在追随这一趋势。

有了这个背景,我们现在可以更明确地了解本文的主题:“计算机作为通用技术的衰落”。我们并不是说计算机会失去技术能力从而“忘记”如何进行一些计算,我们的观点是,基于通用处理器的快速改进,碎片化的经济周期正在逐渐取代使用通用计算平台的经济周期。在这个分散的周期中,经济将用户推向由专用处理器驱动的各种计算平台。

这种碎片化意味着部分计算将以不同的速度执行,这对于运行在“快车道”上的应用程序来说是一件好事,在这种情况下更新迭代仍然很快,但对于那些不再受益于增加的应用程序的应用程序来说计算能力,因此它们也被分配到“慢车道”。这种转变还可能减缓计算机改进的整体步伐,危及这一重要领域的经济贡献。

通用和专用计算

早期 – 从私人到一般。早期的电子设备不是可以执行许多不同计算的通用计算机,而是专门设计用于完成一项且仅一项任务的设备,例如收音机或电视。这种专用设备具有以下优点:设计复杂度可控、处理器效率高、运行速度更快、功耗更低,缺点是专用处理器的应用范围也较窄。

早期的电子计算机,即使是那些被设计为“通用”的计算机,实际上都是为特定算法量身定制的,很难适应其他算法。例如1946年的ENIAC,虽然理论上是通用计算机,但主要用于计算火炮射程表,即使需要稍微不同的计算,也不得不手动重新连接计算机以改变硬件设计。解决这个问题的关键是需要设计新的计算机体系结构,该体系结构可以存储指令,使计算机更加灵活,能够在通用硬件而不是专用硬件上执行许多不同的算法。这种“冯诺依曼架构”非常成功,以至于它仍然是当今几乎所有通用处理器的基础。

通用处理器的兴起。许多技术通过良性循环进入市场,帮助它们发展(图 1a)。最初,用户购买了产品,从而为产品升级提供了资金支持。随着产品的改进,越来越多的消费者去购买它,这为下一轮改进提供了资金,依此类推。然而,对于许多产品而言,随着产品改进变得过于困难或市场增长停滞,这一周期在中短期内逐渐减少。

图1.通用处理器的历史良性循环(a)正在变成碎片循环(b)

在通用处理器开发的数十年中,GPT 能够继续从这个良性经济循环中受益。它的市场已经从军事、航空航天等领域发展到全球超过 20 亿台 PC 的使用,而这一市场增长推动了对处理器改进的投资增加。例如,英特尔过去十年在研发和制造设备上投入了 1830 亿美元,而这部分投资获得了丰厚的回报:据估计,处理器性能自 1971 年以来提高了约 40 万倍。

另一种选择:专用处理器。通用处理器必须能够很好地执行许多不同的计算,这会导致设计妥协,虽然有许多操作可以快速完成,但没有一个是最佳的。对于那些适用于专用处理器的应用程序,这种权衡可能会导致高性能损失。这些应用程序的运行有一些特点:

l 大量计算可以并行化。

l 要执行的计算是稳定的并且有规律地变化(规律性)。

l 对于给定的计算量,需要相对较少的内存访问(局部性)。

l 可以使用更少的有效数字进行计算。

在上述情况下,专用处理器(例如,ASIC)或异构芯片的专用组件(例如,IP 块)可以更好地执行操作,因为这些硬件可以针对应用程序进行定制。

将典型的CPU(主要的通用处理器)与典型的GPU(最常见的专用处理器)进行比较可以看出,特异性程度在一定程度上改变了处理器设计变异的程度(见附表)。

表。 CPU与GPU技术规格对比

GPU 速度较慢,大约是 CPU 速度的三分之一,但它可以在每个时钟周期执行比 CPU 多 100 倍的并行计算。这使得它对于并行性强的任务比 CPU 快得多,相反,对于并行性低的任务,GPU 的运行速度会比 CPU 慢。

GPU 的内存带宽通常是 GPU 的 5-10 倍(带宽决定了一次可以传输多少数据),但访问该数据的延迟要长得多(至少是最近内存时钟周期的 6 倍) ,这使 GPU 在可预测的计算方面表现得更好(可以预测内存中所需的数据并在正确的时间将其传输到处理器),但在不可预测的计算方面表现不佳。

对于与专用硬件完美匹配的应用程序,GPU 的性能提升可能是巨大的。例如,2017 年,领先的 GPU 制造商 NVIDIA 估计,深度学习(AlexNet 与 Caffe 合作)在 GPU 上的运行速度比在 CPU 上快 35 倍以上,而今天,这个速度甚至更高。

专用处理器的另一个重要优势是执行相同计算时消耗的功率更少。这对于受电池寿命限制的应用(如手机、物联网设备)和需要大规模计算的应用(云计算/数据中心、超级计算)尤其重要。

截至 2019 年,十大最节能的超级计算机中有九台使用 NVIDIA GPU。

专用处理器也有致命的缺点:它们可以运行的程序范围非常有限,难以编程,并且通常需要运行操作系统的通用处理器来控制其中的一个或多个。设计和生产专用硬件也可能很昂贵。对于通用处理器,固定成本,也称为非经常性工程成本 (NRE),分布在大量芯片上。相比之下,专用处理器的市场通常要小得多,因此每个芯片的固定成本更高。截至 2018 年,使用先进技术制造带有专用处理器的芯片的总成本约为 8000 万美元,而使用老一代技术可将成本降至 3000 万美元左右。

尽管专用处理器有优点,但它们的缺点仍然非常致命。在过去的几十年里,除了 GPU 之外,几乎没有采用其他专用处理器。专用处理器技术仅用于性能改进至关重要的领域,包括军事应用、游戏和加密货币挖掘。但这开始改变了。

专用处理器的当前状态。包括个人电脑、移动设备、物联网 (IoT) 和云计算/超级计算在内的所有主要计算平台都变得更加专业化。其中,PC 仍然是最多才多艺的。相比之下,由于电池寿命,能源效率在移动和物联网中更为重要,因此智能手机芯片上的许多电路(如 RFID)和传感器使用专用处理器。

云计算/超级计算也变得更加专业化。例如,在 2018 年用js做计算器,最大的 500 台超级计算机中的新成员首次从专用处理器中获得了比通用处理器更高的性能。

国际半导体技术路线图 (ITRS) 的行业专家协调了保持摩尔定律持续运行所需的技术改进,在他们的最终报告中含蓄地表达了这种向特异性的转变。他们承认不应再使用传统的“一刀切”方法来确定设计要求,而应针对特定应用进行定制。

下一节将研究跨所有主要计算平台过渡到专用处理器对生产通用处理器的经济性的影响。

通用技术的碎片化

支撑 GPT 的良性循环来自一系列互补的技术和经济力量。但不幸的是,它也有相反的效果:如果循环中某一部分的改进进展较慢,那么其他部分的改进也会相应变慢。我们将这种对立称为“碎片循环”,因为它有可能将计算碎片化为一系列以不同速度推进的松散相关部分。

如图1(b)所示,分片周期分为三个部分:

l 技术进步缓慢。

l 新用户减少

l 更难为创新提供资金

这个周期背后的原因很简单:如果技术进步缓慢,新用户的数量会减少,但如果没有这些新用户提供的市场增长,改进技术的成本上升可能会变得令人望而却步,从而减缓进步。因此,在这种协同反应下,各个部分进一步增强了碎片化。

下面,我们将详细分析循环的三个部分各自的状态,得出“碎片化已经开始”已经开始的结论。

技术进步缓慢。我们使用两个关键指标来衡量处理器的改进率:“性能”和“每美元的性能”。从长远来看,这两个指标都得到了迅速改善,这​​主要是因为晶体管的小型化提高了每个芯片的性能。晶体管具有更高的密度(摩尔定律)和更快的晶体管开关速度(丹纳德定标定律)。不幸的是,由于技术原因,制造商已经达到了现有材料和设计所能做的物理极限,Dennard 缩放定律在 2004/2005 年结束,摩尔定律变得越来越难以维持,这些技术限制需要付出巨大的努力才能克服在这个过程中,小型化带来的“性能”和“性能”以及“每美元性能”的提升正在放缓。

从 Hennessy 和 Patterson 对 SPECInt 进展的描述(图 2a)和美国劳工统计局的生产者价格指数(图 2b)中可以看出,通用计算机性能的提升明显放缓。从这些角度来看,如果“每美元的性能”以每年 48% 的速度提高,那么 10 年内效率将提高 50 倍。相比之下,如果仅以每年 8% 的速度提高,那么 10 年内只会增加 2 倍。

图2.微处理器的改进率,衡量标准是 (a) SPECint 基准的年度性能改进,以及 (b) 质量调整后的年度降价。

很少有新用户。随着通用处理器的进步步伐放缓,新功能的开发也随之放缓,使得医院没有客户更换计算设备。英特尔首席执行官科再奇在 2016 年证实了这一点,称 PC 更换​​率已从每 4 年提高到每 5-6 年。有时,用户甚至会跳过多代处理器升级,因为他们觉得不值得升级。在其他平台上也是如此,例如 2014 年美国智能手机平均每 23 个月升级一次,但在 2018 年延长至 31 个月。

在通用处理器开发的几十年中,GPT 能够继续从这个良性经济循环中受益。

用户从通用处理器转移到专用处理器是我们关于计算碎片化论文的核心,因此我们将详细讨论它。假设现在有一个用户可以使用通用处理器或专用处理器,但希望以最低成本获得最佳性能。图 3(a) 和图 3(b) 为我们提供了直观的分析。两张图都显示了通用处理器和专用处理器随时间的性能改进,但通用处理器的改进速度在这两张图中。在所有情况下,我们假设选择了时间 T,那么专用处理器的高价将被一系列改进的通用处理器的成本所平衡,这意味着两条曲线在成本,因此出色的“性能”也意味着同样出色的“每美元性能”,这就是为什么我们认为专用处理器在这段时间内具有稳定的性能。 (此时在专用处理器升级中,它也将受益于通用处理器所受益的改进,用户将再次重复相同的决策过程。)

图3. 最佳处理器的选择取决于专用处理器的性能提升和通用技术的发展速度。

如果专用处理器能够提供更大的初始性能增益,则它们更具吸引力。但是,如果通用处理器的改进从图 3(a) 的快速发展转变为图 3(b) 的缓慢发展,专用处理器也会变得更有吸引力。我们通过考虑两条时间路径中的哪一条提供更多收益来建模。也就是说,如果:

公式中,通用处理器和专用处理器在时间T可以提供的性能分别为Pu和Ps,通用处理器的性能提升率为r。我们在在线附录()中介绍了该模型的完整推导。这种推导有助于我们从数学上估计专用处理器需要抵消高成本的优势量(如图 3c 所示,CPU 的年改进率从 48% 下降到 8%)。

毫无疑问,专用处理器在提供更大的加速或将成本摊销到更大数量时会更具吸引力。然而,随着通用处理器改进的步伐,当特异性变得有吸引力时,这些阈值将发生变化。重要的是,由于我们假设专用处理器和通用处理器之间的总体进展不同,即假设所有处理器都能够使用当前最先进的制造技术,因此不会产生上述影响。相反,它的出现是因为必须摊销的专用处理器的高单位 NRE(一次性工程费用),以及与过渡期间升级通用处理器相比的优势。

一张图清楚地表明了这种变化的重要性。在摩尔定律的巅峰时期,年改进率为 48% 时,即使是专用处理器也比通用处理器快 100 倍,也就是

(这是一个巨大的差距),大约需要 8.30,000 更多的生产才能获得投资回报。在另一个极端,如果性能优势只有 2 倍,则需要大约 1,000,000 的生产数量才能使专用处理器更具吸引力。这些结果清楚地说明了为什么在摩尔定律的全盛时期,专用处理器制造商很难进入市场。

但是,如果我们使用 8%(2008-2013 年增长率)重复处理器选择计算,这些结果将发生巨大变化:对于速度提高 100 倍的应用程序,所需的处理器数量从 83、000 下降到 15,000,而对于那些速度提高 2 倍的应用程序,数量从 1,000,000 下降到 81,000。因此,在通用处理器更新进度放缓后,更多的应用程序将转向专用处理器。

为创新筹集资金更加困难。 2017 年,半导体行业协会估计为下一代芯片建造和装备制造设施(“fab”)的成本约为 70 亿美元。 “下一代”是指芯片(或工艺“节点”)的进一步小型化。

对芯片制造设施成本的投资必须与其产生的收入相平衡。 2016 年,该行业 3430 亿美元的年收入中,多达 30% 来自尖端芯片,虽然收入可观,但成本却在增长。在过去 25 年中,在光刻成本的推动下,建造领先晶圆厂的投资(如图 4a 所示)每年增长 11%。在此估算中包括工艺开发成本将进一步将成本增加到每年 13%(基于 Santhanam 等人在 2001 年至 2014 年间的估算)。讽刺“摩尔第二定律”的芯片厂商都知道:芯片厂的成本每四年翻一番。

图4.芯片制造的经济恶化。

从长远来看,如此快速的固定成本增长对单位成本的影响仅部分被强劲的整体半导体市场增长(5% CAGR 1996-2016m)所抵消,这使得半导体制造商能够将固定成本分散到更大的数量上。每年 13% 的固定成本增长率与每年 5% 的市场增长率之间的巨大差距的剩余部分可能会导致竞争力较弱的参与者退出,而其余参与者则以大量股份摊销其固定成本。

如图 4(b) 所示,行业确实出现了巨大的整合,生产领先芯片的公司越来越少。从 2002/2003 年到 2014/2015/2016 年,拥有领先晶圆厂的半导体制造商的数量从 25 家减少到只有 4 家:英特尔、台积电、三星和 GlobalFoundries。而格芯最近宣布,他们不会继续开发下一个技术节点。

我们发现,这种整合很可能是由于固定成本快速上升导致经济恶化以及市场规模仅适度增长所致。通过一些计算,可以看出市场整合在多大程度上改善了半导体行业的经济性。如果市场在不同公司之间平均分布,则意味着平均市场份额将比 2002/2003 年减少

到 2014/2015/2016 年的增长

。以复合年增长率表示,即为 14%。这意味着生产商可以通过扩大市场和占领现有晶圆厂的市场份额(13% < 5% + 14%)来弥补晶圆厂建设的经济恶化。

实际上,市场并不是均匀分布的。英特尔主导市场,因此,英特尔无法以这种方式抵消固定成本的增加。事实上,英特尔的固定成本与可变成本的比率在过去十年中已从 60% 上升到 100% 以上,这尤其引人注目,因为英特尔近年来放缓了发布新节点尺寸的步伐,这在意料之中。以降低他们进行固定成本投资的速度。

市场整合抵消固定成本增加的能力只会持续有限的时间。如果我们预测当前趋势,到 2026 年至 2032 年,领先的半导体制造将只能支持一家垄断制造商(取决于市场增长率),为新工艺节点建造新设施的年度固定成本将等于年度行业收入。需要明确的是,我们的论点不是这将在 2020 年代后期成为现实,而是当前趋势将不可持续,制造商将被迫在大约 10 年内显着放缓新工艺节点的发布,并且寻找其他方法来控制成本,这两种方法都会进一步降低通用处理器的速度。

碎片循环。随着碎片化周期的三个部分中的每一个相互加强,我们预计会看到越来越多的用户转向通用处理器,因为他们看到了它们的微小改进并将注意力转向它。专用处理器。对于那些要求极高并且非常适合专业计算(例如深度学习)的人来说,这将意味着性能的巨大提升。对于其他人来说,专业化不是一个合适的选择,他们将停留在通用处理器上,并且发展得越来越慢。

灵感

谁来做专用处理器。如图 3(c) 所示,专用处理器将用于替换后获得显着加速的场景,并且需要足够的需求来证明这种开销是合理的。按照这个标准,谷歌、微软、百度和阿里巴巴等大型科技公司率先投资专用处理器也就不足为奇了。与仍然可以从广泛的应用程序中受益的 GPU 专业化或对大多数用户有价值的加密电路专业化不同,我们预计未来的专业化会更窄,因为只有少数处理器才能获得更大的好处。

我们也希望大量使用这些专用处理器的人不会是专用处理器的设计者,而是会使用新硬件来设计算法,就像那些使用 GPU 进行深度学习操作的人一样。

小型化的最终好处将是价格溢价,并且只能由重要的商业应用支付。

谁不会使用它。未迁移到专用处理器的方案可能是由于:

l 性能提升较少

l 没有足够大的市场来证明前期固定成本的合理性

l 无法协调需求。

之前,我们描述了使用专用处理器加速计算的四个功能。如果没有这些特性,专业化只会带来最小的(如果有的话)性能提升。一个重要的例子是数据库。正如我们采访的一位专家告诉我们的那样:在过去的几十年里,很明显,专用于数据库的处理器可能非常有用,但数据库所需的计算不适合专用处理器。

无法使用专用处理器的第二类处理器是那些要求不足以证明前期固定成本合理的处理器。正如我们从模型中得出的那样,需要一个拥有数千个处理器的市场来证明专业化的合理性。这可能会影响那些进行小规模密集计算的人(例如,从事稀有计算的研究科学家)或那些计算随着时间迅速变化并因此需要迅速消失的人。

可能不使用专用处理器的第三类群体是那些对单个用户的需求不足且难以协调的群体。例如,即使成千上万的小用户集体有足够的需求,也很难让他们集体为专用处理器的生产做出贡献。云计算公司可以通过资助创建专用处理器然后出租它们来解决这个问题。

技术进步会帮助我们摆脱这种困境吗?让我们回到一个融合周期,用户将切换回通用处理器,这将需要快速提高性能和/或每美元的性能。但技术趋势指向相反的方向。例如,在性能方面,预计小型化的最终好处将是价格溢价,并且只有重要的商业应用才有可能支付。甚至还有一个问题,是否将完成所有剩余的技术上可行的小型化。 Gartner 预测,到 2026 年量产 5nm 时会进一步小型化,台积电最近宣布了一项 195 亿美元的计划,到 2022 年达到 3nm,但我们为这项研究采访的许多受访者对是否有必要进一步小型化持怀疑态度。

其他技术改进能否恢复通用处理器改进的步伐?当然,有很多关于此类技术的讨论:量子计算、碳纳米管、光学计算。不幸的是,专家预测,工业界至少还需要十年时间才能设计出范围更广的量子计算机,从而有可能取代传统的通用计算机。其他可能具有更广阔前景的技术仍需要大量资金来开发和推向市场。

结论

传统上,计算经济一直由通用技术模型驱动,通用处理器改进得越好,市场增长就会对它们进行投资,从而进一步推动它们的改进。 GPT 的这种良性循环使计算成为数十年来经济增长的最重要驱动力之一。

本文提供的证据表明,这个 GPT 循环已被碎片化循环所取代,导致计算速度增长缓慢和用户碎片化。我们展示了碎片化周期的三个部分,每个部分都已经在进行中:通用处理器的改进速度急剧放缓;购买通用处理器和专用处理器之间的经济性权衡已急剧转向专用处理器;制造更好的处理器的固定成本上升将不再被市场增长率所补偿。

综上所述,这些发现清楚地表明处理器的经济性发生了巨大变化,将计算推向了不同的细分市场,彼此之间的利益越来越少。而且,由于这个循环是自我强化的,它将永远存在,进一步分散通用计算。最终,更专业的应用程序将被拆分出来,通用处理器将继续以进一步放缓的速度改进。

本文强调了由经济驱动的计算方向的重大转变,并挑战那些想要抵制计算碎片化的人。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论