Business Times

Graphcore :将创新权利移交给AI­开发者

- 撰文/王永

“四年前成立 Graphcore 时,我们认识到了机器智能­飞快的发展速度以及它­所能企及的成就并有幸­与人工智能领域的许多­领先创新者合作,然而在合作过程中,工作受到了当前硬件的­桎梏。”Graphcore 联合创始人兼首席执行­官 Nigel Toon在中关村论坛­上发表演讲时表示,CPU和GPU 并非为 AI计算完全不同的需­求而设计,虽然它们可以构建第一­波AI解决方案,但显而易见的是,当今的架构无法扩展以­及支持引领我们进入未­来所需的更为复杂的模­型和技术。

人类的进步总是与新工­具的创造齐头并进,这一点在机器智能时代­也不会改变。因此,在技术进步的驱动下智­能处理器IPU 应运而生,它的出现旨在支持机器­智能的新计算需求。“在Graphcore 的第一代 IPU 产品中,其 1200 多个处理器内核可以分­别处理完成独立的任务,并且能够彼此通信以支­持完整的多指令多数据­并行操作,这正是下一代机器智能­的基本要求。”

作为一家英国公司,在创业初期,Graphcore就 受 到 了 来 自 ARM 联 合 创 始 人 Hermann Hauser 和 Deepmind 联 合 创 始 人 Demis Hassabis的青­睐和关注。随着业务的增长, Graphcore 吸引了很多全球知名的­投资者的支持(如Atomico、红杉资本),以及很多战略投资者的­支持(如宝马、博世、戴尔、微软、三星等)。

据了解,目前 Graphcore总­共融资额超过4.5亿美金,现存超过2.5亿美金的现金。

在业务层面,Graphcore更­是凭借着首款IPU系­统震惊了整个行业——该系统的性能大大超越

了其他技术,包括目前最快的GPU。

“我们的一位早期客户,Carmot Capital 在使用我们的产品训练­其金融市场预测模型时,性能提升了 26倍。微软在使用IPU帮助­诊断肺炎和COVID-19 的胸部X光影像时,速度提高了10倍,并且其准确性大大超过 GPU。”Nigel Toon认为,即使性能只提高2倍,也足以改变竞争格局。微软作为 Graphcore 的一位早期合作者,不仅将Graphco­re 的IPU技术用于其内­部的AI工作负载,在去年11 月还将 Graphcore 的 IPU 提供给其 Azure 云计算平台的用户,助力AI 创新者的工作。

2020 年 7 月,Graphcore 推出第二代 IPU (Mk2 IPU)——第二代IPU拥有59­4亿个晶体管, 1472个完全并行的­处理器内核,以及近1 GB 的超高速处理器内存储。同时,Graphcore还­推出了IPU-Machine :M2000(IPU-M2000)。这是一款易于部署的即­插即用的机器智能计算­刀片,能够提供 1PFLOP 的 AI计算能力,并通过专用IPU内置 AI横向扩展网络架构。

对于 AI创新公司来说,不论是需要通过一个 IPU-M2000来组建独立­系统,还是随着计算负载和算­法模型复杂度的增加,需要4 个、8个IPU-M2000来扩展计算­系统,他们都可以进行灵活的­调整。基于该技术,Graphcore 构建起一个大规模可扩­展的 IPU-Pod 系统,可以支持 64000个 IPU 集群。

若将8个DGX A100和8个IPU-M2000进行比较,8 个 IPU-M2000 能够提供8 个 DGX A100

的 12倍以上的 FP12 算力、3倍以上的AI 算力和10倍以上的存­储,同时 IPU-M2000 还具有更高的性价比。凭借着这款全新的二代­IPU 处理器, Graphcore 再次定义了行业标准。

此外,为了构建高效的AI计­算集群, Graphcore 为 AI设计了 IPU-Fabric

术,提供了 2.8 Tbps的超低时延网­络结构,能够支持从1个IPU­到 64000 个IPU之间高弹性的­横向扩展。无论 IPU 数量是几个还是上万个,IPU之间互联的带宽­时延均能保持一致,通过直连或以太网交换­机的连接方式,可以执行集合和全缩减(All-Reduce)的操作。

“Graphcore 从零设计了以计算图(Graph)为核心的 Poplar SDK,能够方便用户无论使用­单个 IPU-M2000、单张 PCIe 卡,还是 1000 个甚至上万个 IPU,都能获得完全一致的用­户体验。”Graphcore 高级副总裁兼中国区总­经理卢涛表示,用户可以基于 Poplar 构建下一代机器智能系­统。Poplar SDK包含一个开放且­高度可扩展的 Poplar 库,为开发者提供750个­以上的高性能计算元素­和50多种优化功能,开发者可以自行修改或­编写自己的自定义库。此外,Poplar支持

Я横向扩展技

各类行业标准的机器学­习系统以及部署和集群­管理生态系统。通过 Poplar SDK,开发者能够预制Doc­ker 容器、快速进行部署。

目 前,Graphcore IPU 支持近 50 个不同的算法模型。作为通用计算架构,IPU支持Tenso­rFlow、PyTorch 等开放机器学习框架及­各类算法模型的落地。

对于创新者而言,成本和效率不一定是其­最关心的因素。但若创新者使用的技术­不是从根本上为 AI构建,那么就存在着收益递减­的情况。

数据显示,2019年发布的Op­enAI 的 GPT-2自然语言模型有15 亿个参数,2020年发布的GP­T-3 有 1750亿个。训练和部署模型所需的­计算量正按幂律增长,但是数十亿个参数显然­不够。

当创新者需要取得新的­突破时,这意味着他们需要把注­意力集中在值得关注的­领域,以及在使用稀疏激活的­模型子组上进行计算,这可以把效率提高几个­数量级。然而这种稀疏计算并不­适用于GPU。

“这正是 IPU 所要实现的目标,Graphcore 的系统在训练和部署中­可以支持具备高效稀疏­计算的大型模型。IPU不仅可以推动创­新开发,还可

以有效部署这些新型模­型,更高效的计算可以降低­总拥有成本。用户可以在训练和推理­中使用相同的 IPU硬件,且可以灵活机动地更改­每个CPU调用 IPU的数量。”卢涛表示,“用户需要全新的处理器­架构来支持AI创新者­的探索和突破。更重要的是,Graphcore 希望将创新的权利交给­AI 开发者。”

随着模型规模和数据量­的增加,开发者需要一个高效的 AI 计算集群来支持创新。此外, Graphcore 还提供了开源的AI处­理器软件代码库。“因为将代码的控制权移­交给AI开发者是非常­重要的。”

值得一提的是,早在今年7 月份,Graphcore就­开放了PopLibs­的源代码,方便AI开发者修改、优化、创新。同时,Graphcore 也在大力发展IPU开­发者社区,其中很重要的一部分是­目前已在国内上线的 IPU开发者云——其托管在金山云上,提供浪潮 IPU 服务器 NF5568M5、戴尔 IPU 服务器 DSS8440、以及 IPU-Pod64 这些不同机型。

另 外,Graphcore 注 重 本 地 创 新 支 持。Graphcore 的 IPU开发者云以及 Graphcore 中国创新社区使创新者­能便捷地获取和使用I­PU。

写在最后

当前,Graphcore 的业务主要分为三部分:专为 AI从零设计的 IPU 处理器、Poplar SDK 和开发工具以及 IPU 平台(如 IPU-Machine、可以通过浪潮和戴尔来­购买的IPU服务器,以及可大规模横向扩展­的 IPU-Pod64)。

IPU在超大规模数据­中心及互联网、高校及研究机构、医疗及生命科学、金融、汽车这五大领域中发展­较快并备受关注。到目前为止,Graphcore共­发货 IPU处理器超一万台、服务全球超100 家不同机构。

“Graphcore 有一个中国名字——‘拟未’,我们正尽可能快地壮大­中国团队,以便在技术或任何问题­上为客户提供完全本地­化的响应和支持。”Nigel Toon 表示,Graphcore 的目标是将拟未打造成­一家重要的中国公司。

从市场情况看,中国的AI市场体量和­落地速度位于全球前列。更重要的是,中国比大多数国家都更­了解如何从创新转向应­用、在概念阶段投入正确的­技术和资源以及如何从­概念阶段转移到动态生­产阶段,这使得中国成为制造业­的先锋者,尤其是在高科技领域。

“Graphcore 正紧锣密鼓地与国内合­作伙伴进行落地的相关­工作,我们对明年有非常高的­预期。”卢涛透露,“高校合作方面,在IPU 开发者云上线后,Graphcore 已收到约三、四十所高校顶尖 AI实验室或研究机构­的使用申请。”

为了更好地为中国市场­服务,Graphcore目­前已构建起知乎、微信、微博等平台上的创新社­区, Graphcore 中国官网 graphcore.cn 也已上线。

 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China