Graphcore :将创新权利移交给AI开发者
“四年前成立 Graphcore 时,我们认识到了机器智能飞快的发展速度以及它所能企及的成就并有幸与人工智能领域的许多领先创新者合作,然而在合作过程中,工作受到了当前硬件的桎梏。”Graphcore 联合创始人兼首席执行官 Nigel Toon在中关村论坛上发表演讲时表示,CPU和GPU 并非为 AI计算完全不同的需求而设计,虽然它们可以构建第一波AI解决方案,但显而易见的是,当今的架构无法扩展以及支持引领我们进入未来所需的更为复杂的模型和技术。
人类的进步总是与新工具的创造齐头并进,这一点在机器智能时代也不会改变。因此,在技术进步的驱动下智能处理器IPU 应运而生,它的出现旨在支持机器智能的新计算需求。“在Graphcore 的第一代 IPU 产品中,其 1200 多个处理器内核可以分别处理完成独立的任务,并且能够彼此通信以支持完整的多指令多数据并行操作,这正是下一代机器智能的基本要求。”
作为一家英国公司,在创业初期,Graphcore就 受 到 了 来 自 ARM 联 合 创 始 人 Hermann Hauser 和 Deepmind 联 合 创 始 人 Demis Hassabis的青睐和关注。随着业务的增长, Graphcore 吸引了很多全球知名的投资者的支持(如Atomico、红杉资本),以及很多战略投资者的支持(如宝马、博世、戴尔、微软、三星等)。
据了解,目前 Graphcore总共融资额超过4.5亿美金,现存超过2.5亿美金的现金。
在业务层面,Graphcore更是凭借着首款IPU系统震惊了整个行业——该系统的性能大大超越
了其他技术,包括目前最快的GPU。
“我们的一位早期客户,Carmot Capital 在使用我们的产品训练其金融市场预测模型时,性能提升了 26倍。微软在使用IPU帮助诊断肺炎和COVID-19 的胸部X光影像时,速度提高了10倍,并且其准确性大大超过 GPU。”Nigel Toon认为,即使性能只提高2倍,也足以改变竞争格局。微软作为 Graphcore 的一位早期合作者,不仅将Graphcore 的IPU技术用于其内部的AI工作负载,在去年11 月还将 Graphcore 的 IPU 提供给其 Azure 云计算平台的用户,助力AI 创新者的工作。
2020 年 7 月,Graphcore 推出第二代 IPU (Mk2 IPU)——第二代IPU拥有594亿个晶体管, 1472个完全并行的处理器内核,以及近1 GB 的超高速处理器内存储。同时,Graphcore还推出了IPU-Machine :M2000(IPU-M2000)。这是一款易于部署的即插即用的机器智能计算刀片,能够提供 1PFLOP 的 AI计算能力,并通过专用IPU内置 AI横向扩展网络架构。
对于 AI创新公司来说,不论是需要通过一个 IPU-M2000来组建独立系统,还是随着计算负载和算法模型复杂度的增加,需要4 个、8个IPU-M2000来扩展计算系统,他们都可以进行灵活的调整。基于该技术,Graphcore 构建起一个大规模可扩展的 IPU-Pod 系统,可以支持 64000个 IPU 集群。
若将8个DGX A100和8个IPU-M2000进行比较,8 个 IPU-M2000 能够提供8 个 DGX A100
的 12倍以上的 FP12 算力、3倍以上的AI 算力和10倍以上的存储,同时 IPU-M2000 还具有更高的性价比。凭借着这款全新的二代IPU 处理器, Graphcore 再次定义了行业标准。
此外,为了构建高效的AI计算集群, Graphcore 为 AI设计了 IPU-Fabric
术,提供了 2.8 Tbps的超低时延网络结构,能够支持从1个IPU到 64000 个IPU之间高弹性的横向扩展。无论 IPU 数量是几个还是上万个,IPU之间互联的带宽时延均能保持一致,通过直连或以太网交换机的连接方式,可以执行集合和全缩减(All-Reduce)的操作。
“Graphcore 从零设计了以计算图(Graph)为核心的 Poplar SDK,能够方便用户无论使用单个 IPU-M2000、单张 PCIe 卡,还是 1000 个甚至上万个 IPU,都能获得完全一致的用户体验。”Graphcore 高级副总裁兼中国区总经理卢涛表示,用户可以基于 Poplar 构建下一代机器智能系统。Poplar SDK包含一个开放且高度可扩展的 Poplar 库,为开发者提供750个以上的高性能计算元素和50多种优化功能,开发者可以自行修改或编写自己的自定义库。此外,Poplar支持
Я横向扩展技
各类行业标准的机器学习系统以及部署和集群管理生态系统。通过 Poplar SDK,开发者能够预制Docker 容器、快速进行部署。
目 前,Graphcore IPU 支持近 50 个不同的算法模型。作为通用计算架构,IPU支持TensorFlow、PyTorch 等开放机器学习框架及各类算法模型的落地。
对于创新者而言,成本和效率不一定是其最关心的因素。但若创新者使用的技术不是从根本上为 AI构建,那么就存在着收益递减的情况。
数据显示,2019年发布的OpenAI 的 GPT-2自然语言模型有15 亿个参数,2020年发布的GPT-3 有 1750亿个。训练和部署模型所需的计算量正按幂律增长,但是数十亿个参数显然不够。
当创新者需要取得新的突破时,这意味着他们需要把注意力集中在值得关注的领域,以及在使用稀疏激活的模型子组上进行计算,这可以把效率提高几个数量级。然而这种稀疏计算并不适用于GPU。
“这正是 IPU 所要实现的目标,Graphcore 的系统在训练和部署中可以支持具备高效稀疏计算的大型模型。IPU不仅可以推动创新开发,还可
以有效部署这些新型模型,更高效的计算可以降低总拥有成本。用户可以在训练和推理中使用相同的 IPU硬件,且可以灵活机动地更改每个CPU调用 IPU的数量。”卢涛表示,“用户需要全新的处理器架构来支持AI创新者的探索和突破。更重要的是,Graphcore 希望将创新的权利交给AI 开发者。”
随着模型规模和数据量的增加,开发者需要一个高效的 AI 计算集群来支持创新。此外, Graphcore 还提供了开源的AI处理器软件代码库。“因为将代码的控制权移交给AI开发者是非常重要的。”
值得一提的是,早在今年7 月份,Graphcore就开放了PopLibs的源代码,方便AI开发者修改、优化、创新。同时,Graphcore 也在大力发展IPU开发者社区,其中很重要的一部分是目前已在国内上线的 IPU开发者云——其托管在金山云上,提供浪潮 IPU 服务器 NF5568M5、戴尔 IPU 服务器 DSS8440、以及 IPU-Pod64 这些不同机型。
另 外,Graphcore 注 重 本 地 创 新 支 持。Graphcore 的 IPU开发者云以及 Graphcore 中国创新社区使创新者能便捷地获取和使用IPU。
写在最后
当前,Graphcore 的业务主要分为三部分:专为 AI从零设计的 IPU 处理器、Poplar SDK 和开发工具以及 IPU 平台(如 IPU-Machine、可以通过浪潮和戴尔来购买的IPU服务器,以及可大规模横向扩展的 IPU-Pod64)。
IPU在超大规模数据中心及互联网、高校及研究机构、医疗及生命科学、金融、汽车这五大领域中发展较快并备受关注。到目前为止,Graphcore共发货 IPU处理器超一万台、服务全球超100 家不同机构。
“Graphcore 有一个中国名字——‘拟未’,我们正尽可能快地壮大中国团队,以便在技术或任何问题上为客户提供完全本地化的响应和支持。”Nigel Toon 表示,Graphcore 的目标是将拟未打造成一家重要的中国公司。
从市场情况看,中国的AI市场体量和落地速度位于全球前列。更重要的是,中国比大多数国家都更了解如何从创新转向应用、在概念阶段投入正确的技术和资源以及如何从概念阶段转移到动态生产阶段,这使得中国成为制造业的先锋者,尤其是在高科技领域。
“Graphcore 正紧锣密鼓地与国内合作伙伴进行落地的相关工作,我们对明年有非常高的预期。”卢涛透露,“高校合作方面,在IPU 开发者云上线后,Graphcore 已收到约三、四十所高校顶尖 AI实验室或研究机构的使用申请。”
为了更好地为中国市场服务,Graphcore目前已构建起知乎、微信、微博等平台上的创新社区, Graphcore 中国官网 graphcore.cn 也已上线。