Graphcore中国战略:用颠覆技术创新AI计算 赋能尖端AI创新者
云栖网:近年来,随着AI的应用场景不断增加,传统的CPU和GPU已无法满足AI所需。由于AI的底层是以计算图作为表征的,所以企业若想提升算力则需要一种全新的处理器架构,即AI专用芯片IPU(智能处理器)。
作为IPU领域的领先企业和人工智能芯片硬件设计公司,Graphcore研发的智能芯片应用范围十分广泛,包括无人驾驶、云计算、处理机器学习技术等,事实上,有了高性能芯片的支持,就能利用海量数据来训练人工智能系统。7月28日,Graphcore高级副总裁兼中国区总经理卢涛和Graphcore中国区技术应用总负责人罗旭向媒体详细介绍了Graphcore的第二代IPU系统产品应用、开发者云的部署等情况以及中国发展战略。
Graphcore:第二代IPU及IPU-M2000重新定义AI
AI人工智能的基础就是深度学习,只有不断地学习才能使人工智能更加的“智能”。IPU芯片就是用于推理或训练。因为随着机器学习的发展,系统将能够从经验中学习。这就需要系统低时延和不出错,IPU可以有效地完成所有这些事情。
7月15日,Graphcore正式发布第二代IPU以及用于大规模系统级产品IPU-Machine:M2000(IPU-M2000),新一代产品具有更强的处理能力、更多的内存和内置的可扩展性,可处理极其庞大的机器智能工作负载。
IPU-M2000是一款即插即用的机器智能刀片式计算器,由Graphcore全新的7纳米Colossus™第二代GC200IPU提供动力,并由Poplar软件栈提供全面支持。其设计便于部署,并支持可扩展至大规模的系统。这款纤薄的1U刀片机可提供1个PetaFlop的机器智能计算,并集成了针对AI扩展优化的网络技术。
Graphcore高级副总裁兼中国区总经理卢涛
Graphcore高级副总裁兼中国区总经理卢涛表示,Graphcore在M2000每个IPU-Machine里面通过IPUExchangeMemory技术,提供了将近超过100倍的带宽以及大约10倍的容量,这对于很多复杂的AI模型算法是非常有帮助的。对于寻求将机器智能计算添加到数据中心的客户而言,Graphcore最新推出的IPU-M2000凭借其强大的算力、易于扩展的灵活性和突出的易用性,将具有极强的可行性和价值提升潜力。
其实,无论是要使用单个IPU还是要使用数千个IPU来完成机器智能工作负载,Graphcore的PoplarSDK都可以使这一过程变得简单。因为Graphcore的最新产品线是通过三大颠覆性技术创新实现的,这些创新可提供客户期望的行业领先性能:
计算:每个IPU-M2000的核心都是Graphcore新的GraphcoreColossus™Mk2GC200IPU。该芯片采用台积电最新的7纳米工艺技术开发,每个芯片在一个823平方毫米的裸片上包含超过594亿个晶体管,使其成为有史以来最复杂的处理器。
数据:每个IPU都有大量的In-ProCESsor-Memory。Graphcore新型Mk2GC200在处理器内部具有史无前例的900MB超高速SRAM,在每个处理器内核旁边都设有大量RAM,以实现每位最低能量的访问。Graphcore的Poplar软件还允许IPU通过Graphcore独特的ExchangeMemory通信访问StreamingMemory。这甚至可以支持具有数千亿个参数的最大模型。每个IPU-M2000都可以支持密度高达450GB的ExchangeMemory,以及前所未有的180TB/秒的带宽。
通信:IPU-M2000具有内置的专用AI联网IPU-Fabric™。Graphcore创建了一个新的GraphcoreGC4000IPU-Gateway芯片,该芯片可提供令人难以置信的低时延和高带宽,每个IPU-M2000均可提供2.8Tbps。在从数十个IPU扩展到数以万计个IPU的过程中,IPU-Fabric技术使通信时延几乎保持恒定。
“将强劲算力与网络能力相结合,我们能够处理全球最先进、最复杂的算法模型。”卢涛表示,“这样的算法模型,对中国本地的AI算法落地场景,如云计算、互联网和通信等场景都会产生推动作用,并将为AI产业者提供巨大的价值。”
Graphcore中国区技术应用总负责人罗旭
Graphcore中国区技术应用总负责人罗旭表示,IPU处理器本身,其实是一个通用型的处理器,从应用场景来讲,IPU同时支持训练和推理,同一套软件可以对应的来实现推理,也可以实现训练,下面会有一些具体的案例,包括金融、医疗、汽车、NLP、互联网,以及研究实验室的一些特定的用例。目前,Graphcore开放了可以扩展的Poplar库。在机器框架的学习支持方面,Graphcore支持TensorFlow1、TensorFlow2、ONNX和PyTorch。之前也宣布了和百度的合作,对PaddlePaddle进一步的支持肯定也会很快发布。
同时,卢涛也表示:未来在超大规模数据中心里面计算、存储和ML集群将对IPU的需求更加明显。Graphcore的优势就是超大规模IPU-POD技术来帮助完成大规模AI训练。比如自然语言处理方面的一些算法模型、机器视觉应用等。目前全球顶级的一些合作伙伴我们现在都有在合作,主要帮助客户解决的问题就是大规模集群的可扩展性。卢涛详细介绍说:“现在譬如说做一个模型的训练,譬如假设GPU的性能是1,一个单机有八张卡,能做到七点几,但如果把场景扩展到1000个GPU或者几千个GPU,性能可能会下降到0.7或者0.6,好一点的可以到0.8,而可扩展至超大规模的IPU-POD是要帮助大家解决大规模集群可扩展性的问题,这是非常关键的。”
在中国市场,Graphcore已经与领先的本地商业用户展开紧密的早期合作,基于IPU的开发者云已于7月初正式上线,其IPU-POD64已在IPU开发者云上供用户访问。在卢涛看来,中国很可能成为Graphcore最新推出的第二代处理器技术最先实现商业化落地的区域之一。
GraphcoreIPU开发者云:赋能中国AI创新者
越来越多的新技术、新方向驱动产业、个人生活不断科技化,而开发者毫无疑问是这一领域的顶尖者和佼佼者,是真正改变世界的一股力量。这股力量,为所有的科技公司所重视。
为了推动和加速IPU在各领域的应用与实践,7月,Graphcore正式发布基于IPU的开发者云,面向中国的客户、大学、研究机构和个人研究者免费使用,使得前沿的机器智能创新者可以轻松获取IPU进行前沿AI模型的云端训练与推理,从而在新的一波机器智能浪潮中取得关键突破。
Graphcore非常专注于中国市场。机器智能方面的许多新突破将非常适用于中国客户和研究机构。通过为进行AI研究的创新者免费提供云计算中的IPU支持以及运营在中国的创新社区,我们可以支持中国最具创新精神的人才解决世界上最棘手的AI问题。
中国众多的机器智能创新者活跃在各个AI领域的世界前端,通过IPU开发者云,前沿机器智能创新者可以快速便捷地获取IPU云,避开自建机房或者申购IPU服务器等繁琐内部流程,专注于在IPU上快速运行自己的AI模型结果。
“我们在与创新者交流时,很多创新者想要使用IPU来运行自己的算法模型,以期获得更好的运行结果,但受制于各种条件限制,难以达成。”卢涛表示,“因此我们推出了IPU开发者云,开发者们可以很方便地使用IPU进行训练与推理任务,探索自己的算法模型的极致表现,并且它是免费的,我们的本地工程支持团队还会和开发者们一同制定工程计划,全程提供咨询与支持。”
据介绍,目前IPU的开发者云支持当前一些最先进和最复杂的AI算法模型的训练和推理的工作,比如说自然语言处理类的、高级计算机视觉类的应用,主要是以分组卷积为代表的一些机器视觉的应用,像ResNeXt、EfficientNet等等。基于一些时序分析类的应用,譬如像LSTM、GRU等等大量应用在语音应用、广告推荐、金融算法等方面的模型。在排名和推荐类的,譬如像DeepAutoencoder,在概率模型方面,譬如说基于MCMC的一些算法交易的模型方面都有非常好的一些表现。
开发者在运行先进的AI算法模型时,最常遇到两大困扰:一是他们将要求提供给算力平台部门时,经常得到的反馈是GPU目前不能够支持他们想要的低时延和高吞吐量;二是他们的算法模型在GPU上跑的速度非常慢,经常产生有可能是算法本身问题的误导。Graphcore从零设计的IPU是一种高度灵活、易于使用的并行处理器,专门适用于算力密集型的机器学习和深度学习任务,能在目前用于训练和推理的机器智能模型上实现最先进的性能。借助IPU开发者云,创新者可以使自己的算法任务直达IPU,避开传统硬件的限制陷阱,使得自己的算法模型不用因硬件受阻而妥协。创新者们可以在IPU上最大程度地释放算法模型的潜能,使结果值抵达最优,并在IPU上探索更多的可能性,全方位触发创新。
罗旭表示,对于开发者来说,推理比训练要简单很多,因为训练主要是除开前向计算还会涉及到一个反向计算。底层需要支持的算子,训练也会比推理多几倍;同样从底层的硬件角度来讲,训练对于处理器的通用性要求会更高。而IPU多核如何协同工作,我们其实会有一套机制,叫BSP机制(BulkSynchronizationParallel)。通过这一整套机制配合我们的编译器和我们的硬件,可以实现超大规模线程的同步。这个BSP机制其实并不是一个新的概念,很早之前在超算领域就被人提出来,只是说Graphcore这个概念弄到了跟芯片还有整个编译器结合起来,达到一个多核协同工作。尤其是大规模并行处理需要做到护展性、通讯、IPU-Fabric,包含IPU-Link、IPUGateway、通讯库(GCL,GraphcoreCommunicationLibrary),这一整套能够保证硬件在多机扩展的时候达到很好的线性度,才能有效地服务开发者的多种要求。
谈到开发者云的使用情况,卢涛表示:“目前基本上我们开发者云用户还是以商业用户和大学的研究机构为主,从数量上来看商业用户可能会更多,两者占用的计算资源大概是一半一半。商业用户使用时间大概是三周,而研究机构的使用时间则较长。”
为了更好地赋能中国AI创新者,配合开发者云,Graphcore的创新社区现已全面正式上线,社区平台包含微信、知乎、微博以及Graphcore即将上线的中文创新社区网站。创新者们可以在自己常用的社交平台上轻松向Graphcore全球的科学家提问,获取IPU硬件产品与软件更新的最新资讯、阅读深度技术文章、并与其他创新者们一起交流成长。
“在中国建立IPU开发者云,是Graphcore对于中国创新社区的承诺。Graphcore积极拥抱中国的AI生态系统,通过IPU开发者云的免费使用和源源不断的知识输出,赋能尖端AI创新者,从而将中国最具有创新能力和求知精神的机器智能创新者们汇聚在一起,共同在社区中探索与收获。”Graphcore高级副总裁兼中国区总经理卢涛最后表示。