三年前,国家超级计算济南中心(济南超算)悄悄干了一件大事,投资数十亿元致力于打造一个融HPC超算、传统云计算(以CPU为主)和智算(以GPU为主)为一体的多元算力中心,这就需要一个统一的并且可以对外开放的运维和运营平台。那时还在打磨阶段的青云科技自主研发的AI算力调度平台,帮助济南超算建立了从建设到运营的闭环,对CPU、GPU、HPC等不同算力资源进行统一调度与统一运营,很好地支撑了济南超算的异构算力服务创新。
济南超算在算力服务上的创新,其实是我国超算行业持续演进的一个缩影。从以前专注于少数高精尖的科学计算应用,到后来乘云直上,超算云的概念逐渐被业界所接受,到现在从国家层面大力倡导超算互联网平台的建设,超算算力正加速开放化、服务化和社会化,变成一种普通企业也能唾手可得的算力资源。
由超算行业反观整个算力行业的发展,其演进的路径是一致的。从传统的物理机时代到虚拟化、云计时代,再过渡到云原生时代,直至当前以AI为驱动的数智化时代,算力以及算力的应用因为云、AI、大模型等的牵引有了翻天覆地的变化。在架构上从以CPU为核心演进到以GPU为核心,在应用上从主要满足延迟敏感应用的需求发展到“成本敏感+延迟敏感”并重,算力不仅要支撑移动互联网应用与数字化转型,更要在人工智能与数智化的双重挑战下,充分释放其澎湃的力量。
“人工智能这个市场机会已经来了,而且它一定会带来一波长达十年以上,而且比过去十年更大的市场需求和机会。”青云科技(CEO林源非常肯定且自信地表示,“可以预见,未来AIGC的投入占企业IT投入的比重一定会越来越高,这是客户与市场的需求共同决定的。客户对于底层算力的要求会越来越高。人工智能对于算力的刺激和带动相比十年之前,一定会有十倍甚至百倍的提升。”
为了满足AI应用的需求,各地都在积极上马智算中心。区别于传统的数据中心,智算中心的建设与运维是一个新的课题,也面临新的挑战:智算中心投资规模巨大,平台能力与运营效率将成为运作的关键;从技术和运营的角度来看,智算中心的建设更加专业且复杂;从数据的隐私性和属地性特征来看,智算中心建设更加分散,运营能力参差不齐;智算中心要更好地支持业务的多样化。
青云AI智算平台是智算中心运营者的核心工具,它主要面向智算中心现在的投资者和未来的运营者。“济南超算这样的成功案例已经说明,我们的AI智算平台具备客户所需的完整能力;三年前,我们就已经具备了开发AI算力调度平台的能力;我们的AI智算平台得到了实践检验,济南超算不仅运营得很好,而且还实现了盈利。”林源表示,“这就是青云科技的新机会。作为一家中立的云服务商,青云科技会与生态伙伴紧密协作,站在用户的背后,提供智算中心所需的产品和服务的支撑,为用户提供更好的选择。”
“我们将所有与AI、GPU相关的产品,独立提出来,并结合以前的整体智算解决方案,最终打造出现在的AI智算平台。”青云科技产品经理苗慧介绍说,“我们的AI智算平台可以实现多区域、多地点,面向不同业务进行算力调度。”
归纳来说,青云科技AI智算平台主要从以下四个维度进行研发和优化:为国内外多种架构的芯片提供支持和优化;所有资源和产品一旦进入云平台,青云科技就会提供全生命周期的管理;面向AIGC,青云科技做了大量业务化的实践;实现更多的自动化,让非计算机行业的用户也能一键运行其数据、业务和模型等。
本次发布的青云科技AI智算平台具有九大关键能力:多区多业务资源整合、混合组网、容器推理服务平台、分布式调度与管理、算法开发支持、模型仓库(MaaS)、AI训练平台、灵活调度、高速并行存储。
相比其他的AI平台,青云科技AIAI智算平台的差异化具体表现在:针对大集群(比如上百台机器的集群),青云科技研发了更加优化的调度算法,比如在亲和政策、反亲和政策以及调度的链路标签上,做到尽可能地调度同一个交换机,让数据少绕路; 在应用环境上,青云科技采用Kubernetes调度平台同时为客户服务,并且是完全集成好的,在颗粒度和运维传统机器方面也有更多优化。