精卫电源

当超算服务成为生意谁也别想一统江湖

时间: 2024-03-30 09:10:39 |   作者: 斯诺克今晚在线直播

  • 精卫电源

  在我的上一篇文章《农民种地都现代化了,中国超算还在小农经济》中,因标题存在问题,引起了不必要的误会,现在来澄清一下。

  另,经中科院计算所研究员、国家超级计算济南中心主任、CCF高专委秘书长张云泉老师点拨,综合多位业界专家的讨论,本文进一步探讨:

  首先说标题。有老师说我是标题党,骗点击。我想说,这不是标题党,而是标题重要信息缺失:“中国超算”后边应该加上“服务”。

  这篇文章想表达的主旨一直都是“中国超算服务”的模式还很落后、需要创新,问题出在“用超算”上,而非“超算”本身。

  这样导致的问题是,只看标题,好像在说“中国超算发展得不好,还在小农经济水平,距离现代化太远”,的确存在误导。

  相比标题党,这也是个重大失误,在这里表达歉意。特别是,仅看标题,可能会让人觉得是在抹杀中国超算取得的成就。在此申明,中国超算这些年所取得的成绩有目共睹,无论硬件和应用我们都有问鼎世界的实力,这样的成就,我作为一个跑口记者也觉得很是欣慰,真的不是有意要抹杀掉什么。

  现在我们再来探讨,中国超算服务模式,是不是确实落后?“中国超算服务仍处在小农经济”的结论是否站得住脚?

  《农民种地都现代化了,中国超算(+服务)还在小农经济》一文的主要观点,来自于对并行科技CEO陈健先生的采访。

  陈健提出,超算的使用者大都要循着一个“国内外大超算平台排队上机—自建超算集群—租用超算—超算云服务”的方向走,这样的一个过程,是一个“从落后的生产力慢慢地过渡到更先进的生产力形式”。

  之所以这么讲,在陈健看来,自建超算集群就好比自种“两亩自留地”,这些自建中小微型超算有些浪费,不如大家都把需求集中起来,把无数的“两亩地”汇集成“万亩良田”,大家通过超算云服务的形式,从大型超算上按需购买计算资源,不但可减少浪费,还能提高应用效率。

  陈健创办的并行科技,目前的主业就是提供超算云服务。作为超算云服务提供商,他这么讲肯定有其立场。但是,笔者还是采信了这一些内容,是认为这么讲有一定的道理,现实中确实存在许多不必要的设备重复购买和浪费。

  相应地,陈健把并行科技比作“制造大型农机具的”——只有大型超算(万亩良田)多了,“现代农机具厂商”才好开张。

  当然,这只能是理想状态。陈健先生也清楚这一点,所以他呼吁,放弃自建,超算上云。

  不过,关于这一个问题,众位专家有深入讨论:超算全部上云(服务形式,并非云计算),现实吗?

  虚拟化和云计算专家麻清刚提出,从技术上来讲,限制超算“上云”的条件是“网络带宽不行”:“若能以极低成本拉一条400G的网络专线,超算还真有可能全盘云化——但不一定都是公有云,私有云、企业云、行业云等形态都有几率存在。”

  且不说拉一条400G的网络专线是多么大的一个前提,就超算服务“全盘云化”这一点,张云泉就不太认同。

  从超算需求的方面出发,他认为目前超算云服务只能支持一些中低端计算需求,那些更快、更大规模的需求,超算云服务的形式还提供不了:“就像当年网格计算声称可全面取代超算一样,超算服务全盘云化几乎不可能。”

  “带宽费用是阻碍我们去内蒙古建超算的最根本原因,节约的电费都给运营商买带宽去了。”北京大学高性能计算平台主任工程师、计算中心系统管理室主任樊春这样说。

  内蒙古电价据称是两毛六一度。近年来,西部地区利用“超低电费”的优势大力呼吁投建IT基础设施,这对于一般的云计算中心来说还好,但对于超算而言,并不一定可行。

  对于大部分超算用户来说,速度和价格还是排在前两位的。超算中心对外提供计算服务,只有同时满足这两点,用户才愿意买单。

  樊春还抛出了一个陈健可能不认同的观点:“超算云技术管理上无法减少相关成本,从而无法降低对最终用户的价格,这是超算云发展的最大障碍。”

  这个观点与陈健在《农民种地都现代化了,中国超算(+服务)还在小农经济》中的观点相悖:超算云服务商的角色,是通过研发软件和方案,以技术输出提高超算集群的易用性和有效利用率,以此来降低超算的使用成本(把超算的每核时成本降低至一毛钱)。

  一方面,陈健认为樊春所在的北京大学校级高性能计算平台,已经有了足够大的规模应用,规模效益已经出来了,所以北大可提供用户更低的价格;

  另一方面,陈健当然深知城域网光纤非常贵——他们就投建了从广州超算到北京的城域网光纤专线,之所以这么做,是因为并行科技也实现了规模效益,通过这条光纤专线,并行科技有每年数千万元的超算云服务经营额。

  陈健认为是的。他给出一组数据:并行科技依托各大超算中心资源提供的超算云服务,现在已经有1.5万个客户,并行科技给用户更好的提供的超算价格,是比自建超算低一倍的每核时0.1元(其核算的用户自建超算集群全生命周期总拥有成本为每核时0.2元)。

  陈健给出的另一组数据是,2018年并行科技超算云服务合同额已达2亿元,预计2019年会达到3亿元。

  “这是无数的科研科技工作人员自己在用脚投票的结果。”陈健说,照此以往,中小微超算集群建设的越少,中国超大型国家级超算、大型地方超算/校级超算/公有云超算就能发展的更好。

  当然,潜台词还有一句:并行科技才能因此发展得更好。毕竟现在的并行科技,仍然处于亏损状态。

  并行科技把超算服务做成了一门生意,也是不易。不过,这块市场上并不只有并行科技。阿里云等云计算大厂,也“顺带手”地做了超算的云服务。

  不仅如此,一些大型超算中心,也探索了超算云服务的模式,国家超算天津中心就是一例。

  “让用户用起来更好用。”国家超级计算天津中心冯景华告诉笔者,服务形式的创新确实能够更好的降低用户使用门槛,让用户用起来更简单,但不应过分夸大使用模式的作用。

  他告诉笔者,目前我国超算服务模式之所以显得混乱,在于一些所谓的中小型超算跟计算机集群界限不清,同时也不能用小型超算代表目前的中国超算。

  “超算是个大生态系统,中国是个超算大国,必然有各种模式的超算集群——有国家投资建设的(公共资源)、有(诸如并行科技)以SaaS和PaaS形式提供增值服务的、有(诸如阿里云)云计算公司提供的商用系统……只要用户觉得他出的价格得到了自己所需的价值,就是合理的。”

  说到超算服务的价格,何万青:“价格永远是市场行为,甲之蜜糖,乙之砒霜。有的用户愿意出高价购买的,其他用户也许弃之若敝履,这就是市场。”

  使用阿里云近两万核超算集群的某车厂仿真业务,日常CPU使用率在90%以上,这反映了工业计算所需的弹性和利用率;

  一些科研型和渲染型客户,他只在灵感或者创作欲来了之后,才会启动计算的ad-hoc模式(点对点模式),这时候spot/抢占实例(一种按需实例)就特别适用。这种情况下,对资源灵活调度和自动伸缩比线下性能优化更重要——这其实是云计算比较擅长的领域。

  “举这些例子,是想说谁也别想一统江湖。大家各有所长,客户、技术需求、业务特点和生态发展也是多样性的。“何万青说。

  讨论到这里,按说应该能告一段落了。但是考虑到陈健在《农民种地都现代化了,中国超算(+服务)还在小农经济》文中提出的问题——不少自建中小微型超算在项目经费审计等要求下不得不建,以及确实存在的超算服务供需问题,本文也进一步援引专家们的智慧结晶,放在这里供大家思考。

  事实上,目前我国的国家级超算对重大应用,主要采取免费或者低价支持的措施;一些高校超算,对校内用户也采取免费或低价的形式服务校内科研。

  但面向基础科研全面免费,目前相关主管部门似乎还未酝酿。如果有,那将是爆炸性的。

  对此,曾在三家国家级超算中心工作、现任职于鹏城实验室研究中心的王丙强认为,该出发点虽好,但在真实的操作中,可能会带来混乱:

  但他也提出,有关科技主管机构,确实应思考降低使用计算资源的成本和门槛。

  张云泉也觉得:免费难免浪费,但面向基础研究领域,超算能够尝试提供尽量低的价格,降低获取成本。

  樊春结合他们在北大高性能计算平台提供超算服务的经验提出,面向那些小规模短时长、面向教学任务的超算使用需求,可以且应该免费,以降低学生学习的门槛;而面向基础科研,比较耗费资源的高性能计算任务是不能免费的,但是应该以极低的价格提供给科学工作者。

  “收费是为避免滥用资源,不是为了赚钱。”樊春说,比如,首先收费的价格要让“挖矿”等无利可图。

  而低价格是为降低用户使用成本,符合“价格低→用户才能大量使用→计算量大→出更优秀结果的概率增加→超算为人类的贡献也更大”的逻辑。

  樊春还提出,如果高性能计算免费的话,就需要一个跨学科的专家委员会来分配资源。

  不过他也认为,分配资源工作是非常耗费资源和精力的,协调的成本要“远高于硬件的浪费”。

  另外,在超算中心还应有其他调度算法,比如同时运行作业的数量或同时使用核心数量等调度策略。在技术上,调度策略应是不断调整的,以保证超算中心最大限度地为科研服务。

  一位高能物理应用领域的匿名用户觉得,国内许多公共服务平台类的大科学装置采用的模式是,国家财政支持装置的运行经费,除企业用户外,装置不得向科研用户收费。

  “事实上科研用户的经费也是从国家财政来的,倒一道手没什么意义。”他表态:“我个人觉得,超算这种只管建设不管运行的模式未必是好模式。”

  话说到这里,如果相关主管部门一声令下,科研级超算应用免费,超算行业还需要并行科技、阿里云超算吗?

  “这个行业虽然不如传统云计算获利空间大,但也的确有赚钱空间。”他建议:“超算云公司应该提升技术和管理能力,努力提供更便宜的资源、更优秀的服务吸引客户,拓展整个高性能计算行业。”

  在征求专家们的意见中,有专家向笔者提出,国内超算市场(美国也差不多)是一个政府支持、兼有计划经济和市场经济特色,供给方、需求方、买单方多元化,多种生态并存的系统。

  也正因此,中国超算四个字背后,承载的概念既有神威太湖之光、天河一、天河二这样的超级计算机,也有地方出资建设的各个超算中心,还有那些几百台服务器组成的小型集群。

  各种超算形态的存在都有其道理,但并不见得都运行得十分合理。在这个背景下,就不难理解用户们在获取超算服务中遇到的很多问题、意见甚至牢骚,也不难理解围绕超算服务的“生意”。

  可以说,中国超算服务需要创新,但也要看到何处真的有一定的问题。如此,有关部门和单位、企业才好对症下药,甚至,把生意做大。



上一篇:“天眼”背面:超算工业现“曙光”
下一篇:【48812】云核算的三个特色