当前位置:首页 > 问答 > 正文

高性能计算厂商的CIO说,私有云虽然复杂但真心更靠谱,我就是喜欢用私有云

(某高性能计算厂商CIO在一次技术交流会上发言)

“今天在座的都是技术圈的老朋友,我就不绕弯子了,总有人问我,现在公有云这么方便,按需付费,弹性伸缩,你们搞高性能计算的,自己建私有云又烧钱又费力,图个啥?我每次都跟他们说,私有云这事儿,确实复杂,从硬件选型到软件堆栈,从网络架构到存储方案,每一个环节都得我们自己盯,团队没日没夜地调试、优化,说句实话,脱层皮是常事儿。(语气加重)它真心更靠谱!我就是喜欢用私有云,这不是技术保守,这是我们这个行当的血泪教训换来的选择。”

高性能计算厂商的CIO说,私有云虽然复杂但真心更靠谱,我就是喜欢用私有云

“我先说最核心的一点:数据,我们处理的都是客户的尖端科研数据、核心工程仿真数据,有些数据涉及国家安全,有些是跨国企业的高度商业机密,这些数据就是命根子,你把命根子放到别人的池子里,哪怕那个池子修得再漂亮、安保说得再好听,你心里能百分之百踏实吗?(环视会场)我不能,公有云服务商的安全协议很长,但归根结底,数据的物理控制权不在我手里,安全漏洞、配置错误、甚至是服务商内部的风险,这些都是潜在的黑天鹅,在我们私有云环境里,从机房的物理门禁,到网络防火墙策略,再到数据加密和访问审计,每一个环节都是我们自己的团队一手把控,出了问题,我们能第一时间响应、溯源、解决,这种‘一切尽在掌握’的感觉,是花钱买不来的安全感。”

“再说性能,高性能计算,拼的就是极致性能,一个大型仿真任务,可能要用到成千上万个核心,跑上几天几夜,在公有云上,你确实能瞬间拉起一个庞大的集群,但你别忘了,你是和别人共享底层物理资源的。‘邻居’的噪音问题你怎么解决?万一隔壁有个任务疯狂抢带宽、抢I/O,我们的任务延迟了、失败了,这个损失谁承担?找客服?等他们排查完,黄花菜都凉了,在我们自己的私有云里,整个硬件资源池是专享的,网络是我们用InfiniBand精心搭建的,延迟极低;存储是针对海量小文件IO优化过的,我们可以为了一个特定的应用,从操作系统内核参数开始调优,一直调到应用运行时环境,这种深度定制和优化,在标准化的公有云服务上几乎是不可能实现的,我们要的不是‘能用’,是‘极致性能’,私有云给了我们折腾和优化的空间。”

高性能计算厂商的CIO说,私有云虽然复杂但真心更靠谱,我就是喜欢用私有云

“还有成本问题,外人看来,建私有云是一次性巨大投入,不如公有云按需付费划算,这是静态算账,我们高性能计算的任务负载有个特点,就是虽然峰值需求很高,但很多任务是长期、稳定运行的,比如某些长期观测项目、持续性模拟,计算资源几乎是7x24小时满载,我们算过一笔长期的账,对于这种稳定且高强度的计算需求,自建私有云在三年以上的总拥有成本(TCO)远低于持续使用公有云同等规格的资源,我们把基础设施当成生产资料投资,它带来的长期回报是确定的,而在公有云上,那种‘不知道下个月账单会是多少’的不确定性,反而让我这个CIO睡不着觉,我们可以把预算更多地投入到计算本身,而不是消耗在持续不断的‘租金’上。”

“也是我特别想强调的,是自主可控的能力,我们的业务离不开一些特殊的行业软件、自研的算法和调度器,这些玩意儿在公有云的标准镜像里可没有,如果依赖公有云,我们就要花大量精力去适配别人的环境,处处受制于人,而在私有云里,我们就是规则的制定者,我们可以根据科研人员的需求,快速部署特定的软件环境;可以为了一个新算法,灵活调整整个资源调度策略,这种技术上的自主权,让我们能快速响应客户需求,保持技术领先,团队在建设和维护私有云的过程中,积累了深厚的基础设施知识和排障能力,这本身就成了我们公司的核心竞争力之一。”

“回到开头的问题,私有云复杂吗?极其复杂,它考验的是一个公司的技术底蕴、资金实力和运维耐力,但它靠谱吗?对我们高性能计算这个领域来说,它提供了无与伦比的可靠性、极致性能、长期成本优势和技术自主性,这种‘靠谱’,是业务连续性和核心竞争力的基石,我就是喜欢用私有云,因为我把计算平台当作战略资产来经营,而不是一个随时可以替换的普通工具。”