当前位置:首页 > 问答 > 正文

分布式存储跟传统SAN和NAS比,到底好在哪儿又差在哪儿呢?

分布式存储相对于传统的SAN和NAS,其优势和劣势都非常鲜明,可以理解为是不同时代、不同设计理念下的产物,要理解它们的区别,我们可以用一个简单的比喻:传统SAN像是一个庞大而集中的“中央仓库”,NAS像是每个部门自己管理的“独立文件柜”,而分布式存储则像是一个由无数个小储物格组成的、遍布各地的“自动化物流网络”。

我们来看看分布式存储好在哪儿。

第一点是极致的可扩展性,这是分布式存储最核心的优势,根据技术社区“InfoQ”上的一篇分析文章指出,传统SAN和NAS在建设之初就有固定的容量和性能上限,当你的业务增长,存储空间不够或者性能跟不上时,你只能购买更大、更贵的存储阵列进行“替换”或“叠加”,这个过程往往昂贵、复杂,而且可能还需要停机,而分布式存储完全不同,它通常采用标准的x86服务器构建,当需要扩容时,你只需要像搭积木一样,简单地增加几台普通的服务器节点到集群里即可,新加入的存储空间和计算性能会立刻被集群吸收,自动分摊负载,整个过程对前端业务几乎是透明的,没有感知,这种近乎无限的线性扩展能力,非常适合大数据、云计算这种需要海量弹性存储空间的场景。

第二点是更高的可靠性和可用性,传统SAN和NAS通常采用RAID(磁盘冗余阵列)技术,比如RAID5、RAID6,或者更高级别的双控制器甚至多控制器架构来保证高可用,但这种方式存在瓶颈,一旦整个存储阵列的控制器或整个机柜发生故障,虽然数据可能不丢,但业务很可能就会中断,根据存储专家张宽的博客中的观点,分布式存储的可靠性理念是“去中心化”的,它把数据打散成很多个小数据块,然后通过类似纠删码或副本的多副本技术,把这些数据块分散地存储在不同的物理服务器、甚至不同的机架上,这样,任何单一服务器、硬盘甚至整个机架的损坏,都不会导致数据丢失或服务中断,因为数据在其他地方还有备份,系统会自动检测到故障,并在后台默默地用健康节点上的数据副本来恢复丢失的数据块,这种架构的容灾能力天生就更强。

第三点是更低的总体拥有成本,这一点在超大规模部署时尤其明显,传统的高端SAN存储阵列是“专用硬件”的代名词,它使用的控制器、专用芯片、光纤交换机等都非常昂贵,而分布式存储构建在普通的x86服务器和以太网上,硬件成本大大降低,尽管你可能需要部署更多的服务器节点,但总体算下来,每TB(太字节)的存储成本通常远低于高端SAN,其简单的横向扩展模式也降低了后期的运维和扩容成本。

分布式存储跟传统SAN和NAS比,到底好在哪儿又差在哪儿呢?

第四点是架构上的灵活性,更适应现代应用,分布式存储通常原生支持文件、块、对象等多种存储服务接口,能够在一个平台上满足不同类型应用的需求,这对于需要处理非结构化数据(如图片、视频、日志文件)的现代应用,如大数据分析、人工智能训练等,是天然的优势,而SAN主要服务于结构化数据(如数据库),NAS主要服务于文件共享,功能相对单一。

分布式存储也不是万能的,它也有其“差在哪儿”的方面。

最主要的劣势在于性能和延迟的稳定性,根据存储老兵“大话存储”公众号中的技术分析,高端SAN存储是为追求极致性能而生的,它采用专有的高性能硬件和低延迟的光纤通道网络,能够提供微秒级别的、极其稳定的IO响应时间,这对于Oracle数据库、ERP核心交易系统等对延迟极其敏感的关键业务来说是不可或缺的,而分布式存储的网络基础通常是标准的万兆甚至更快的以太网,其数据需要经过多次路由和分发,虽然聚合带宽可以很高,但单个IO的延迟可能会波动,不如SAN那样稳定,在负载剧烈变化时,性能也可能出现抖动,对于最顶级的核心交易类数据库,目前很多企业还是会优先选择经过数十年验证的高端SAN。

分布式存储跟传统SAN和NAS比,到底好在哪儿又差在哪儿呢?

技术的复杂性和成熟度,分布式存储的软件栈本身非常复杂,虽然它对用户屏蔽了底层的管理细节,但其自身的集群管理、数据分布、故障恢复等机制比传统存储要复杂得多,运维人员需要具备新的技能栈,尽管分布式存储发展迅速,但在某些极端场景下的稳定性和可靠性,可能还不及已经存在了几十年、历经千锤百炼的传统高端存储阵列,企业级用户在选择时,对“成熟度”和“可支持性”的考量会非常重。

在中小规模部署下,优势可能不明显,如果一个企业只需要几十个TB的存储空间,部署一个分布式存储集群可能需要至少3个节点起步,其管理复杂度可能比一台功能完善的中端NAS或SAN更高,成本优势也未必能体现出来,分布式存储的价值往往在规模达到数百TB甚至PB级别时才会爆发式地体现。

分布式存储的优势在于其面向云和互联网时代的“scale-out”(横向扩展)架构,带来了无与伦比的扩展性、弹性和成本效益,特别适合海量数据、高并发访问的场景,而传统SAN/NAS在极致稳定的低延迟性能和对最核心关键业务的支持上,依然有其不可替代的价值,它们之间的关系不完全是“谁取代谁”,而是“分工协作”,在现代数据中心里,我们常常能看到混合存储的架构:核心数据库跑在SAN上,文件共享用NAS,而海量的非结构化数据、备份数据、开发测试环境等则放在分布式存储上,各取所长,共同支撑起企业的数字化转型。