友情提示:全文多文字,预计阅读时间3分钟
一、背景
中国移动云能力中心在年中国移动全球合作伙伴大会上发布了全新自研面向海量数据场景的EB级天权统一存储系统,该系统可有效支撑对象存储单桶容量突破百PB级别,重新定义海量数据的不凡,并可支撑即将横空出世的新一代云硬盘产品,满足其百万IOPS,微秒级时延的设计目标,助力企业深度释放数据价值。
二、总体架构
物联网、人工智能、5G等技术带动了数据爆发式增长,企业超大规模数据的存储与治理成本与日俱增,分布式存储必须能够满足用户对海量数据时代超大容量存储空间的迫切需求。
另外,随着越来越多的数据库、实时日志分析等用户关键业务逐步上云,企业对分布式存储的性能要求也随之提升。幸运的是,随着诸如NVMe、PMem等存储硬件的出现,以及SPDK、RDMA等用户态技术的发展,使得高性能低延迟的存储产品成为可能。
大云天权存储系统面向百万IOPS超高IO、4GB/s超大带宽、百微秒级别超低时延、EB级系统扩展规模进行设计,全面满足DT时代云用户对高带宽、高密集IO、低时延、高扩展的极致需求。
其基本设计思想如下:
采用分层架构,充分剥离业务逻辑层和存储引擎层,降低系统耦合性;
采用中心化元数据设计,数据切片索引中心化治理,元数据节点具备高可用能力;
实现全用户态存储引擎,充分挖掘硬件能力,为高性能IO能力提供有力支持。
天权存储系统整体架构由存储业务层(块、对象、文件)和底层统一存储引擎层组成:
块存储业务层:
负责块数据索引管理、卷管理、快照/克隆、QoS、卷备份等功能;
对象存储业务层:
负责接入网关、桶管理、对象管理、生命周期、多数据中心等功能;
文件存储业务层:
负责NFS/SAMBA/POSIX接口、访问控制、用户配额等功能;
统一存储引擎层:
专注在数据面,提供数据集群的大规模水平拓展能力、集群容灾及其他服务治理能力,提供数据可靠性管理等功能。
三、技术创新
创新一:中心化元数据设计,快速响应请求
天权存储系统的设计理念是支撑超大规模集群,超大规模集群首先要解决的问题是数据量增大之后的索引尺度问题,这是一个被业界长期探讨的问题,根据我们团队在Ceph产品上的多年耕耘,认为类似Ceph的去中心化的设计复杂化了集群管理和扩容操作的可观察性,相反,中心化索引的分布式存储系统具有调度灵活、架构简单的优势。
我们通过增大数据存储的粒度来降低了索引数量的尺度,以此降低关键路径对中心化索引的依赖度。为此,天权的数据管理单元做了GB级别设计,并通过内存数据快速地响应元数据访问请求,这样即使单集群规模超百PB,一组普通x86服务器组成的元数据索引集群也足够应对。
基于此套索引技术,我们可以实现大规模、平滑无感知的存储集群的扩容,让移动云用户的上层应用真正享受到稳定的公有云存储能力。
创新二:实现追加写,支持non-stopwrite
通过中心化索引管理和追加写的数据模型,实现快速、无中断的可用数据节点的选择和替换,在感知到节点不可用时为后续到来IO分配一组新的副本节点用于数据追加写入,此时只需更新索引指向新分配数据块,即可实现IO的non-stopwrite特性。
non-stopwrite的实现有助于对IO稳定性有超高要求的应用在复杂的公有云环境下得到平滑稳定的IO能力。
创新三:实现CopySet副本组,副本丢失概率低
随着数据规模的扩大,存储业界也逐渐意识到多副本技术在面临数据中心关联故障(大面积集群重启或掉电)时数据丢失的风险。对此,移动云云存储团队在天权分布式存储系统中设计了基于CopySets概念的副本管理能力,通过将所有节点划分为N/R个CopySet,每次数据写入的时候,按照不同的策略均匀地选择CopySet写入,能够有效降低数据丢失风险。
通过CopySets技术的应用,天权存储系统能够应对大规模集群故障情况下的数据容灾,提供更高的数据可靠性。
创新四:通过RDMA+SPDK+CPUaffinity,为百万IOPS保驾护航
移动云云存储团队充分吸收了包括BlueStore、Haystack在内的多个存储引擎的设计与实现,最终实现了基于裸盘设计的高性能存储引擎,该引擎能够在占用足够小的内存索引的情况下,依靠一次IO定位并读取数据。
基于大云天权存储系统实现的移动云百万IOPS云硬盘产品IO全链路实现了RDMA网络技术支持,可有效规避传统TCP网络协议栈中的进程上下文切换、内存拷贝等问题导致的网络处理高延迟和CPU开销过高问题。
通过使用spdk-vhost模式替代原有的qemu-virtio模式,使得虚机和宿主机之间的数据交换更加高效,通过使用SPDK无锁队列技术并结合多线程绑核策略,提供32TB单块云盘的百万IOPS超高性能支撑,使得多副本延迟控制在百微秒级别。
基于天权存储实现的超高IOPS云盘为高性能数据库在云上的使用提供了基础保障,让更多的关键应用能够顺利上云。
创新五:实现数据跨集群智能调度
以往,对象存储单桶容量往往受限于单集群存储规模,无法实现百PB容量空间突破,移动云云存储团队积极实践跨集群的解决方案,实现按容量优先的集群选择策略,在LB负载调度层将写入PUT请求调度至多个集群。
单桶超大规模对象存储的实现可以有效降低上层应用在数据管理上面临的痛点,不再需要跨桶进行数据的存储和分发,业务逻辑更加简洁。
四、展望
天权统一存储产品的设计和开发,是中国移动苏州研发中心存储团队过去几年在公有云存储领域的深耕和沉淀的成果输出,结合当前业务的需求和存储领域的发展动态,真正的一手稳需求,一手抓发展的体现。
移动云存储团队后续会持续将最新的技术反馈到业务发展中并最终惠及移动云的用户,使移动云存储服务能够为上层业务能力的提升提供澎湃的动力,让用户能更放心地上云、安心地用云。
作者简介
邓瑾
中国移动云能力中心高级软件开发工程师,目前负责移动云大规模底层存储系统的研发、设计工作。加入移动前曾就职于腾讯、UCloud任高级工程师、存储架构师等工作,长期专注于分布式存储领域相关技术,拥有丰富的系统研发、项目运营经验。
张卓豫
中国移动云能力中心软件开发工程师,目前负责移动云大规模底层存储系统元数据模块的开发工作,长期专注于内核、虚拟化、分布式存储等领域相关技术,拥有丰富的开发运维经验。
往期·精选
1、虚拟化顶级技术会议KVMForum演讲分享
移动云KVM共享云盘技术实践
2、全球开源基础设施技术峰会分享
自研软硬一体化加速方案
3、中国云计算基础架构开发者大会演讲分享-热补丁在移动云的应用
预览时标签不可点收录于话题#个上一篇下一篇