华为云存储创新Lab论文被USENIX ATC’2022接收,提出云数据中心中微秒级的超低时延Membership Service

USENIX 年度技术会议(USENIX Annual Technical Conference,USENIX ATC)是计算机系统领域的著名学术会议,USENIX ATC’2022将于2022年7月11日-13日在加州的卡尔斯巴德召开,本次共投稿393篇论文,接收64篇,接收率为16.3%。华为云存储创新Lab和EPFL合作完成的uKharon论文以全部正分(3分及以上)被接收,这也是华为云存储创新Lab连续两年在USENIX ATC上发表论文。

【论文信息】

Rachid Guerraoui (EPFL), Antoine Murat (EPFL), Javier Picorel (Huawei), Athanasios Xygkis (EPFL), Huabing Yan (Huawei), Pengfei Zuo (Huawei). “uKharon: A Membership Service for Microsecond Applications”. USENIX Annual Technical Conference, Carlsbad, CA, USA, July 2022.

【论文简介】

现代数据中心网络让诸如数据存储和消息队列等分布式应用进入了微秒时代。除了在微秒级别构建服务之外,这些分布式应用的一大挑战是能够在故障出现的时候快速改变成员节点进行故障切换。快速成员变化对于延迟敏感服务尤为重要,例如分析和交易系统,因为这是许多云商应用的容错核心。在微服务架构这一云服务构建的新标准下,单个用户请求会被转化成高扇出的服务交互请求,这导致在传统架构下不常见的服务重配置事件和服务错误在微服务架构下更频繁的发生,从而让用户请求频繁地经历由于容错和服务重配置带来的高延迟。

为了解决上述问题,我们提出了一个微秒级别的成员服务 uKharon。uKharon 能在 50 微秒内检测应用的成员变化并进行故障切换。uKharon 包含多级故障检测、单边共识引擎和成员租约服务三个部分,所有操作都通过RDMA 完成。我们基于 HERD 构建了一个多副本键值存储 uKharon-KV 来展示 uKharon 的能力。uKharon-KV 能在 1.26 微秒内对小请求进行复制,比现有方法快 13%。同时 uKharon-KV 能在 53 微秒内做到故障切换,与现有工作相比有 10 倍的性能提升。