华为云存储创新Lab论文被重要学术会议IEEE ICCD’2022接收,提出并实现一个协同任务调度与缓存管理的系统Tripod

国际计算机设计会议(IEEE International Conference on Computer Design,IEEE ICCD)是计算机系统领域的重要学术会议,IEEE ICCD’2022将于2022年10月23日-26在美国太浩湖召开。本次会议接收率为30%,华为云存储创新Lab和华中科技大学合作完成的Tripod论文在本次会议上被接收。

【论文信息】

Yulai Tong (HUST), Cheng Wang (Huawei), Jiazhen Liu (HUST), Hua Wang (HUST), Ke Zhou (HUST). “Tripod: Harmonizing Job Scheduling and Data Caching for Analytics Frameworks”. IEEE 40th International Conference on Computer Design (ICCD), Lake Tahoe, USA, October 2022.

【论文简介】

        现代数据分析平台通常使用Amazon S3等外部数据存储服务相结合,以适应异构的工作负载并满足扩缩容需求。但是这种存算分离式的部署方式容易造成高昂的计算存储瓶颈,严重影响任务的执行效率。为了缓解该瓶颈,分析集群通常使用缓存(比如Alluxio)来减少数据传输时延,并利用分析平台提供的高层信息来实现细粒度的缓存管理。但是现有工作只能够获得有限的缓存命中率,无法真正消除该存储计算瓶颈。

        为了解决上述问题,我们提出了一个协同任务调度与缓存管理的系统Tripod。Tripod从数据驱动的角度调整任务的执行过程,从而实现更为有效的缓存和预取操作以进一步消除存储计算瓶颈。我们将Tripod作为Apache Yarn和Tez的扩展模块,并在标准测试集TPC-H与TPC-DS上进行实验;结果表明与最新的工作相比,Tripod可以将计算引擎在单任务场景中的执行效率提高至1.7倍,多任务场景中提高至2倍。