WWW 2025|华为云可用性工程Lab举办硬件故障预测赛事暨研讨会,以赛促研共探数据中心稳定性前沿方案
在数据中心规模急速扩张与云计算、大数据存储需求爆发的双重驱动下,硬件可靠性已成为数字基础设施的核心问题。为此,华为云可用性工程Lab联合华为战略研究院、2012 RAMS实验室,携手中国科学技术大学、香港科技大学(广州)、柏林工业大学等全球顶尖学术机构,以The Web Conference 2025(WWW)大会为契机,共同发起硬件可靠性挑战赛及创新研讨会SmartMem,探索数据中心集群稳定性前沿解决方案。本届赛事获得全球学术界与产业界的高度关注,覆盖30余个国家及地区,吸引逾200支专业团队竞逐,经过两周的严格代码复现与报告评审,最终评选出前六名获奖选团队,涵盖海内外top高校在读硕士生、博士生以及在职的数据科学家和多项竞赛优胜者。赛事成果在WWW 2025官方Workshop进行专题汇报,并举办线上线下融合的研讨会,吸引百余位参赛者及领域学者参与交流。活动不仅展现了产学研协同创新的巨大潜力,更推动了智能运维领域的技术突破与产业实践。
SmartMem竞赛
冠军团队NOVA由北航计算机学院中德研究所的三名博士生组成,他们基于计算机体系结构领域的专业知识,设计了基于部件号(PN)分组及投票机制的内存故障预测系统,该系统通过整合错误数据特征、DQ-Beat信号特征、故障计数特征等多维指标,并采用k折交叉验证和基于PN的分组训练策略,有效应对了数据分布差异的挑战,显著提升了内存不可纠正错误(UE)的预测准确率,为预防服务器宕机提供了可靠的技术方案。
获奖团队NOVA在WWW workshop进行方案分享
云可用性工程Lab主任为获奖选手颁奖
荣获本届赛事亚军的"取名很头疼"团队由多位资深数据科学家组成,他们在工业级数据建模领域拥有丰富实战经验,曾多次在业界顶级数据科学竞赛中取得优异成绩。该团队提出的方案主要聚焦于解决严重样本不均衡、信息稀疏样本多、数据分布偏移严重以及原始日志中存在高噪声和缺失等方面问题。他们首先设计了动态标签窗口机制,通过观察窗口后7天的异常事件(UE)来准确定义DRAM模块故障标签,有效避免了误标问题;其次采用负采样和适应性采样等策略,成功解决了数据不均衡和稀疏性问题;最后通过时间分割验证方法确保模型的泛化能力。这些创新方法显著提升了预测系统的准确性和鲁棒性,为工业场景下的内存故障预警提供了可靠的技术方案。
亚军团队成员简介
荣获季军的"first_wewillwin"团队来自杭州电子科技大学EDA技术创新中心,他们凭借扎实的工程实践能力和创新思维,在存储系统故障预测领域提出了系统化解决方案。该团队针对存储系统故障预测的挑战,提出了系统化的解决方案。团队深入分析存储日志和配置数据,利用滑动时间窗口技术提取时序动态特征,有效捕捉故障前的关键模式。在模型选择上,团队采用了基于树的集成学习方法,结合多种强学习器,通过加权投票和回归校准技术优化预测结果,为存储系统故障预测提供了高效可靠的解决方案。
2012 RAMS实验室专家为“first_wewillwin”代表颁奖
组委会与与会获奖选手合影
本次WWW workshop的获奖方案从多角度系统性地解决了内存故障预测中的核心挑战,包括数据噪声、样本不均衡、跨厂商差异等问题。各方案虽技术路线不同,但均体现出“特征工程优化”与“模型鲁棒性增强”两大核心思路,这些方法在保持较高计算效率的同时,显著提升了UE预测的准确率与稳定性,为工业场景提供了多样化的技术选择。本次竞赛的成果不仅推动了故障预测的算法创新,也为工业界提供了可落地的技术范本。未来研究需进一步关注实时性、通用性与运维友好性的协同优化,例如增强模型可解释性以辅助运维决策,以及多模型自主融合等方向的探索。
更多内容可以参考竞赛主页
https://hwcloud-ras.github.io/SmartMem.github.io/ 或者
https://www.codabench.org/competitions/3586/