华为云GaussDB数据库精彩亮相VLDB 2025,多篇论文成功入选
2025-09-12
数据库领域顶级国际会议VLDB 2025在英国伦敦盛大举行。会议聚集了全球数据库领域的顶尖专家学者,共同分享前沿研究成果,探讨未来发展趋势。华为共18篇论文成功入选,并在多场活动中带来精彩分享。
华为高斯实验室主任 王磊发表了题为《Unified AI-Native & Cloud-Native Database Platform for Data+AI Era》的演讲,分享了GaussDB在与AI、云原生等新技术融合下的技术创新,表示在AI与云原生时代下,GaussDB积极融合新技术趋势,构建了具备自监控、自诊断、自调优能力的智能运维系统,推出了向量数据库以及智能问答系统,并基于云原生技术实现了透明多写架构、智能路由等能力,而未来,GaussDB还将致力于打造一体化的数据平台,助力企业实现数字化与智能化一体化应用,赋能千行万业数智化升级。
在入选论文中,GaussDB的两篇亮点论文《GaussDB-Vector: A Large-Scale Persistent Real-Time Vector Database for LLM Applications》、《GRewriter: Practical Query Rewriting with Automatic Rule Set Expansion in GaussDB》分别对当前业界重点关注的向量数据库、查询重写技术的创新进行了解析。
论文一:《GaussDB-Vector: A Large-Scale Persistent Real-Time Vector Database for LLM Applications》
向量数据库作为解决大语言模型(LLM)短板的基础工具,得到了广泛应用。然而,现有向量数据库要么仅适用于低延迟内存搜索的小众应用场景,要么虽具备完善的数据管理能力,却要牺牲性能。
而该论文提出的高性能、实时持久化向量数据库GaussDB,在低延迟可扩展搜索、实时插入与删除、高可用性、大规模分布式搜索以及向标混合过滤搜索等方面都有卓越表现。这些特性专为基于图的向量索引而设计,基于创新的存储架构,优化了I/O操作,适配各种数据集大小和维度,并辅以创新的缓冲策略,进一步减轻了I/O负担。此外,GaussDB-Vector还支持量化算法、并行搜索,以及SIMD、GPU和NPU硬件加速,来进一步提升查询速度。实验结果表明,GaussDB的性能可提升1至5倍。
论文二:《GRewriter: Practical Query Rewriting with Automatic Rule Set Expansion in GaussDB》
对数据库而言,高效重写各类复杂多样的查询至关重要。GaussDB此前的查询重写器在扩展性方面的局限,不仅会加大提炼通用性强、适用范围广的重写规则的难度,还会增加规则编码集成到系统中的成本。
该论文创新性地提出了GaussDB的新型可扩展查询重写器:GRewriter。GRewriter部署在现有优化器之上,能够探索有效的重写规则,支持多种规则并存,且可根据具体查询场景动态选择适配规则。为了实现重写引擎与具体规则的解耦,论文设计了一种新的规则描述语言G-DSL,用于定义重写规则,为了提高重写效率,GRewriter引入了新型的规则索引结构与重写历史缓存机制。
GRewriter中的规则由离线规则生成器生成。该生成器采用创新的枚举技术与全新的等价性定理,能够高效发现经过形式验证的规则,表达能力远超以往研究中的原型系统。为方便实际运维操作,GRewriter还支持通过通用SQL接口进行手动规则编写与交互式规则管理。
目前,GRewriter已经集成到GaussDB中,并逐步向客户推广。GRewriter为GaussDB配备了超过一百条规则,而性能开销却微乎其微(低于1%)。这些新的重写规则显著提升了ERP系统和银行交易系统的查询性能——生产查询延迟从26秒缩短至17毫秒,降低了99.9%。
会议期间,由克里特理工大学和雅典娜研究中心、清华大学、Microsoft研究院、华为云联合组织并由华为赞助的首届“Industrial Data Systems Research (IDSR) Workshop”顺利召开。会议汇集了多位领先的行业研究人员和从业者,共同探讨工业数据系统领域的最新趋势、研究成果,以及当前面临的挑战和未来研究方向。
多年来,华为云GaussDB通过深入的产学研合作与持续的国际交流,不断提升在全球学术与产业界的影响力,此次亮相也成为现场关注与讨论的焦点之一。未来,华为将继续携手全球伙伴,共同推动数据库技术的进步与产业生态的繁荣,为企业数智化发展构建坚实可靠的数据根基。