媒体报道 > 华为云GaussDB数据库精彩亮相VLDB 2025，多篇论文成功入选

华为云GaussDB数据库精彩亮相VLDB 2025，多篇论文成功入选

2025-09-12

数据库领域顶级国际会议VLDB 2025在英国伦敦盛大举行。会议聚集了全球数据库领域的顶尖专家学者，共同分享前沿研究成果，探讨未来发展趋势。华为共18篇论文成功入选，并在多场活动中带来精彩分享。

华为高斯实验室主任王磊发表了题为《Unified AI-Native & Cloud-Native Database Platform for Data+AI Era》的演讲，分享了GaussDB在与AI、云原生等新技术融合下的技术创新，表示在AI与云原生时代下，GaussDB积极融合新技术趋势，构建了具备自监控、自诊断、自调优能力的智能运维系统，推出了向量数据库以及智能问答系统，并基于云原生技术实现了透明多写架构、智能路由等能力，而未来，GaussDB还将致力于打造一体化的数据平台，助力企业实现数字化与智能化一体化应用，赋能千行万业数智化升级。

在入选论文中，GaussDB的两篇亮点论文《GaussDB-Vector: A Large-Scale Persistent Real-Time Vector Database for LLM Applications》、《GRewriter: Practical Query Rewriting with Automatic Rule Set Expansion in GaussDB》分别对当前业界重点关注的向量数据库、查询重写技术的创新进行了解析。

论文一：《GaussDB-Vector: A Large-Scale Persistent Real-Time Vector Database for LLM Applications》

向量数据库作为解决大语言模型（LLM）短板的基础工具，得到了广泛应用。然而，现有向量数据库要么仅适用于低延迟内存搜索的小众应用场景，要么虽具备完善的数据管理能力，却要牺牲性能。

而该论文提出的高性能、实时持久化向量数据库GaussDB，在低延迟可扩展搜索、实时插入与删除、高可用性、大规模分布式搜索以及向标混合过滤搜索等方面都有卓越表现。这些特性专为基于图的向量索引而设计，基于创新的存储架构，优化了I/O操作，适配各种数据集大小和维度，并辅以创新的缓冲策略，进一步减轻了I/O负担。此外，GaussDB-Vector还支持量化算法、并行搜索，以及SIMD、GPU和NPU硬件加速，来进一步提升查询速度。实验结果表明，GaussDB的性能可提升1至5倍。

论文二：《GRewriter: Practical Query Rewriting with Automatic Rule Set Expansion in GaussDB》

对数据库而言，高效重写各类复杂多样的查询至关重要。GaussDB此前的查询重写器在扩展性方面的局限，不仅会加大提炼通用性强、适用范围广的重写规则的难度，还会增加规则编码集成到系统中的成本。

该论文创新性地提出了GaussDB的新型可扩展查询重写器：GRewriter。GRewriter部署在现有优化器之上，能够探索有效的重写规则，支持多种规则并存，且可根据具体查询场景动态选择适配规则。为了实现重写引擎与具体规则的解耦，论文设计了一种新的规则描述语言G-DSL，用于定义重写规则，为了提高重写效率，GRewriter引入了新型的规则索引结构与重写历史缓存机制。

GRewriter中的规则由离线规则生成器生成。该生成器采用创新的枚举技术与全新的等价性定理，能够高效发现经过形式验证的规则，表达能力远超以往研究中的原型系统。为方便实际运维操作，GRewriter还支持通过通用SQL接口进行手动规则编写与交互式规则管理。

目前，GRewriter已经集成到GaussDB中，并逐步向客户推广。GRewriter为GaussDB配备了超过一百条规则，而性能开销却微乎其微（低于1%）。这些新的重写规则显著提升了ERP系统和银行交易系统的查询性能——生产查询延迟从26秒缩短至17毫秒，降低了99.9%。

会议期间，由克里特理工大学和雅典娜研究中心、清华大学、Microsoft研究院、华为云联合组织并由华为赞助的首届“Industrial Data Systems Research (IDSR) Workshop”顺利召开。会议汇集了多位领先的行业研究人员和从业者，共同探讨工业数据系统领域的最新趋势、研究成果，以及当前面临的挑战和未来研究方向。

多年来，华为云GaussDB通过深入的产学研合作与持续的国际交流，不断提升在全球学术与产业界的影响力，此次亮相也成为现场关注与讨论的焦点之一。未来，华为将继续携手全球伙伴，共同推动数据库技术的进步与产业生态的繁荣，为企业数智化发展构建坚实可靠的数据根基。