主要观点总结
文章介绍了小红书基础架构存储团队基于大规模并行处理(MPP)理念,优化图数据库上的分布式并行查询框架,成功将多跳查询的时延降低了50%以上,尤其是使3跳查询在在线场景从不能用到落地,增强了在线业务的数据处理能力。团队提出了一种从框架层面优化多跳查询时延的方案,在业务上使在线场景中使用多跳查询成为可能,在技术上实现了图数据库查询的框架级优化。
关键观点总结
关键观点1: 多跳查询的挑战与解决方案
小红书在社交、风控及离线任务调度等场景中均采用了图数据库,然而在实际应用过程中遇到了一些挑战,如三跳查询时延较高,业务只能使用一至二跳查询。团队提出基于MPP理念的分布式并行查询解决方案,成功降低多跳查询时延,实现在线场景使用多跳查询。
关键观点2: REDgraph架构与优化方案
REDgraph采用存算分离+shared-nothing的架构,通过边切分的方式切分图数据。团队对多跳查询执行流程进行优化,包括取消全局Barrier,提高查询层并行性,减少重复查询,利用热点处理、负载均衡、流程控制等措施,实现了分布式并行查询。
关键观点3: 性能测试与效果
通过性能测试,原生查询和分布式查询在一跳和二跳情况下性能相当,从三跳起,分布式查询较原生查询能实现50%至60%的性能提升。测试结果显示,时延降低了50%以上,满足在线业务场景的时延要求,验证方案的有效性。
关键观点4: 未来展望与邀请
团队计划将新架构逐步应用于相关业务场景,并继续提升REDgraph的多跳查询能力,将其和REDtao融合,打造成一个统一的数据库产品。欢迎对技术有极致追求的同学加入团队,共同推动图数据技术的发展。
文章预览
多跳查询为企业提供了深入的数据洞察和分析能力,它在小红书众多在线业务中扮演重要的角色。然而,这类查询往往很难满足稳定的 P99 时延要求。小红书基础架构存储团队针对这一挑战,基于大规模并行处理(MPP)的理念,开发了一种图数据库上的分布式并行查询框架,成功将多跳查询的时延降低了 50% 以上,尤其是使 3 跳查询在在线场景从不能用到落地,极大地增强了在线业务的数据处理能力。 本文核心贡献在于: 团队提出了一种从框架层面优化多跳查询时延的方案,在业务上使在线场景中使用多跳查询成为可能,在技术上实现了图数据库查询的框架级优化。 全文将从以下几个方面依次展开: 介绍小红书使用图数据库的背景,并分析多跳查询在实际业务中因时延高而受限的现状(需求是什么) 深入探讨 REDgraph 架构,揭示原有查询模式的不
………………………………