今天看啥  ›  专栏  ›  字节跳动技术团队

减少 95% 资源的向量搜索 | 使用云搜索的 DiskANN

字节跳动技术团队  · 公众号  ·  · 2024-07-25 14:36

文章预览

当前尖端的向量近邻搜索算法,主要以图搜索算法为主,此类算法为了能够最大化搜索的速度与准确度,需要将对应的索引结构和原始数据存放在内存中,显然这不仅大大提高了成本,还限制了数据集的大小。例如在当前主流的内存型 HNSW 算法下, 业界常用的内存估算方式是:向量个数 * 4 * (向量维度 + 12) 。那么 在 DEEP 10M(96维)的   1   千万数据就需要内存达到 4GB 以上,但是 通过 DiskANN 优化后,仅需要 70 MB  的内存就可以对海量数据高效的进行检索 ;在 MS-MARCO(1024 维)的 1.38 亿条记录里,需要内存更是高达 534GB,这样检索 1.38 亿的数据需要 12 个 64GB 的节点。 按照上面的估算公式,到了 10 亿级别就需要大约 100 个节点,到 100 亿级别需要的节点数为 1000 个左右,这个规模的服务在资源成本和稳定性上都面临了极大的挑战。我们在服务客户的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览