今天看啥  ›  专栏  ›  深度学习与NLP

手机也能玩RAG?谷歌EdgeRAG做到了~

深度学习与NLP  · 公众号  ·  · 2025-01-08 08:00
    

文章预览

边缘设备(如手机)因内存和计算能力有限,运行RAG面临巨大挑战; 例如:一个存储了 523万 条记录的向量数据库的索引大小为 18.5 GB ,而手机通常只有4-12 GB的主内存。 RAG的Pipeline 因此,谷歌等提出一种 EdgeRAG 系统: 通过 选择性存储 ,不是所有向量都存储, 只有在检索过程中真正需要的嵌入向量才会被生成和存储, 此外,还采用自适应缓存策略,以减少冗余计算并进一步优化延迟。 EdgeRAG索引过程 数据预处理与聚类 :文本语料库被分割成较小的数据块,为每个数据块生成嵌入向量,然后进行聚类。聚类中心被存储在第一级索引中. 嵌入向量的存储决策 :对于每个聚类中的数据块,计算生成嵌入向量的成本。如果成本超过预定义的服务级别目标(SLO),则存储整个数据块的嵌入向量;否则,丢弃嵌入向量以优化存储. EdgeRAG检索过程 查找最相似 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览