专栏名称: 京东科技技术说
京东科技官方技术公众号,传递最佳实践&技术创新。
目录
相关文章推荐
今天看啥  ›  专栏  ›  京东科技技术说

CDP技术系列(一):使用bitmap存储数十亿用户ID的标签或群体

京东科技技术说  · 公众号  ·  · 2024-12-25 10:50
    

文章预览

一、背景介绍 CDP系统中目前存在大量由用户ID集合组成的标签和群体,截止当前已有几千+标签,群体2W+。 大量的标签都是亿级别数据量以上,例如性别、职业、学历等均,甚至有群体中的ID数量达到了数十亿+。 并且随着用户ID池的不断增加,标签和群体本身包含的ID数量也随之增加,如何存储如此多的数据,标签与群体之间的组合计算,是我们面临的挑战。  二、问题描述 如此大量的用户ID集合,虽然标签和群体的ID集合本质类似,但是都需要存储亿级别的ID数据,这就对存储结构提出较高的要求。 这里拿群体举例,如果某群体包含1000W个用户ID,通过文本文件存储,大概需要150M,40亿的群体就达到了惊人的150*40*10=60000M,大约60G,而我们的群体数量已经达到了几W+,再加上标签数据,所需要的存储空间将不可接受。 并且,数据的存储只是其中一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览