主要观点总结
本文介绍了作者参与设计和开发涉及数十亿量级图片素材调度、处理和索引使用的平台的过程,以及在此过程中遇到的挑战和解决方案。包括图片导入实践总结、调度实践总结、素材输出能力建设总结等部分,并提供了图像感知哈希算法、均值哈希算法、差值感知算法的Python实现以及参数化VIEW的相关文档链接。
关键观点总结
关键观点1: 文章介绍了如何通过dataworks的open-api能力进行素材的导入和任务执行,包括使用分桶表加速离线数据并行处理、使用cube表实现素材业务属性存储的可扩展性、构建任务调度框架、以及素材输出能力的建设等。
文章详细描述了作者如何通过技术手段解决在平台建设中遇到的各种问题,包括使用不同的哈希算法进行图片key的生成、使用参数化VIEW支持图片属性的自由扩展等。
关键观点2: 提供了图像感知哈希算法、均值哈希算法和差值感知算法的Python实现。
这些算法在图片素材的处理和索引中起到了关键作用,能够帮助快速生成图片的hash值,并通过汉明距离计算图片的相似度。
关键观点3: 介绍了参数化VIEW的概念及其在离线输出能力中的应用。
参数化VIEW能够在保证数据隔离的基础上,最大程度地复用底层封装的Sql,提高了代码的重用性和效率。
文章预览
阿里妹导读 作者有幸参与设计和开发了涉及数十亿量级的图片素材调度、处理和索引使用的平台-产业AI素材库,在平台的建设落地过程中,踩了许多坑,也有了一些工程落地上的实践总结,希望分享给大家。 一、写在前面 因为业务需要,有幸参与设计和开发了涉及数十亿量级的图片素材调度、处理和索引使用的平台-产业AI素材库,在平台的建设落地过程中,踩了许多坑,也有了一些工程落地上的实践总结,希望分享给大家。文章包括的内容有(非文章实际内容顺序): 如何依托于dataworks的open-api能力进行素材的导入和任务执行; 如何使用分桶表加速离线数据的并行处理; 如何使用cube表实现素材业务属性存储的可扩展; 如何使用参数化视图VIEW支持对外数据使用的业务隔离; 如何设计一整套调度系统支持不同素材处理任务的执行; 图片唯一key生
………………………………