整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

聊一聊多模态视频分类那些惊艳的Trick

关于NLP那些你不知道的事  · 公众号  ·  · 2024-06-27 21:20

文章预览

作者:至尊宝 原文地址:https: //zhuanlan.zhihu.com/p/578515895 一、标签制定 1)细分标签考虑标注难易程度、算法模型、下游业务(推荐/检索),每个L1下面原则上不超过6个L2比较好 2)制定标签主要考虑到标签的范围、最好枚举出来;不确定的标签给出处理情况;相似性标签或者多标签根据上面三个因素决定优先级别,确定不同标签之间的排序;相似的标签出一个即可,避免重复 3)每个类别选20个样本进行第一二轮试标,标签制定者参与试标,因为试标才能针对一些边缘case制定定义策略,后续模型学习的也是标注规则 4)进行一个L1下面的标签标准或者同一个页面40个视频标是或否,比80个选一要好 二、清洗数据 1)如果训练集噪声比较大,准确率低于80%,需要一个干净准确率>90%的同分布的种子集和测试集,在种子集上finetune,效果会比在直接大量有噪声的训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览