专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
目录
今天看啥  ›  专栏  ›  老刘说NLP

大模型数据质量评估及优化工具整理:兼看用多模态模型处理表格理解的数据集及任务设计

老刘说NLP  · 公众号  ·  · 2024-07-02 11:40
    

文章预览

今天是2024年7月2日,星期二,北京,天气晴。 今天,我们来看看文档智能与数据方面的相关进展。看2个问题, 一个是大模型数据质量评估工具的一个整理;一个用多模态模型处理表格理解,其中涉及到的数据增强和任务数据很有趣。 ‍ 供大家一起参考并思考。 一、问题1:大模型数据质量评估工具的一个整理 数据的质量评估一直是当前机器学习/深度学习所关注的焦点,如何从不同的维度出发对数据进行评估,并针对特定的任务进行迭代优化十分重要。 尤其是最近出现的评估工具,而关于大模型数据质量评估,可以看看大模型的数据质量评估工具综述: 《A Survey on Data Quality Dimensions and Tools for Machine Learning》(https://arxiv.org/pdf/2406.19614) , 研究和总结了过去五年中的17种数据质量评估和改进工具,通过介绍这些工具中嵌入的DQ维度、指标和主要功能, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览