专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

也看大模型用于实体识别数据增强:兼看RAG长文本优化策略、CLAPNQ评测集及图表问答基准MChartQA

老刘说NLP  · 公众号  ·  · 2024-04-04 13:23

文章预览

今天是2024年4月4日,星期四,清明节,北京,天气晴。 假期不停歇,我们来继续关注RAG、知识图谱以及文档理解方面的工作。 我们先来回顾昨日大模型进展早报,如下: 其次,我们来关注混合大模型与人工标注方案进行实体识别数据集增强、关于使用向量化上下文增强长文本RAG、关于一个新的长文本RAG数据集,并在最后看看图表问答的新工作。 供大家一起参考并思考。 一、混合大模型与人工标注进行实体识别数据生成 我们来看看利用LLMs增强NER数据集的一个工作, 《Augmenting NER Datasets with LLMs: Towards Automated and Refined Annotation》(https://arxiv.org/pdf/2404.01334)  引入了一种新的混合标注方法,利用LLM来补充已手动标注的数据集中的遗漏标注(假设存在遗漏标注),以缓解当前人工标注遗漏的问题。 其思想很简单,如图1所示,绿色的部分就是遗漏的实体 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览