专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

也看大模型用于实体识别数据增强：兼看RAG长文本优化策略、CLAPNQ评测集及图表问答基准MChartQA

老刘说NLP · 公众号 · · 2024-04-04 13:23

文章预览

今天是2024年4月4日，星期四，清明节，北京，天气晴。假期不停歇，我们来继续关注RAG、知识图谱以及文档理解方面的工作。我们先来回顾昨日大模型进展早报，如下：其次，我们来关注混合大模型与人工标注方案进行实体识别数据集增强、关于使用向量化上下文增强长文本RAG、关于一个新的长文本RAG数据集，并在最后看看图表问答的新工作。供大家一起参考并思考。一、混合大模型与人工标注进行实体识别数据生成我们来看看利用LLMs增强NER数据集的一个工作，《Augmenting NER Datasets with LLMs: Towards Automated and Refined Annotation》(https://arxiv.org/pdf/2404.01334) 引入了一种新的混合标注方法，利用LLM来补充已手动标注的数据集中的遗漏标注（假设存在遗漏标注），以缓解当前人工标注遗漏的问题。其思想很简单，如图1所示，绿色的部分就是遗漏的实体 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博