今天看啥  ›  专栏  ›  开放知识图谱

CCKS-IJCKG2024评测|山西大学和爱丁堡大学联合推出Text-to-SQL评测

开放知识图谱  · 公众号  ·  · 2024-08-30 18:00

主要观点总结

本文介绍了Text-to-SQL任务及其面临的挑战。为了应对这些挑战,山西大学和爱丁堡大学联合推出了Archer数据集,包含数学、常识和假设推理类型的查询。文章还介绍了Archer数据集的内容、评估指标、赛程及报名方式、奖励设置和任务组织联系人等信息。另外,还提及了OpenKG项目旨在推动中文知识图谱的开放、互联及众包。

关键观点总结

关键观点1: Text-to-SQL任务简介

将自然语言问题转换为可执行的SQL语句,在学术界和工业界受到广泛关注,但仍面临数学、常识和假设等复杂推理需求的挑战。

关键观点2: Archer数据集介绍

Archer是一个双语Text-to-SQL评测基准,包含1042个中文问题、1042个英文问题和521个相应的SQL查询,旨在应对复杂和微妙的查询需求。

关键观点3: 评估模型能力的指标

使用VAlid SQL (VA) and EXecution accuracy (EX)两个指标来评估模型的能力。

关键观点4: 赛程及报名方式

介绍了比赛的赛程、报名方式、提交结果及代码的时间、评测论文时间、评测颁奖时间等详细信息。

关键观点5: 奖励设置和任务组织联系人

本次任务总奖金池为10000元,并介绍了任务组织者和联系人的信息。

关键观点6: OpenKG项目简介

介绍了OpenKG项目旨在推动中文知识图谱的开放、互联及众包的信息。


文章预览

简介 Text-to-SQL任务旨在将自然语言问题转换为可执行的SQL语句,该任务在学术界和工业界都受到了广泛的关注。目前已有的一些方法在现有的一些评估基准上已经取得了不错的效果,但仍然无法满足进行数学、常识和假设等复杂的推理需求。为此,山西大学和爱丁堡大学联合推出了Archer,一个包含了以上三种推理类型的数据集,来进行更加复杂和微妙的查询。此外,我们使用大语言模型和微调过的模型进行了测试,即使是在已有数据集上取得SOTA的方法,在我们的数据集上仍然只有低于20%的执行准确率,说明Archer对目前的模型和技术来说,仍然是一个具有挑战性的数据集。 任务及数据集介绍 Archer是一个双语的Text-to-SQL评测基准,三种推理类型如下所示: 我们使用我们使用两个指标来评估模型的能力:VAlid SQL (VA) and EXecution accuracy (EX). VA是预测的SQL语 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览