专栏名称: 开放知识图谱

OpenKG：开放促进互联、链接创造价值

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

CCKS-IJCKG2024评测｜山西大学和爱丁堡大学联合推出Text-to-SQL评测

开放知识图谱 · 公众号 · 科技自媒体 · 2024-08-30 18:00

主要观点总结

本文介绍了Text-to-SQL任务及其面临的挑战。为了应对这些挑战，山西大学和爱丁堡大学联合推出了Archer数据集，包含数学、常识和假设推理类型的查询。文章还介绍了Archer数据集的内容、评估指标、赛程及报名方式、奖励设置和任务组织联系人等信息。另外，还提及了OpenKG项目旨在推动中文知识图谱的开放、互联及众包。

关键观点总结

关键观点1: Text-to-SQL任务简介

将自然语言问题转换为可执行的SQL语句，在学术界和工业界受到广泛关注，但仍面临数学、常识和假设等复杂推理需求的挑战。

关键观点2: Archer数据集介绍

Archer是一个双语Text-to-SQL评测基准，包含1042个中文问题、1042个英文问题和521个相应的SQL查询，旨在应对复杂和微妙的查询需求。

关键观点3: 评估模型能力的指标

使用VAlid SQL (VA) and EXecution accuracy (EX)两个指标来评估模型的能力。

关键观点4: 赛程及报名方式

介绍了比赛的赛程、报名方式、提交结果及代码的时间、评测论文时间、评测颁奖时间等详细信息。

关键观点5: 奖励设置和任务组织联系人

本次任务总奖金池为10000元，并介绍了任务组织者和联系人的信息。

关键观点6: OpenKG项目简介

介绍了OpenKG项目旨在推动中文知识图谱的开放、互联及众包的信息。

文章预览

简介 Text-to-SQL任务旨在将自然语言问题转换为可执行的SQL语句，该任务在学术界和工业界都受到了广泛的关注。目前已有的一些方法在现有的一些评估基准上已经取得了不错的效果，但仍然无法满足进行数学、常识和假设等复杂的推理需求。为此，山西大学和爱丁堡大学联合推出了Archer，一个包含了以上三种推理类型的数据集，来进行更加复杂和微妙的查询。此外，我们使用大语言模型和微调过的模型进行了测试，即使是在已有数据集上取得SOTA的方法，在我们的数据集上仍然只有低于20%的执行准确率，说明Archer对目前的模型和技术来说，仍然是一个具有挑战性的数据集。任务及数据集介绍 Archer是一个双语的Text-to-SQL评测基准，三种推理类型如下所示：我们使用我们使用两个指标来评估模型的能力：VAlid SQL (VA) and EXecution accuracy (EX). VA是预测的SQL语 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

湖南省广播电视局 · 【资讯】省广电局领导赴常德电视调频转播台开展调研

14 小时前

湖南省广播电视局 · 【资讯】省广电局领导赴常德电视调频转播台开展调研

14 小时前

河南省发改委 · 河南等地发现多处高纯石英矿！成为我国新矿种

15 小时前

人民日报数字传播 · 当人工智能学会书写，出版何为？

15 小时前

人民日报数字传播 · 当人工智能学会书写，出版何为？

15 小时前

芯东西 · 谷歌深夜甩出AI芯片猛兽！最强TPU算力暴涨，能跑推理模型，内存大飙升

18 小时前

芯东西 · 谷歌深夜甩出AI芯片猛兽！最强TPU算力暴涨，能跑推理模型，内存大飙升

18 小时前

网易新闻 · 掀翻牌桌十年后，划时代的“汉唐盛世”来了

2 天前

网易新闻 · 掀翻牌桌十年后，划时代的“汉唐盛世”来了

2 天前

CBG资讯 · 五邑大学黄玉冰课题组Chem. Sci.：有机媒介物促进烯烃的电还原氘芳基化反应

9 月前

掌上春城 · 传染性较强，尚无特效药！一医院已确诊700多例

9 月前

环评互联网 · 关于调整《山西省煤炭洗选行业建设项目管理暂行办法》部分事项的通知

7 月前

第十一诊室 · 入秋后的第一件衬衫，简单又要有质感！

6 月前

元芳周期交易午评 · 4.7午评 | 节前减仓避险，耐心等待抄底机会！

3 天前