专栏名称: 机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
目录
相关文章推荐
PaperWeekly  ·  北京/杭州内推 | ... ·  2 天前  
今天看啥  ›  专栏  ›  机器之心SOTA模型

今日开源(2025-03-28):OmniSQL,文本到SQL数据生成大模型,含百万级跨领域数据集,7B/14B/32B参数可选

机器之心SOTA模型  · 公众号  ·  · 2025-03-28 18:18
    

文章预览

🏆基座模型 ①项目:OmniSQL ★OmniSQL是一个自动化且可扩展的文本到SQL数据合成框架,旨在生成高质量的文本到SQL数据集。 其核心数据集SynSQL-2.5M是首个百万级跨领域文本到SQL数据集,包含超过250万条多样且高质量的数据样本,涵盖16,000多个不同领域的数据库。OmniSQL还提供了三种规模的强大文本到SQL模型:7B、14B和32B,并在微调过程中整合了Spider和BIRD等高质量人工标注数据集。 ☆一键收藏: https://sota.jiqizhixin.com/project/omnisql ②项目:Diagnosis Zero ★Diagnosis Zero项目旨在复现和探索DeepSeek R1 Zero在罕见病诊断任务中的应用。 项目利用Rare Arena数据集,通过GRPO训练模型。给定患者的病历,模型通过链式思维提示进行推理后给出诊断。项目的主要目标是研究不同规模的Qwen2.5-Instruct模型在训练过程中的表现。 ☆一键收藏: https://sota.jiqizhixin.com/project/diagnosiszer ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览