如何评估LLM？

深度学习与NLP · 知乎回答 · AI · 2024-06-28 11:43

文章预览

论文题目：Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models 论文地址： https:// arxiv.org/abs/2406.1173 6 项目地址： https:// github.com/xufangzhi/EN VISIONS 1 引言大语言模型（Large Language Model, LLM）在以自然语言为核心的任务上取得了卓越的性能。LLM的成功依赖于大量可获得的人类标注数据作训练，这些数据主要由自然语言（Natural Language，NL）构成。受益于LLM出色的基础能力与NL数据收集的便捷性，LLM在NL-centric场景中的自我训练、自我增强是相对容易的。为了拓展LLM的能力边界及应用范围，很多研究者将目光聚焦于神经-符号（Neural-Symbolic）场景。例如，对于web agent网页浏览场景，给定NL的任务描述x，agent需要 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 至少能Demo//@西雅图黄都督:裸奔//@韦恩卑鄙:也许配合w-20250327230853

昨天

人工智能那点事 · 0.03元开通试用后每个月被扣近百元！被“自动续费”套路了怎么办？

2 天前

人工智能那点事 · 卖爆了！10元一辆纸扎版“小米SU7”售出600单，网友直呼：好家伙

2 天前

爱可可-爱生活 · 今日推介(第1722期)：语言模型中合成数据的尺度规律、学习用J-20250327060750

2 天前

机器之心 · 音乐界迎来自己的DeepSeek！全球首个音乐推理大模型Mureka O1上线，超越Suno

3 天前

标志情报局 · 亚马逊标志设计师布鲁斯·达克沃斯操刀，1024~2024连接千年

9 月前

SevenUp DAO · 从矿工供需角度，深度研究BTC的历史结构

6 月前

南京发布 · 我市启动重污染天气黄色预警

3 月前

合肥高楼迷 · #合肥规划# 一图读懂合肥市国土空间总体规划！看！这就是203-20241220151319

3 月前

新三农 · 农业农村局局长调研报告：高标准农田管护出现“凑钱买马无力配鞍”，应明确资金来源

1 月前