今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Tabi:一种适用于大语言模型的高效多层推理系统

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-12-12 00:04
    

文章预览

23年5月来自香港科技大学、中科大和福州大学的论文“Tabi: An Efficient Multi-Level Inference System for Large Language Models”。 当今的趋势是构建越来越大的大语言模型 (LLM),同时推动自然语言处理的性能,但这显著增加了推理阶段的延迟。由于向 LLM 添加参数的收益递减,对于大多数查询,较小的模型可以做出与昂贵的 LLM 相同的预测。Tabi,一个具有多级推理引擎的推理系统,它使用小型模型和可选的 LLM 为要求苛刻的应用程序提供查询服务。Tabi 针对服务框架中的判别模型(即非生成 LLM)进行优化。Tabi 使用标定后的置信度得分来决定,是否以极快的速度返回小型模型的准确结果,或将它们重新路由到 LLM。对于重新路由的查询,它使用基于注意的词修剪和加权集成技术来抵消系统开销和准确性损失。 LLM的资源开销 2018 年发布的 BERT [18] 令人印象深刻地提高 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览