专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
今天看啥  ›  专栏  ›  AI工程化

如何在保证模型性能条件下优化Prompt降低使用成本及响应延迟?

AI工程化  · 公众号  ·  · 2024-07-17 10:17

文章预览

随着大模型应用的不断发展,提示工程技术也在快速迭代更新,越来越多的任务通过精妙的Prompt或者agentic workflow等方式解锁。但随之而来,大量详细的、巨大的prompt却会带来高的成本以及缓慢的响应。这也使得高成本和高延迟成为了大模型应用落地生产的主要障碍。随着当下LLM应用已经不再是单次的对话,而是复杂的组合AI系统( 伯克利:即使模型再强大,复合AI系统( Compound AI Systems)都将会是一种领先的应用模式 )都将会是一种领先的应用模式 ),提示规模爆炸性增长,这样的问题变得更加尖锐。 就以最近很火的GraphRAG为例,处理64页的文稿,就花了7美元,使用成本相当的高,这在研究和演示场景这样的情况并不突出,但是真到需要处理大规模数据,服务大量用户的实际生产场景中,这样的情况是无法接受的。 Prompt会很大的主要原因是它包 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览