大模型推理成本降10倍、速度快20倍，AI Infra公司「趋境科技」在推理端开创模型落地新路径

智能涌现 · 公众号 · · 2024-08-20 14:47

主要观点总结

本文介绍了大模型在实际应用中的挑战以及解决方案。针对大模型的落地成本高、响应延迟等问题，趋境科技等AI Infra公司推出了解决方案，如使用开源项目KTransformers降低大模型的使用门槛、优化算力利用率等。趋境科技主要瞄准RAG（检索增强生成）场景，采用“以存换算”思路降低推理成本，提高响应速度。目前该公司已经完成天使轮融资，CEO及核心团队均拥有AI及存储相关的丰富经验。

关键观点总结

关键观点1: 大模型在实际应用中的挑战

大模型在实际应用中面临落地成本高、响应延迟等问题，阻碍了其广泛应用。

关键观点2: AI Infra公司的解决方案

AI Infra公司通过开源项目KTransformers等方案降低大模型的使用门槛，优化算力利用率，提高生成速度。

关键观点3: 趋境科技的核心业务及优势

趋境科技主要瞄准RAG场景，采用“以存换算”思路优化推理成本，提高响应速度。该公司提供的端到端解决方案集成了芯片、大模型等软硬件，为客户提供最低成本的部署选项。

关键观点4: 趋境科技的创新策略及前景

趋境科技选取特定的RAG场景，推出创新策略，不仅能优化算力利用率，还能将大模型本地化部署的落地成本降低10倍，响应延迟降低20倍。该公司致力于解决大模型落地的“最后一公里”难题，未来的市场潜力巨大。

关键观点5: 发起人评价

趋境科技的发起人和清华大学顶尖技术团队对其解决方案充满信心，期待其能够持续引领创新，帮助企业以低成本和高效率应用大模型。

文章预览

2024年，落地，无疑是大模型最重要的主题。尽管最新推出的拥有千亿参数和十万上下文的大模型在效果上取得了显著进展，但它们高达数百万的入门门槛、昂贵的推理成本和漫长的响应延时仍然严重阻碍了这些模型在实际场景中的应用。优化成本，成了AI产业上下游共同的命题。 2024年5月，由幻方量化旗下的模型公司“深度求索”发布的大模型DeepSeek V2，其效果接近 GPT-4 。但两千多亿的参数使得其推荐部署门槛高达 8 块 80GB 的 A800/H800 显卡。而近期，一家AI Infra公司联合清华大学KVCache.AI团队发布了开源项目KTransformers：仅用一张24GB的消费级显卡就成功驱动了具有236B参数量的DeepSeek V2大模型，实现了14 Tokens/秒的生成速度——这意味着，2千亿大模型的使用门槛降低到4万以内。 △KTransformers对比Llama.cpp运行速度。这一成果在国内外用户社区引发了广 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博