都说是7B大模型，为什么人家只用CPU就能吐字飞快...

企业存储技术 · 公众号 · · 2024-07-16 07:40

文章预览

最近我试用了2款基于LLM大模型+RAG知识库的商业软件，按照发布的时间排序，也按照字母的缩写，分别称为F家和L家吧。这2款都支持部分离线使用，Windows下无需手动部署，并且无需GPU（当然有GPU可以跑更快）。稍微仔细点观摩下，底层都是基于 Ollama ，也可以理解为 llama.cpp 。关于PC端侧推理应用考虑的要点，我在《 PrivateGPT+Qwen2：大模型 & RAG Demo（附AIPC懒人包）》中讨论了一些。而使用原生llama.cpp的进一步好处也很简单，就是普通CPU都能跑，并且内存的消耗比iGPU集显（相当于系统内存+共享显存）还要低一些。这样就能兼容更多的低配PC、老机器。再看RAG的技术门槛我首先试用的是F家，他们是可选下载包含不同模型的程序包，比如Qwen2-7b-Chat，模型大小一看就是int4量化的。下载后无需安装，试用时每次启动需要连着网，进入之后如果使用基础 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国舞台美术学会 · 舞台“人、货、场”——内容创意、场景创新及观演互动体验

6 天前

中国舞台美术学会 · 观察丨当打卡小剧场成为“顶流”，小小新空间火出演艺产业

6 天前

鸾章玉宇 · 1999 年丹江口水底古墓破水现世，引出一桩著名男女绯闻和千古谜案

3 月前

第一教育 · 智能时代，学习如何进化？未来学习研究与发展全国实践联盟成立

2 月前

中国银行保险报 · 金融监管总局：支持符合条件的保险机构新设私募证券投资基金

4 周前

刘章明消费产业研究 · 点评 | 周大福：FY25Q2金价高涨短期流水延续承压，国庆及节后表现超预期

3 周前