专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
今天看啥  ›  专栏  ›  企业存储技术

都说是7B大模型,为什么人家只用CPU就能吐字飞快...

企业存储技术  · 公众号  ·  · 2024-07-16 07:40

文章预览

最近我试用了2款基于LLM大模型+RAG知识库的商业软件,按照发布的时间排序,也按照字母的缩写,分别称为F家和L家吧。 这2款都支持部分离线使用,Windows下无需手动部署,并且无需GPU(当然有GPU可以跑更快)。稍微仔细点观摩下,底层都是基于 Ollama ,也可以理解为 llama.cpp 。 关于PC端侧推理应用考虑的要点,我在《 PrivateGPT+Qwen2:大模型 & RAG Demo(附AIPC懒人包) 》中讨论了一些。而使用原生llama.cpp的进一步好处也很简单,就是 普通CPU都能跑 ,并且内存的消耗比iGPU集显(相当于系统内存+共享显存)还要低一些。这样就能兼容更多的低配PC、老机器。 再看RAG的技术门槛 我首先试用的是F家,他们是可选下载包含不同模型的程序包,比如Qwen2-7b-Chat,模型大小一看就是int4量化的。下载后无需安装,试用时每次启动需要连着网,进入之后如果使用基础 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览