Ollama本地大模型体验
Ollama本地大模型体验 大模型越来越火,但在线服务要么收费、要么有隐私顾虑。发现 Ollama 之后,本地跑大模型变得异常简单。 安装就是一条命令: curl -fsSL https://ollama.com/install.sh | sh 装完之后拉模型: ollama pull qwen2.5:7b ollama run qwen2.5:7b 7B 模型在我的 3060 12G 上跑得很流畅,推理速度大概 20 tokens/s,日常问答完全够用。又试了 llama3.1:8b 和 deepseek-coder:6.7b,后者写代码辅助效果不错。 配合其他工具使用 Open WebUI:给 Ollama 套一个漂亮的 Web 界面 Continue.dev:在 VS Code 里直接调用本地模型补全代码 Dify:后面打算接进去做 Agent 的底层模型 本地跑模型的优势是隐私和可控,劣势是参数量受限。不过日常任务 7B-13B 的模型已经能应付大部分场景了。算力平民化的时代真的来了。