<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>大模型 on Harry&#39;s Blog</title>
    <link>https://sudo-djug.xyz/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link>
    <description>Recent content in 大模型 on Harry&#39;s Blog</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 30 Nov 2024 00:00:00 +0800</lastBuildDate>
    <atom:link href="https://sudo-djug.xyz/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Ollama本地大模型体验</title>
      <link>https://sudo-djug.xyz/posts/2024-11-30-ollama-local-llm/</link>
      <pubDate>Sat, 30 Nov 2024 00:00:00 +0800</pubDate>
      <guid>https://sudo-djug.xyz/posts/2024-11-30-ollama-local-llm/</guid>
      <description>&lt;h1 id=&#34;ollama本地大模型体验&#34;&gt;Ollama本地大模型体验&lt;/h1&gt;
&lt;p&gt;大模型越来越火，但在线服务要么收费、要么有隐私顾虑。发现 &lt;em&gt;Ollama&lt;/em&gt; 之后，本地跑大模型变得异常简单。&lt;/p&gt;
&lt;p&gt;安装就是一条命令：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;curl -fsSL https://ollama.com/install.sh | sh
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;装完之后拉模型：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;ollama pull qwen2.5:7b
ollama run qwen2.5:7b
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;em&gt;7B&lt;/em&gt; 模型在我的 &lt;em&gt;3060 12G&lt;/em&gt; 上跑得很流畅，推理速度大概 20 tokens/s，日常问答完全够用。又试了 &lt;em&gt;llama3.1:8b&lt;/em&gt; 和 &lt;em&gt;deepseek-coder:6.7b&lt;/em&gt;，后者写代码辅助效果不错。&lt;/p&gt;
&lt;h6 id=&#34;配合其他工具使用&#34;&gt;配合其他工具使用&lt;/h6&gt;
&lt;ul&gt;
&lt;li&gt;&lt;em&gt;Open WebUI&lt;/em&gt;：给 Ollama 套一个漂亮的 Web 界面&lt;/li&gt;
&lt;li&gt;&lt;em&gt;Continue.dev&lt;/em&gt;：在 VS Code 里直接调用本地模型补全代码&lt;/li&gt;
&lt;li&gt;&lt;em&gt;Dify&lt;/em&gt;：后面打算接进去做 &lt;em&gt;Agent&lt;/em&gt; 的底层模型&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;p&gt;本地跑模型的优势是隐私和可控，劣势是参数量受限。不过日常任务 &lt;em&gt;7B-13B&lt;/em&gt; 的模型已经能应付大部分场景了。算力平民化的时代真的来了。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
