>>>> gd2md-html 警告:生成的源代码中包含内联图像链接,并将图像存储到您的服务器。注意:从 Google 文档导出的 zip 文件中的图像可能不会按与文档中相同的顺序出现。请检查图像!
----->
如果您不是开发者,那么您为什么会想在家用电脑上运行开源 AI 模型呢?
事实证明,有很多好的理由。而且随着免费的开源模型变得越来越好——使用简单,硬件要求最低——现在是尝试的好时机。
以下是一些开源模型比每月支付 20 美元给 ChatGPT、Perplexity 或 Google 更好的原因:
它是免费的。没有订阅费用。
您的数据保留在您的机器上。
它可以离线工作,无需互联网。
您可以为特定用例(例如创意写作或……任何事情)训练和自定义您的模型。
进入的门槛已经降低。现在有专门的程序让用户可以在不需要独立安装库、依赖项和插件的麻烦下实验 AI。几乎任何拥有相对较新电脑的人都可以做到:一台具有 8GB 显存的中档笔记本电脑或台式机可以运行令人惊讶的强大模型,有些模型甚至可以在 6GB 或 4GB 的显存上运行。对于苹果来说,任何 M 系列芯片(过去几年的)都能够运行优化过的模型。
软件是免费的,设置只需几分钟,而最令人生畏的步骤——选择使用哪个工具——归结为一个简单的问题:您更喜欢点击按钮还是输入命令?
LM Studio 与 Ollama
两个平台主导了本地 AI 领域,它们从相反的角度解决问题。
LM Studio 将一切包装在一个精美的图形界面中。您只需下载应用程序,浏览内置模型库,点击安装,然后开始聊天。体验与使用 ChatGPT 类似,只不过处理发生在您的硬件上。Windows、Mac 和 Linux 用户都能获得相同流畅的体验。对于新手来说,这是显而易见的起点。
Ollama 针对的是生活在终端中的开发者和高级用户。通过命令行安装,使用单个命令拉取模型,然后随心所欲地编写脚本或自动化。它轻量、快速,并且可以干净地集成到编程工作流程中。
学习曲线更陡峭,但回报是灵活性。这也是高级用户选择的多功能性和可定制性的原因。
这两种工具使用相同的基础模型和相同的优化引擎。性能差异微乎其微。
设置 LM Studio
访问 https://lmstudio.ai/ 并下载适合您操作系统的安装程序。文件大小约为 540MB。运行安装程序并按照提示操作。启动应用程序。
提示 1:如果它询问您是哪种类型的用户,请选择“开发者”。其他配置文件只是隐藏选项以简化操作。
提示 2:它会建议下载 OSS,即 OpenAI 的开源 AI 模型。相反,暂时点击“跳过”;有更好、更小的模型可以做得更好。
显存:运行本地 AI 的关键
安装 LM Studio 后,程序将准备就绪,界面如下:
现在您需要下载一个模型,才能使您的 LLM 工作。模型越强大,所需的资源就越多。
关键资源是 VRAM,即您显卡上的视频内存。LLM 在推理过程中加载到 VRAM 中。如果空间不足,性能将崩溃,系统必须转而使用更慢的系统 RAM。您需要确保有足够的 VRAM 来运行您想要的模型,以避免这种情况。
要知道您有多少 VRAM,可以进入 Windows 任务管理器(控制+alt+del),然后点击 GPU 选项卡,确保您选择的是独立显卡,而不是您 Intel/AMD 处理器上的集成显卡。
您将在“专用 GPU 内存”部分看到您拥有的 VRAM 量。
在 M 系列 Mac 上,事情更简单,因为它们共享 RAM 和 VRAM。您机器上的 RAM 量将等于您可以访问的 VRAM。
要检查,请点击苹果标志,然后点击“关于”。查看内存?这就是您拥有的 VRAM 量。
您至少需要 8GB 的 VRAM。参数范围在 70-90 亿的模型,使用 4 位量化压缩,能够舒适地运行并提供强大的性能。您会知道一个模型是否经过量化,因为开发者通常会在名称中披露。如果您在名称中看到 BF、FP 或 GGUF,那么您正在查看一个量化模型。数字越低(FP32、FP16、FP8、FP4),消耗的资源就越少。
这不是简单的比较,但可以将量化想象成您屏幕的分辨率。您可以在 8K、4K、1080p 或 720p 中看到相同的图像。无论分辨率如何,您都能理解一切,但放大并挑剔细节会揭示 4K 图像比 720p 图像包含更多信息,但渲染时需要更多内存和资源。
但理想情况下,如果您真的很认真,那么您应该购买一款具有 24GB VRAM 的优秀游戏 GPU。无论它是新还是旧,无论它有多快或多强大,这都无关紧要。在 AI 的世界里,VRAM 是王者。
一旦您知道可以使用多少 VRAM,您就可以通过访问 VRAM 计算器 来确定可以运行哪些模型。或者,简单地从少于 40 亿参数的小模型开始,然后逐步升级到更大的模型,直到您的计算机告诉您内存不足。(稍后会详细介绍这种技术。)
下载您的模型
一旦您了解了硬件的限制,就可以开始下载模型。点击左侧边栏的放大镜图标,通过名称搜索模型。
Qwen 和 DeepSeek 是开始您旅程的好模型。是的,它们是中文模型,但如果您担心被监视,可以放心。当您在本地运行 LLM 时,没有任何数据离开您的机器,因此您不会被中国、美国政府或任何企业实体监视。
至于病毒,我们推荐的所有内容都来自 Hugging Face,软件会立即检查间谍软件和其他恶意软件。但值得一提的是,最好的美国模型是 Meta 的 Llama,因此如果您是爱国者,您可能想选择这个。(我们在最后一节提供其他推荐。)
请注意,模型的表现因训练数据集和用于构建它们的微调技术而异。尽管 Elon Musk 的 Grok 存在,但没有所谓的无偏见模型,因为没有无偏见的信息。因此,根据您对地缘政治的关注程度选择您的模型。
现在,下载 3B(较小的能力较弱的模型)和 7B 版本。如果您可以运行 7B,则删除 3B(并尝试下载和运行 13B 版本,依此类推)。如果您无法运行 7B 版本,则删除它并使用 3B 版本。
一旦下载完成,从我的模型部分加载模型。聊天界面会出现。输入一条消息。模型会回应。恭喜:您正在运行本地 AI。
为您的模型提供互联网访问
开箱即用,本地模型无法浏览网页。它们是设计上隔离的,因此您将根据它们的内部知识进行迭代。它们在编写短篇故事、回答问题、进行一些编码等方面表现良好。但它们不会提供最新新闻、告诉您天气、检查电子邮件或为您安排会议。
模型上下文协议服务器 改变了这一点。
MCP 服务器充当您的模型与外部服务之间的桥梁。想让您的 AI 搜索 Google、检查 GitHub 仓库或阅读网站吗?MCP 服务器使这一切成为可能。LM Studio 在版本 0.3.17 中添加了 MCP 支持,可以通过程序选项卡访问。每个服务器提供特定的工具——网页搜索、文件访问、API 调用。
如果您想让模型访问互联网,我们的 MCP 服务器完整指南 将详细介绍设置过程,包括网页搜索和数据库访问等流行选项。
保存文件,LM Studio 将自动加载服务器。当您与模型聊天时,它现在可以调用这些工具来获取实时数据。您的本地 AI 刚刚获得了超能力。
我们推荐的 8GB 系统模型
实际上,有数百种 LLM 可供您选择,从万金油选项到为特定用例(如编码、医学、角色扮演或创意写作)设计的微调模型。
最佳编码模型:Nemotron 或 DeepSeek 是不错的选择。它们不会让您惊叹,但在代码生成和调试方面表现良好,在编程基准测试中超越大多数替代品。DeepSeek-Coder-V2 6.7B 提供了另一个可靠的选择,特别适合多语言开发。
最佳通用知识和推理模型:Qwen3 8B。该模型具有强大的数学能力,能够有效处理复杂查询。它的上下文窗口可以容纳更长的文档而不失去连贯性。
最佳创意写作模型:DeepSeek R1 变体,但您需要一些重度提示工程。还有一些未审查的微调版本,如 OpenAI 的 GPT-OSS 的“abliterated-uncensored-NEO-Imatrix” 版本,适合恐怖题材;或者 Dirty-Muse-Writer,适合情色(据说如此)。
最佳聊天机器人、角色扮演、互动小说、客户服务模型:Mistral 7B(特别是 Undi95 DPO Mistral 7B)和具有大上下文窗口的 Llama 变体。MythoMax L2 13B 在长时间对话中保持角色特征,并自然调整语气。对于其他 NSFW 角色扮演,有许多选择。您可能想查看 这个列表 上的一些模型。
对于 MCP:Jan-v1-4b 和 Pokee Research 7b 是不错的模型,如果您想尝试一些新东西。DeepSeek R1 也是一个不错的选择。
所有模型都可以直接从 LM Studio 下载,只需搜索它们的名称即可。
请注意,开源 LLM 领域正在快速变化。每周都有新模型发布,每个模型都声称有所改进。您可以在 LM Studio 中查看它们,或浏览 Hugging Face 上的不同仓库。自己测试选项。由于措辞尴尬、重复模式和事实错误,不合适的模型很快就会显露出来。好的模型感觉不同。它们会推理。它们会让您感到惊讶。
这项技术有效。软件已准备就绪。您的计算机可能已经具备足够的性能。剩下的就是尝试它。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。