网站Logo 星际熵

使用LM studio运行LLM本地AI模型

star
6
2026-03-01

介绍

LM Studio 是一款免费、跨平台的桌面应用,主打在本地电脑上一键下载、运行和管理开源大语言模型(LLM),无需联网、无需写代码,兼顾普通用户和开发者

一、核心定位

  • 本地 AI 运行平台:在你的 Windows/macOS/Linux 电脑上,离线运行 Llama、Qwen、DeepSeek、Mistral、Gemma 等主流开源 LLM。

  • 一站式工具 = 模型下载器 + 本地聊天助手 + 模型管理器 + 本地 API 服务。

二、主要功能

  1. 模型下载与管理

    • 内置 Hugging Face 模型搜索,一键下载 GGUF 格式模型。

    • 本地模型库管理,支持删除、重命名、查看详情。

    • 硬件兼容性检测,提示模型能否在你的电脑上运行。

  2. 本地聊天交互

    • 类 ChatGPT 聊天界面,支持多轮对话、历史记录。

    • 支持自定义系统提示词、温度、最大长度等参数。

    • 完全离线,数据只存在本地,隐私安全。

  3. 本地 API 服务(开发者友好)

    • 一键启动兼容 OpenAI 格式的本地 API 端点。

    • 可被其他应用、脚本、前端 / 后端项目调用,替代云端 API。

    • 支持 REST API,方便集成到自己的项目。

  4. 性能与兼容性

    • 基于 llama.cpp 引擎,支持 CPU、NVIDIA CUDA、AMD、Apple Metal 加速。

    • Apple Silicon 额外支持 MLX 框架,速度更快。

    • 轻量友好:8GB 内存即可运行小模型,支持 int4 量化版本。

三、适合人群

  • 普通用户:想拥有自己的离线 AI 助手,保护隐私、不花 API 钱。

  • 开发者:本地调试、测试、集成 LLM,快速搭建原型。

  • 研究 / 爱好者:快速体验各种开源模型,对比效果。

1.安装LM studio

点击下载:LM studio(Windows)

点击开发者→LM运行环境→下载所需环境内容

QQ_1772364994483.png

2.下载LLM模型GGUF文件

下载网站:

魔搭社区

Qwen

Qwen3-0.6B 具有以下特点:

  • 类型:因果语言模型

  • 训练阶段:预训练 & 后训练

  • 参数数量:0.6B

  • 非嵌入参数数量:0.44B

  • 层数:28

  • 注意力头数(GQA):Q 为 16,KV 为 8

  • 上下文长度:32,768

  • 量化:q8_0

Qwen3-1.7B 具有以下特点:

  • 类型:因果语言模型

  • 训练阶段:预训练和后训练

  • 参数数量:1.7B

  • 非嵌入参数数量:1.4B

  • 层数:28

  • 注意力头数(GQA):Q 为 16,KV 为 8

  • 上下文长度:32,768

  • 量化:q8_0

Qwen3-4B 具有以下特点:

  • 类型:因果语言模型

  • 训练阶段:预训练和后训练

  • 参数数量:40 亿

  • 非嵌入参数数量:36 亿

  • 层数:36 层

  • 注意力头数(GQA):Q 为 32,KV 为 8

  • 上下文长度:原生 32,768 和 使用 YaRN 的 131,072 个令牌

  • 量化:q8_0

Qwen3-8B 具有以下特点:

  • 类型:因果语言模型

  • 训练阶段:预训练和后训练

  • 参数数量:82 亿

  • 非嵌入参数数量:69.5 亿

  • 层数:36 层

  • 注意力头数(GQA):Q 为 32 个,KV 为 8 个

  • 上下文长度:原生支持 32,768 个令牌,使用 YaRN 支持 131,072 个令牌

  • 量化:q8_0

Qwen3-14B 具有以下特点:

  • 类型:因果语言模型

  • 训练阶段:预训练 & 后训练

  • 参数数量:148 亿

  • 非嵌入参数数量:132 亿

  • 层数:40

  • 注意力头数(GQA):Q 为 40,KV 为 8

  • 上下文长度:原生 32,768 个令牌,使用 YaRN 可达 131,072 个令牌

  • 量化:q8_0

DeepSeek

DeepSeek-R1-Distill 模型是基于开源模型,并使用由DeepSeek-R1生成的样本进行微调的。对其配置和分词器做了一些调整。

我们建议在使用 DeepSeek-R1 系列模型时(包括基准测试),遵循以下配置以达到预期性能:

  1. 将温度设置在0.5-0.7之间(推荐0.6),以防止无休止的重复或不连贯的输出。

  2. 避免添加系统提示;所有指令都应包含在用户提示中。

  3. 对于数学问题,建议在您的提示中加入如下指示:“请逐步推理,并将最终答案放在\boxed{}内。”

  4. 在评估模型性能时,建议进行多次测试并取平均结果。

DeepSeek-R1-1.5b-GGUF

基础模型:Qwen2.5-Math-1.5B

DeepSeek-R1-7b-GGUF

基础模型:Qwen2.5-Math-7B

DeepSeek-R1-8b-GGUF

基础模型:Llama-3.1-8B

DeepSeek-R1-14b-GGUF

基础模型:Qwen2.5-14B

注:这里的每个不同的guff需要在独立且英文文件夹里

QQ_1772370968263.png

3.加载模型

3.1.选着并添加需要加载的模型

QQ_1772371140810.png

3.2.加载完成后即可进行对话

QQ_1772371213460.png