Home 开源大模型命名术语速查表
Post
Cancel

开源大模型命名术语速查表

通过本表可快速解读开源模型命名中的各类信息。例如:Llama-2-70b-chat-hf 表示 Meta 的 Llama-2 系列,参数量 70B,Chat 微调版本,Hugging Face 上传版本。


1. 模型托管与管理平台

这些平台是开源模型发布、托管和管理的主要基础设施

平台名称 国家 平台简介 官方账号标识
Hugging Face 🇺🇸 美国 全球最大的开源 AI 模型社区平台,提供模型库、数据集、Space 推理、推理 API 等完整生态。大多数开源模型首发于此 huggingfacehf
GitHub 🇺🇸 美国 代码托管平台,众多开源模型项目在此发布源码、权重文件和技术文档 github.com/[user]
ModelScope 🇨🇳 中国 阿里巴巴开源的模型社区,专注中文和多语言模型,提供模型库、数据集、推理等服务 modelscopealibaba
Papers with Code 🇬🇧 英国 将论文与实现代码关联的平台,包含大量开源模型实现和权重链接 paperswithcode
Ollama 🇺🇸 美国 本地运行 LLM 的工具和社区库,提供一键下载和运行开源模型 ollamaollama.ai
Replicate 🇺🇸 美国 开源 AI 模型推理平台,提供模型托管、API 调用和 Web 界面 replicate
Together AI 🇺🇸 美国 开源模型托管和推理平台,提供 API 和模型社区 togethercomputer
ONNX Model Zoo 🌍 开源 开放式神经网络交换格式的模型库,跨框架兼容 onnxonnxruntime
TensorFlow Hub 🇺🇸 美国 谷歌 TensorFlow 框架的模型库 tensorflow
PyTorch Hub 🇺🇸 美国 Meta PyTorch 框架的模型库 pytorch
Kaggle 🇺🇸 美国 数据科学和 AI 竞赛平台,支持模型分享和数据集 kaggle

2. 模型提供组织

组织名称 国家 组织简介 官方账号标识 代表模型
Meta (Meta AI) 🇺🇸 美国 开源模型提供商,发布 Llama 系列开源模型 meta-llamameta Llama-2、Llama-3、Code Llama
Google DeepMind 🇺🇸 美国 谷歌旗下 AI 研究部门,发布 Gemma、T5 等开源模型 googledeepmind Gemma-7B、T5、PaLM
OpenAI 🇺🇸 美国 GPT 系列发布方,部分模型开源(如 Whisper) openai Whisper、GPT 系列(部分闭源)
Anthropic 🇺🇸 美国 Claude 的开发商,部分开源版本 anthropic Claude 系列(部分开源版本)
xAI 🇺🇸 美国 Elon Musk 的 AI 公司,发布高性能开源模型 xai-org Grok-1
Cohere 🇨🇦 加拿大 专业 NLP 模型公司,发布 Command 系列开源模型 cohere-ai Command、Command-R
Nous Research 🇺🇸 美国 独立 AI 研究团队,发布高质量微调模型 NousResearch Nous Hermes、Nous Orca
Mistral AI 🇫🇷 法国 欧洲主要的开源 AI 初创公司,发布高效能模型 mistralai Mistral-7B、Mixtral-8x7B
Stability AI 🇬🇧 英国 文生图和文本模型领导者,多模态开源模型 stabilityai Stable LM、StabilityLM
BigScience 🌍 欧洲 开源模型协作组织,发布大型开源语言模型 bigscience BLOOM、BLOOMZ
EleutherAI 🇺🇸 美国 开源 AI 研究组织,发布 GPT-Neo 等模型 EleutherAI GPT-Neo、Pythia、Gpt-J
DeepSeek 🇨🇳 中国 目前国内开源影响力最大,高效开源模型领导者 deepseek-ai DeepSeek-V3、R1、DeepSeek-MoE
Qwen (通义千问) 🇨🇳 中国 阿里巴巴出品,Hugging Face 下载量极高的中文友好开源大模型 Qwenalibaba Qwen2.5、Qwen-7B、Qwen-72B
Yi (零一万物) 🇨🇳 中国 李开复团队,发布高质量中英双语开源模型 01-ai Yi-1.5、Yi-34B、Yi-200K
ChatGLM (智谱) 🇨🇳 中国 清华系背景,发布对话优化的开源大模型 thudmzhipuai ChatGLM-4、GLM-3、ChatGLM3
MiniMax 🇨🇳 中国 发布效率与性能平衡的开源模型,部分模型开放 minimax-ai MiniMax-Text、部分开源版本
Baichuan (百川) 🇨🇳 中国 中文开源基础模型提供商,覆盖多个参数规模 baichuan-inc Baichuan-4、Baichuan-13B

3. 参数规模标识

标识 含义 说明
4b / 4B 4 Billion (40 亿参数) 轻量级模型,移动端/边缘部署
7b / 7B 7 Billion (70 亿参数) 主流轻量级,成为业界最流行的规格
8b / 8B 8 Billion (80 亿参数) 略大于 7B,性能更优
13b / 13B 13 Billion (130 亿参数) 中等规模,平衡性能与效率
34b / 34B 34 Billion (340 亿参数) 高端轻量级,高质量输出
40b / 40B 40 Billion (400 亿参数) 中等规模
70b / 70B 70 Billion (700 亿参数) 当前开源主流大模型
120b / 120B 120 Billion (1200 亿参数) 高端模型
405b / 405B 405 Billion (4050 亿参数) 超大规模开源模型 (Llama-3.1)
e4b4bx10 Expert 模型混合 (MoE) 如 Mixtral-8x7B: 8 个 7B 专家

4. 量化参数 (Model Quantization)

4.1 常见量化格式

格式 全称 说明 用途
int4 / q4 4-bit Integer 4 位整数量化 最大压缩,适合边缘设备
int8 / q8 8-bit Integer 8 位整数量化 平衡压缩与性能
nf4 Normalized float 4-bit 4 位浮点量化(NormalFloat) QLoRA 推荐配置
fp6 6-bit Float 6 位浮点量化 实验性,罕见
fp8 / mxfp8 8-bit Float / NVIDIA MX FP8 8 位浮点,NVIDIA GPU 原生 推理加速
bf16 Brain Float 16-bit 谷歌设计的 16 位浮点 模型训练、高精度推理
fp16 16-bit Float 标准 16 位浮点精度 通用精度
fp32 32-bit Float 标准 32 位浮点精度 最高精度,不常用于推理

4.2 常见量化方案

方案 全称 特点
AWQ Activation-aware Weight Quantization 基于激活权重,精度损失小,推理快
GGUF 通用模型格式 (llama.cpp) CPU 推理,跨平台,易于部署
GPTQ 基于 GPTQ 算法的量化 应用最广,精度好,推理快
QuIP Quantization in Pairs 高度压缩,精度较好
IQ2 / IQ3 Integer Quantization 2/3-bit 极致压缩,GGUF 格式
MLX Apple MLX 框架量化 Apple Silicon 优化

4.3 模型文件格式

格式 全称 支持框架 特点与优势 使用场景
GGUF GGML 通用文件格式 llama.cpp、Ollama 等 ✅ CPU 推理、跨平台、内存高效、支持量化 本地推理、边缘设备、离线使用
SafeTensors Hugging Face 安全张量格式 PyTorch、TensorFlow、JAX ✅ 安全、快速加载、内存映射、跨框架 HF 平台、生产环境、模型分享
PyTorch .pt.pth.bin 格式 PyTorch ✅ 原生格式、兼容性好、灵活性强 PyTorch 框架、训练和推理
TensorFlow SavedModel .pb.tf 格式 TensorFlow、TensorFlow Lite ✅ 生产级别、跨平台、包含元数据 TensorFlow 框架、边缘部署
ONNX Open Neural Network Exchange PyTorch、TensorFlow、sklearn 等 ✅ 框架无关、跨平台、优化推理 多框架部署、模型转换、推理优化
MLX Apple MLX 原生格式 Apple MLX ✅ Apple Silicon 优化、GPU 加速、高效推理 Mac/iPad 本地推理、苹果生态
Ollama .ollama 打包格式 Ollama 运行时 ✅ 一键下载运行、自动量化、易部署 本地快速部署、初学者友好
CTransformers CTF 格式 CTransformers ✅ C++ 优化、CPU 推理快、库小 轻量级推理、嵌入式系统
JAX JAX 格式 JAX ✅ 函数式编程、JIT 编译、GPU/TPU 支持 JAX 框架、科研和大规模训练
Megatron 分布式训练格式 Megatron-LM、NVIDIA ✅ 支持超大模型、张量并行、流水线并行 大规模模型训练、分布式推理
Pickle (非推荐) .pkl Python pickle 格式 PyTorch ⚠️ 安全性低、不可信代码执行风险 仅限本地测试

5. 微调与版本参数

标识 全称 说明
-base Base Model 基础模型,未经指令微调或对话优化
-chat Chat Version 经过对话微调,适合聊天场景
-instruct / -it Instruction Tuning 经过指令微调,遵循命令能力强
-dpo Direct Preference Optimization 使用 DPO 对齐,更符合人类偏好
-qlora / -qlora-it QLoRA 微调版本 轻量级微调,参数高效
-lora LoRA 适配器 低秩适配微调版本
-mlx Apple MLX 框架优化 专为 Apple Silicon 优化
-cot Chain of Thought 包含思维链增强
-vision 多模态版本 支持图像理解
-awq AWQ 量化版本 使用 AWQ 方案量化
-gptq GPTQ 量化版本 使用 GPTQ 方案量化
-hf Hugging Face 版本 标准 HF 格式上传

6. 常见完整模型名解读示例

模型名 解读
Llama-2-70b-chat-hf Meta Llama-2,70B 参数,Chat 微调版,HF 格式
Mistral-7B-Instruct-v0.1 Mistral AI,7B 参数,指令微调版本 0.1
Qwen-72B-Chat 阿里巴巴 Qwen,72B 参数,对话优化版
Baichuan-13B-Chat 百川,13B 参数,聊天优化版
Nous-Hermes-13b-GPTQ Nous Hermes,13B 参数,GPTQ 量化版
TheBloke/Mistral-7B-Instruct-v0.1-GGUF Mistral 7B,由 TheBloke 提供 GGUF 量化版本
Qwen1.5-7B-Chat-AWQ 阿里 Qwen 1.5 版本,7B,对话微调,AWQ 量化
Llama-2-7b-chat-hf-4bit Llama-2,7B,聊天版,4 位量化
Unsloth/Mistral-7B-qlora-it Unsloth 框架优化,Mistral 7B,QLoRA 微调版
deepseek-llm-67b-base 深度求索 LLM,67B 参数,基础未微调版本

7. 快速识别技巧

看到模型名,按顺序识别:

  1. 社区前缀 → 识别来源 (Qwen, Mistral, Llama 等)
  2. 版本号 → 如 Llama-2, Llama-3, Qwen1.5
  3. 参数量 → 如 7B, 13B, 70B
  4. 微调类型 → base/chat/instruct/dpo 等
  5. 量化格式 → 4bit/int8/GPTQ/AWQ/GGUF 等
  6. 平台标识 → hf(HuggingFace), mlx(Apple), etc.

示例流程:

  • Yi-34B-Chat-4bits → 01.AI 的 Yi 系列 → 基础版本 → 34B 参数 → Chat 微调 → 4 位量化

8. 补充说明

  • 推荐搭配:生产环境通常采用 70B-Chat-AWQ34B-Chat-GPTQ 的组合
  • 边缘设备:优先选择 7B-Chat-GGUF8B-Chat-int4
  • 本地微调:选择 7B-base13B-base 加 QLoRA 框架
  • API 推理:无需关注量化,选择基础版本由服务商优化
This post is licensed under CC BY 4.0 by the author.