Cancel

开源大模型命名术语速查表

By Tamino

Posted 2026-04-13 12 minutes read

通过本表可快速解读开源模型命名中的各类信息。例如：Llama-2-70b-chat-hf 表示 Meta 的 Llama-2 系列，参数量 70B，Chat 微调版本，Hugging Face 上传版本。

1. 模型托管与管理平台

这些平台是开源模型发布、托管和管理的主要基础设施

平台名称	国家	平台简介	官方账号标识
Hugging Face	🇺🇸 美国	全球最大的开源 AI 模型社区平台，提供模型库、数据集、Space 推理、推理 API 等完整生态。大多数开源模型首发于此	`huggingface`、`hf`
GitHub	🇺🇸 美国	代码托管平台，众多开源模型项目在此发布源码、权重文件和技术文档	`github.com/[user]`
ModelScope	🇨🇳 中国	阿里巴巴开源的模型社区，专注中文和多语言模型，提供模型库、数据集、推理等服务	`modelscope`、`alibaba`
Papers with Code	🇬🇧 英国	将论文与实现代码关联的平台，包含大量开源模型实现和权重链接	`paperswithcode`
Ollama	🇺🇸 美国	本地运行 LLM 的工具和社区库，提供一键下载和运行开源模型	`ollama`、`ollama.ai`
Replicate	🇺🇸 美国	开源 AI 模型推理平台，提供模型托管、API 调用和 Web 界面	`replicate`
Together AI	🇺🇸 美国	开源模型托管和推理平台，提供 API 和模型社区	`togethercomputer`
ONNX Model Zoo	🌍 开源	开放式神经网络交换格式的模型库，跨框架兼容	`onnx`、`onnxruntime`
TensorFlow Hub	🇺🇸 美国	谷歌 TensorFlow 框架的模型库	`tensorflow`
PyTorch Hub	🇺🇸 美国	Meta PyTorch 框架的模型库	`pytorch`
Kaggle	🇺🇸 美国	数据科学和 AI 竞赛平台，支持模型分享和数据集	`kaggle`

2. 模型提供组织

组织名称	国家	组织简介	官方账号标识	代表模型
Meta (Meta AI)	🇺🇸 美国	开源模型提供商，发布 Llama 系列开源模型	`meta-llama`、`meta`	Llama-2、Llama-3、Code Llama
Google DeepMind	🇺🇸 美国	谷歌旗下 AI 研究部门，发布 Gemma、T5 等开源模型	`google`、`deepmind`	Gemma-7B、T5、PaLM
OpenAI	🇺🇸 美国	GPT 系列发布方，部分模型开源（如 Whisper）	`openai`	Whisper、GPT 系列（部分闭源）
Anthropic	🇺🇸 美国	Claude 的开发商，部分开源版本	`anthropic`	Claude 系列（部分开源版本）
xAI	🇺🇸 美国	Elon Musk 的 AI 公司，发布高性能开源模型	`xai-org`	Grok-1
Cohere	🇨🇦 加拿大	专业 NLP 模型公司，发布 Command 系列开源模型	`cohere-ai`	Command、Command-R
Nous Research	🇺🇸 美国	独立 AI 研究团队，发布高质量微调模型	`NousResearch`	Nous Hermes、Nous Orca
Mistral AI	🇫🇷 法国	欧洲主要的开源 AI 初创公司，发布高效能模型	`mistralai`	Mistral-7B、Mixtral-8x7B
Stability AI	🇬🇧 英国	文生图和文本模型领导者，多模态开源模型	`stabilityai`	Stable LM、StabilityLM
BigScience	🌍 欧洲	开源模型协作组织，发布大型开源语言模型	`bigscience`	BLOOM、BLOOMZ
EleutherAI	🇺🇸 美国	开源 AI 研究组织，发布 GPT-Neo 等模型	`EleutherAI`	GPT-Neo、Pythia、Gpt-J
DeepSeek	🇨🇳 中国	目前国内开源影响力最大，高效开源模型领导者	`deepseek-ai`	DeepSeek-V3、R1、DeepSeek-MoE
Qwen (通义千问)	🇨🇳 中国	阿里巴巴出品，Hugging Face 下载量极高的中文友好开源大模型	`Qwen`、`alibaba`	Qwen2.5、Qwen-7B、Qwen-72B
Yi (零一万物)	🇨🇳 中国	李开复团队，发布高质量中英双语开源模型	`01-ai`	Yi-1.5、Yi-34B、Yi-200K
ChatGLM (智谱)	🇨🇳 中国	清华系背景，发布对话优化的开源大模型	`thudm`、`zhipuai`	ChatGLM-4、GLM-3、ChatGLM3
MiniMax	🇨🇳 中国	发布效率与性能平衡的开源模型，部分模型开放	`minimax-ai`	MiniMax-Text、部分开源版本
Baichuan (百川)	🇨🇳 中国	中文开源基础模型提供商，覆盖多个参数规模	`baichuan-inc`	Baichuan-4、Baichuan-13B

3. 参数规模标识

标识	含义	说明
4b / 4B	4 Billion (40 亿参数)	轻量级模型，移动端/边缘部署
7b / 7B	7 Billion (70 亿参数)	主流轻量级，成为业界最流行的规格
8b / 8B	8 Billion (80 亿参数)	略大于 7B，性能更优
13b / 13B	13 Billion (130 亿参数)	中等规模，平衡性能与效率
34b / 34B	34 Billion (340 亿参数)	高端轻量级，高质量输出
40b / 40B	40 Billion (400 亿参数)	中等规模
70b / 70B	70 Billion (700 亿参数)	当前开源主流大模型
120b / 120B	120 Billion (1200 亿参数)	高端模型
405b / 405B	405 Billion (4050 亿参数)	超大规模开源模型 (Llama-3.1)
e4b 或 4bx10	Expert 模型混合 (MoE)	如 Mixtral-8x7B: 8 个 7B 专家

4. 量化参数 (Model Quantization)

4.1 常见量化格式

格式	全称	说明	用途
int4 / q4	4-bit Integer	4 位整数量化	最大压缩，适合边缘设备
int8 / q8	8-bit Integer	8 位整数量化	平衡压缩与性能
nf4	Normalized float 4-bit	4 位浮点量化(NormalFloat)	QLoRA 推荐配置
fp6	6-bit Float	6 位浮点量化	实验性，罕见
fp8 / mxfp8	8-bit Float / NVIDIA MX FP8	8 位浮点，NVIDIA GPU 原生	推理加速
bf16	Brain Float 16-bit	谷歌设计的 16 位浮点	模型训练、高精度推理
fp16	16-bit Float	标准 16 位浮点精度	通用精度
fp32	32-bit Float	标准 32 位浮点精度	最高精度，不常用于推理

4.2 常见量化方案

方案	全称	特点
AWQ	Activation-aware Weight Quantization	基于激活权重，精度损失小，推理快
GGUF	通用模型格式 (llama.cpp)	CPU 推理，跨平台，易于部署
GPTQ	基于 GPTQ 算法的量化	应用最广，精度好，推理快
QuIP	Quantization in Pairs	高度压缩，精度较好
IQ2 / IQ3	Integer Quantization 2/3-bit	极致压缩，GGUF 格式
MLX	Apple MLX 框架量化	Apple Silicon 优化

4.3 模型文件格式

格式	全称	支持框架	特点与优势	使用场景
GGUF	GGML 通用文件格式	llama.cpp、Ollama 等	✅ CPU 推理、跨平台、内存高效、支持量化	本地推理、边缘设备、离线使用
SafeTensors	Hugging Face 安全张量格式	PyTorch、TensorFlow、JAX	✅ 安全、快速加载、内存映射、跨框架	HF 平台、生产环境、模型分享
PyTorch	`.pt`、`.pth`、`.bin` 格式	PyTorch	✅ 原生格式、兼容性好、灵活性强	PyTorch 框架、训练和推理
TensorFlow SavedModel	`.pb`、`.tf` 格式	TensorFlow、TensorFlow Lite	✅ 生产级别、跨平台、包含元数据	TensorFlow 框架、边缘部署
ONNX	Open Neural Network Exchange	PyTorch、TensorFlow、sklearn 等	✅ 框架无关、跨平台、优化推理	多框架部署、模型转换、推理优化
MLX	Apple MLX 原生格式	Apple MLX	✅ Apple Silicon 优化、GPU 加速、高效推理	Mac/iPad 本地推理、苹果生态
Ollama	`.ollama` 打包格式	Ollama 运行时	✅ 一键下载运行、自动量化、易部署	本地快速部署、初学者友好
CTransformers	CTF 格式	CTransformers	✅ C++ 优化、CPU 推理快、库小	轻量级推理、嵌入式系统
JAX	JAX 格式	JAX	✅ 函数式编程、JIT 编译、GPU/TPU 支持	JAX 框架、科研和大规模训练
Megatron	分布式训练格式	Megatron-LM、NVIDIA	✅ 支持超大模型、张量并行、流水线并行	大规模模型训练、分布式推理
Pickle (非推荐)	`.pkl` Python pickle 格式	PyTorch	⚠️ 安全性低、不可信代码执行风险	仅限本地测试

5. 微调与版本参数

标识	全称	说明
-base	Base Model	基础模型，未经指令微调或对话优化
-chat	Chat Version	经过对话微调，适合聊天场景
-instruct / -it	Instruction Tuning	经过指令微调，遵循命令能力强
-dpo	Direct Preference Optimization	使用 DPO 对齐，更符合人类偏好
-qlora / -qlora-it	QLoRA 微调版本	轻量级微调，参数高效
-lora	LoRA 适配器	低秩适配微调版本
-mlx	Apple MLX 框架优化	专为 Apple Silicon 优化
-cot	Chain of Thought	包含思维链增强
-vision	多模态版本	支持图像理解
-awq	AWQ 量化版本	使用 AWQ 方案量化
-gptq	GPTQ 量化版本	使用 GPTQ 方案量化
-hf	Hugging Face 版本	标准 HF 格式上传

6. 常见完整模型名解读示例

模型名	解读
`Llama-2-70b-chat-hf`	Meta Llama-2，70B 参数，Chat 微调版，HF 格式
`Mistral-7B-Instruct-v0.1`	Mistral AI，7B 参数，指令微调版本 0.1
`Qwen-72B-Chat`	阿里巴巴 Qwen，72B 参数，对话优化版
`Baichuan-13B-Chat`	百川，13B 参数，聊天优化版
`Nous-Hermes-13b-GPTQ`	Nous Hermes，13B 参数，GPTQ 量化版
`TheBloke/Mistral-7B-Instruct-v0.1-GGUF`	Mistral 7B，由 TheBloke 提供 GGUF 量化版本
`Qwen1.5-7B-Chat-AWQ`	阿里 Qwen 1.5 版本，7B，对话微调，AWQ 量化
`Llama-2-7b-chat-hf-4bit`	Llama-2，7B，聊天版，4 位量化
`Unsloth/Mistral-7B-qlora-it`	Unsloth 框架优化，Mistral 7B，QLoRA 微调版
`deepseek-llm-67b-base`	深度求索 LLM，67B 参数，基础未微调版本

7. 快速识别技巧

看到模型名，按顺序识别：

社区前缀 → 识别来源 (Qwen, Mistral, Llama 等)
版本号 → 如 Llama-2, Llama-3, Qwen1.5
参数量 → 如 7B, 13B, 70B
微调类型 → base/chat/instruct/dpo 等
量化格式 → 4bit/int8/GPTQ/AWQ/GGUF 等
平台标识 → hf(HuggingFace), mlx(Apple), etc.

示例流程：

Yi-34B-Chat-4bits → 01.AI 的 Yi 系列 → 基础版本 → 34B 参数 → Chat 微调 → 4 位量化

8. 补充说明

推荐搭配：生产环境通常采用 70B-Chat-AWQ 或 34B-Chat-GPTQ 的组合
边缘设备：优先选择 7B-Chat-GGUF 或 8B-Chat-int4
本地微调：选择 7B-base 或 13B-base 加 QLoRA 框架
API 推理：无需关注量化，选择基础版本由服务商优化

AI

LLM open-source

This post is licensed under CC BY 4.0 by the author.

Trending Tags

Deutsch words A1-grammar A1-chat Applied-Analytics Aussprache Daily AI-Agent dev-tools English

Contents

Trending Tags

Deutsch words A1-grammar A1-chat Applied-Analytics Aussprache Daily AI-Agent dev-tools English