通过本表可快速解读开源模型命名中的各类信息。例如:
Llama-2-70b-chat-hf表示 Meta 的 Llama-2 系列,参数量 70B,Chat 微调版本,Hugging Face 上传版本。
1. 模型托管与管理平台
这些平台是开源模型发布、托管和管理的主要基础设施
| 平台名称 | 国家 | 平台简介 | 官方账号标识 |
|---|---|---|---|
| Hugging Face | 🇺🇸 美国 | 全球最大的开源 AI 模型社区平台,提供模型库、数据集、Space 推理、推理 API 等完整生态。大多数开源模型首发于此 | huggingface、hf |
| GitHub | 🇺🇸 美国 | 代码托管平台,众多开源模型项目在此发布源码、权重文件和技术文档 | github.com/[user] |
| ModelScope | 🇨🇳 中国 | 阿里巴巴开源的模型社区,专注中文和多语言模型,提供模型库、数据集、推理等服务 | modelscope、alibaba |
| Papers with Code | 🇬🇧 英国 | 将论文与实现代码关联的平台,包含大量开源模型实现和权重链接 | paperswithcode |
| Ollama | 🇺🇸 美国 | 本地运行 LLM 的工具和社区库,提供一键下载和运行开源模型 | ollama、ollama.ai |
| Replicate | 🇺🇸 美国 | 开源 AI 模型推理平台,提供模型托管、API 调用和 Web 界面 | replicate |
| Together AI | 🇺🇸 美国 | 开源模型托管和推理平台,提供 API 和模型社区 | togethercomputer |
| ONNX Model Zoo | 🌍 开源 | 开放式神经网络交换格式的模型库,跨框架兼容 | onnx、onnxruntime |
| TensorFlow Hub | 🇺🇸 美国 | 谷歌 TensorFlow 框架的模型库 | tensorflow |
| PyTorch Hub | 🇺🇸 美国 | Meta PyTorch 框架的模型库 | pytorch |
| Kaggle | 🇺🇸 美国 | 数据科学和 AI 竞赛平台,支持模型分享和数据集 | kaggle |
2. 模型提供组织
| 组织名称 | 国家 | 组织简介 | 官方账号标识 | 代表模型 |
|---|---|---|---|---|
| Meta (Meta AI) | 🇺🇸 美国 | 开源模型提供商,发布 Llama 系列开源模型 | meta-llama、meta |
Llama-2、Llama-3、Code Llama |
| Google DeepMind | 🇺🇸 美国 | 谷歌旗下 AI 研究部门,发布 Gemma、T5 等开源模型 | google、deepmind |
Gemma-7B、T5、PaLM |
| OpenAI | 🇺🇸 美国 | GPT 系列发布方,部分模型开源(如 Whisper) | openai |
Whisper、GPT 系列(部分闭源) |
| Anthropic | 🇺🇸 美国 | Claude 的开发商,部分开源版本 | anthropic |
Claude 系列(部分开源版本) |
| xAI | 🇺🇸 美国 | Elon Musk 的 AI 公司,发布高性能开源模型 | xai-org |
Grok-1 |
| Cohere | 🇨🇦 加拿大 | 专业 NLP 模型公司,发布 Command 系列开源模型 | cohere-ai |
Command、Command-R |
| Nous Research | 🇺🇸 美国 | 独立 AI 研究团队,发布高质量微调模型 | NousResearch |
Nous Hermes、Nous Orca |
| Mistral AI | 🇫🇷 法国 | 欧洲主要的开源 AI 初创公司,发布高效能模型 | mistralai |
Mistral-7B、Mixtral-8x7B |
| Stability AI | 🇬🇧 英国 | 文生图和文本模型领导者,多模态开源模型 | stabilityai |
Stable LM、StabilityLM |
| BigScience | 🌍 欧洲 | 开源模型协作组织,发布大型开源语言模型 | bigscience |
BLOOM、BLOOMZ |
| EleutherAI | 🇺🇸 美国 | 开源 AI 研究组织,发布 GPT-Neo 等模型 | EleutherAI |
GPT-Neo、Pythia、Gpt-J |
| DeepSeek | 🇨🇳 中国 | 目前国内开源影响力最大,高效开源模型领导者 | deepseek-ai |
DeepSeek-V3、R1、DeepSeek-MoE |
| Qwen (通义千问) | 🇨🇳 中国 | 阿里巴巴出品,Hugging Face 下载量极高的中文友好开源大模型 | Qwen、alibaba |
Qwen2.5、Qwen-7B、Qwen-72B |
| Yi (零一万物) | 🇨🇳 中国 | 李开复团队,发布高质量中英双语开源模型 | 01-ai |
Yi-1.5、Yi-34B、Yi-200K |
| ChatGLM (智谱) | 🇨🇳 中国 | 清华系背景,发布对话优化的开源大模型 | thudm、zhipuai |
ChatGLM-4、GLM-3、ChatGLM3 |
| MiniMax | 🇨🇳 中国 | 发布效率与性能平衡的开源模型,部分模型开放 | minimax-ai |
MiniMax-Text、部分开源版本 |
| Baichuan (百川) | 🇨🇳 中国 | 中文开源基础模型提供商,覆盖多个参数规模 | baichuan-inc |
Baichuan-4、Baichuan-13B |
3. 参数规模标识
| 标识 | 含义 | 说明 |
|---|---|---|
| 4b / 4B | 4 Billion (40 亿参数) | 轻量级模型,移动端/边缘部署 |
| 7b / 7B | 7 Billion (70 亿参数) | 主流轻量级,成为业界最流行的规格 |
| 8b / 8B | 8 Billion (80 亿参数) | 略大于 7B,性能更优 |
| 13b / 13B | 13 Billion (130 亿参数) | 中等规模,平衡性能与效率 |
| 34b / 34B | 34 Billion (340 亿参数) | 高端轻量级,高质量输出 |
| 40b / 40B | 40 Billion (400 亿参数) | 中等规模 |
| 70b / 70B | 70 Billion (700 亿参数) | 当前开源主流大模型 |
| 120b / 120B | 120 Billion (1200 亿参数) | 高端模型 |
| 405b / 405B | 405 Billion (4050 亿参数) | 超大规模开源模型 (Llama-3.1) |
| e4b 或 4bx10 | Expert 模型混合 (MoE) | 如 Mixtral-8x7B: 8 个 7B 专家 |
4. 量化参数 (Model Quantization)
4.1 常见量化格式
| 格式 | 全称 | 说明 | 用途 |
|---|---|---|---|
| int4 / q4 | 4-bit Integer | 4 位整数量化 | 最大压缩,适合边缘设备 |
| int8 / q8 | 8-bit Integer | 8 位整数量化 | 平衡压缩与性能 |
| nf4 | Normalized float 4-bit | 4 位浮点量化(NormalFloat) | QLoRA 推荐配置 |
| fp6 | 6-bit Float | 6 位浮点量化 | 实验性,罕见 |
| fp8 / mxfp8 | 8-bit Float / NVIDIA MX FP8 | 8 位浮点,NVIDIA GPU 原生 | 推理加速 |
| bf16 | Brain Float 16-bit | 谷歌设计的 16 位浮点 | 模型训练、高精度推理 |
| fp16 | 16-bit Float | 标准 16 位浮点精度 | 通用精度 |
| fp32 | 32-bit Float | 标准 32 位浮点精度 | 最高精度,不常用于推理 |
4.2 常见量化方案
| 方案 | 全称 | 特点 |
|---|---|---|
| AWQ | Activation-aware Weight Quantization | 基于激活权重,精度损失小,推理快 |
| GGUF | 通用模型格式 (llama.cpp) | CPU 推理,跨平台,易于部署 |
| GPTQ | 基于 GPTQ 算法的量化 | 应用最广,精度好,推理快 |
| QuIP | Quantization in Pairs | 高度压缩,精度较好 |
| IQ2 / IQ3 | Integer Quantization 2/3-bit | 极致压缩,GGUF 格式 |
| MLX | Apple MLX 框架量化 | Apple Silicon 优化 |
4.3 模型文件格式
| 格式 | 全称 | 支持框架 | 特点与优势 | 使用场景 |
|---|---|---|---|---|
| GGUF | GGML 通用文件格式 | llama.cpp、Ollama 等 | ✅ CPU 推理、跨平台、内存高效、支持量化 | 本地推理、边缘设备、离线使用 |
| SafeTensors | Hugging Face 安全张量格式 | PyTorch、TensorFlow、JAX | ✅ 安全、快速加载、内存映射、跨框架 | HF 平台、生产环境、模型分享 |
| PyTorch | .pt、.pth、.bin 格式 |
PyTorch | ✅ 原生格式、兼容性好、灵活性强 | PyTorch 框架、训练和推理 |
| TensorFlow SavedModel | .pb、.tf 格式 |
TensorFlow、TensorFlow Lite | ✅ 生产级别、跨平台、包含元数据 | TensorFlow 框架、边缘部署 |
| ONNX | Open Neural Network Exchange | PyTorch、TensorFlow、sklearn 等 | ✅ 框架无关、跨平台、优化推理 | 多框架部署、模型转换、推理优化 |
| MLX | Apple MLX 原生格式 | Apple MLX | ✅ Apple Silicon 优化、GPU 加速、高效推理 | Mac/iPad 本地推理、苹果生态 |
| Ollama | .ollama 打包格式 |
Ollama 运行时 | ✅ 一键下载运行、自动量化、易部署 | 本地快速部署、初学者友好 |
| CTransformers | CTF 格式 | CTransformers | ✅ C++ 优化、CPU 推理快、库小 | 轻量级推理、嵌入式系统 |
| JAX | JAX 格式 | JAX | ✅ 函数式编程、JIT 编译、GPU/TPU 支持 | JAX 框架、科研和大规模训练 |
| Megatron | 分布式训练格式 | Megatron-LM、NVIDIA | ✅ 支持超大模型、张量并行、流水线并行 | 大规模模型训练、分布式推理 |
| Pickle (非推荐) | .pkl Python pickle 格式 |
PyTorch | ⚠️ 安全性低、不可信代码执行风险 | 仅限本地测试 |
5. 微调与版本参数
| 标识 | 全称 | 说明 |
|---|---|---|
| -base | Base Model | 基础模型,未经指令微调或对话优化 |
| -chat | Chat Version | 经过对话微调,适合聊天场景 |
| -instruct / -it | Instruction Tuning | 经过指令微调,遵循命令能力强 |
| -dpo | Direct Preference Optimization | 使用 DPO 对齐,更符合人类偏好 |
| -qlora / -qlora-it | QLoRA 微调版本 | 轻量级微调,参数高效 |
| -lora | LoRA 适配器 | 低秩适配微调版本 |
| -mlx | Apple MLX 框架优化 | 专为 Apple Silicon 优化 |
| -cot | Chain of Thought | 包含思维链增强 |
| -vision | 多模态版本 | 支持图像理解 |
| -awq | AWQ 量化版本 | 使用 AWQ 方案量化 |
| -gptq | GPTQ 量化版本 | 使用 GPTQ 方案量化 |
| -hf | Hugging Face 版本 | 标准 HF 格式上传 |
6. 常见完整模型名解读示例
| 模型名 | 解读 |
|---|---|
Llama-2-70b-chat-hf |
Meta Llama-2,70B 参数,Chat 微调版,HF 格式 |
Mistral-7B-Instruct-v0.1 |
Mistral AI,7B 参数,指令微调版本 0.1 |
Qwen-72B-Chat |
阿里巴巴 Qwen,72B 参数,对话优化版 |
Baichuan-13B-Chat |
百川,13B 参数,聊天优化版 |
Nous-Hermes-13b-GPTQ |
Nous Hermes,13B 参数,GPTQ 量化版 |
TheBloke/Mistral-7B-Instruct-v0.1-GGUF |
Mistral 7B,由 TheBloke 提供 GGUF 量化版本 |
Qwen1.5-7B-Chat-AWQ |
阿里 Qwen 1.5 版本,7B,对话微调,AWQ 量化 |
Llama-2-7b-chat-hf-4bit |
Llama-2,7B,聊天版,4 位量化 |
Unsloth/Mistral-7B-qlora-it |
Unsloth 框架优化,Mistral 7B,QLoRA 微调版 |
deepseek-llm-67b-base |
深度求索 LLM,67B 参数,基础未微调版本 |
7. 快速识别技巧
看到模型名,按顺序识别:
- 社区前缀 → 识别来源 (Qwen, Mistral, Llama 等)
- 版本号 → 如 Llama-2, Llama-3, Qwen1.5
- 参数量 → 如 7B, 13B, 70B
- 微调类型 → base/chat/instruct/dpo 等
- 量化格式 → 4bit/int8/GPTQ/AWQ/GGUF 等
- 平台标识 → hf(HuggingFace), mlx(Apple), etc.
示例流程:
Yi-34B-Chat-4bits→ 01.AI 的 Yi 系列 → 基础版本 → 34B 参数 → Chat 微调 → 4 位量化
8. 补充说明
- 推荐搭配:生产环境通常采用
70B-Chat-AWQ或34B-Chat-GPTQ的组合 - 边缘设备:优先选择
7B-Chat-GGUF或8B-Chat-int4 - 本地微调:选择
7B-base或13B-base加 QLoRA 框架 - API 推理:无需关注量化,选择基础版本由服务商优化