📌 项目简介

经过数月的迭代开发,LLM2026520 系列正式对外发布。这是一个从零构建的中文大语言模型训练项目,覆盖数据预处理、分词器训练、模型架构设计、分布式训练、微调部署的完整链路。

项目始于对 Transformer 底层原理的深入探索,最终形成了三个代际版本——从概念验证的原型机,到可训练的完整版本,再到模块化、可扩展的工业级框架。全程使用 CCI2-Data 中文语料(655 个文件,18GB),在 AutoDL A800-80GB 上完成训练。

🚀 版本对比

特性 L1.0 MVP L2.0 优化 L3.0 工业版
架构 基础 Transformer 优化 Transformer 模块化 + GQA
分词器 SentencePiece Unigram SentencePiece Unigram BPE (更稳定)
模型参数 基础配置 优化配置 150M / 500M 可选
注意力机制 MHA MHA GQA (12Q+4KV)
预训练数据 CCI2-Data CCI2-Data CCI2-Data (18GB)
训练平台 本地 CPU AutoDL GPU AutoDL A800-80GB
代码行数 ~500 行 ~800 行 ~2000+ 行
状态 ✅ 已完成 ✅ 已完成 🔬 训练中

📥 下载

🛠️ 技术亮点

🧩 模块化架构
Config / Model / Data / Train 完全解耦,YAML 驱动配置,一行参数切换模型规模
⚡ GQA 注意力
分组查询注意力,12 个 Query 头共享 4 个 KV 头,显存降低约 60%,推理速度提升 2-3x
📝 BPE 分词器
从 SentencePiece Unigram 进化为 BPE,训练更稳定,避免 AutoDL 环境意外杀进程导致的词典损坏
🔬 自动监控
每 5 分钟自动监控训练状态,异常即时飞书通知,loss 曲线实时追踪
📊 混合精度训练
PyTorch AMP 自动混合精度,FP16 训练 + FP32 权重备份,显存省一半,速度翻倍
🌐 跨平台兼容
一键环境检测 + 依赖安装,支持 Linux/Windows,CPU 推理 / GPU 训练自适应

📖 快速开始

# 安装依赖
python install_deps.py

# 下载 L3.0 源码
git clone https://github.com/Tang5201314114514/LLM2026520L3.0.git

# 配置训练参数
vim config.yaml

# 开始训练
python train.py

# 文本生成
python generate.py --prompt "你好,世界"

训练数据使用 CCI2-Data 中文语料,模型在 AutoDL A800-SXM4-80GB 上训练。150M 版本训练至 step 30270(约 60%),500M 版本进行了早期验证。项目持续迭代中。


📅 发布日期:2026-06-16 · 🏷️ LLM · Transformer · 开源 · 中文大模型