📌 项目简介
经过数月的迭代开发,LLM2026520 系列正式对外发布。这是一个从零构建的中文大语言模型训练项目,覆盖数据预处理、分词器训练、模型架构设计、分布式训练、微调部署的完整链路。
项目始于对 Transformer 底层原理的深入探索,最终形成了三个代际版本——从概念验证的原型机,到可训练的完整版本,再到模块化、可扩展的工业级框架。全程使用 CCI2-Data 中文语料(655 个文件,18GB),在 AutoDL A800-80GB 上完成训练。
🚀 版本对比
| 特性 | L1.0 MVP | L2.0 优化 | L3.0 工业版 |
|---|---|---|---|
| 架构 | 基础 Transformer | 优化 Transformer | 模块化 + GQA |
| 分词器 | SentencePiece Unigram | SentencePiece Unigram | BPE (更稳定) |
| 模型参数 | 基础配置 | 优化配置 | 150M / 500M 可选 |
| 注意力机制 | MHA | MHA | GQA (12Q+4KV) |
| 预训练数据 | CCI2-Data | CCI2-Data | CCI2-Data (18GB) |
| 训练平台 | 本地 CPU | AutoDL GPU | AutoDL A800-80GB |
| 代码行数 | ~500 行 | ~800 行 | ~2000+ 行 |
| 状态 | ✅ 已完成 | ✅ 已完成 | 🔬 训练中 |
📥 下载
🛠️ 技术亮点
🧩 模块化架构
Config / Model / Data / Train 完全解耦,YAML 驱动配置,一行参数切换模型规模
⚡ GQA 注意力
分组查询注意力,12 个 Query 头共享 4 个 KV 头,显存降低约 60%,推理速度提升 2-3x
📝 BPE 分词器
从 SentencePiece Unigram 进化为 BPE,训练更稳定,避免 AutoDL 环境意外杀进程导致的词典损坏
🔬 自动监控
每 5 分钟自动监控训练状态,异常即时飞书通知,loss 曲线实时追踪
📊 混合精度训练
PyTorch AMP 自动混合精度,FP16 训练 + FP32 权重备份,显存省一半,速度翻倍
🌐 跨平台兼容
一键环境检测 + 依赖安装,支持 Linux/Windows,CPU 推理 / GPU 训练自适应
📖 快速开始
# 安装依赖 python install_deps.py # 下载 L3.0 源码 git clone https://github.com/Tang5201314114514/LLM2026520L3.0.git # 配置训练参数 vim config.yaml # 开始训练 python train.py # 文本生成 python generate.py --prompt "你好,世界"
训练数据使用 CCI2-Data 中文语料,模型在 AutoDL A800-SXM4-80GB 上训练。150M 版本训练至 step 30270(约 60%),500M 版本进行了早期验证。项目持续迭代中。
📅 发布日期:2026-06-16 · 🏷️ LLM · Transformer · 开源 · 中文大模型
评论