qibin0506 / Cortex
从零构建大模型:从预训练到RLHF的完整实践
AI Architecture Analysis
This repository is indexed by RepoMind. By analyzing qibin0506/Cortex in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.
Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context on-demand, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.
Repository Overview (README excerpt)
Crawler view从零构建大模型:从预训练到RLHF的完整实践 📖 项目简介 **Cortex** 是一个致力于让个人开发者也能承担训练成本的 LLM 项目。本项目实现了从零开始构建大模型的全过程,代码完全开源且解耦。 🌟 Cortex 3.0 核心特性 • **低成本高效能**:采用 **80M 参数 Dense 模型**,在 4x RTX 4090 环境下,**全流程训练仅需约 7 小时**。 • **全链路覆盖**:包含 **Pretrain (预训练)** -> **Midtrain (长文适应)** -> **SFT (指令微调)** -> **PPO (强化学习)** 四大完整阶段。 • **高度解耦**: • 🤖 模型定义:qibin0506/llm\_model • ⚙️ 训练框架:qibin0506/llm\_trainer > **⚠️ 版本说明** > > * **Cortex 3.0 (当前)**:追求极致速度与标准流程,80M Dense 模型,支持 PPO。 > * **Cortex 2.5**:支持 **MoE 架构**、**思考模式 (Thinking Mode)** 及深度搜索功能。如需研究类 o1 的思考能力,请切换至 2.5 分支。 📰 更新日志 2026.3.17 • 添加Attention Residuals支持。 • 升级llm_model到0.9.0。 • 升级llm_trainer到0.14.4。 2026.1.29 • 🚀 **架构变更**:切换为 80M Dense 模型,使用自训练的 8192 词表 Tokenizer。 • ⚡ **速度飞跃**:训练框架全面升级,断点续训优化,4x4090 仅需 7 小时跑通全流程。 • 📉 **流程精简**:移除思考模式,专注于标准 RLHF 流程(Pretrain -> Midtrain -> SFT -> PPO)。 🚀 快速开始 ☁️ 在线体验 访问 ModelScope 创空间直接体验模型效果: 👉 点击前往 ModelScope Studio 💻 本地部署 • **环境准备**:确保 Python >= 3.10。 • **获取代码**: • **安装依赖**: • **启动服务**: *首次运行将自动下载模型文件,启动后访问 即可体验。* ⚙️ 训练流程详解 • 数据准备 Cortex 3.0 采用 Minimind Dataset。 • 脚本: • 逻辑:自动拆分 SFT 数据集,大部分用于预训练,少部分保留用于 SFT 阶段。 • 阶段性训练指南 训练过程分为四个主要阶段,请按顺序执行。 | **阶段** | **脚本** | **上下文** | **目标与说明** | | :--------------- | :------------------ | :------ | :---------- | | **I. Pretrain** | | 512 | **基础知识学习**。 | | **II. Midtrain** | | 2048 | **长文本适应**。 | | **III. SFT** | | 2048 | **对话能力赋予**。 | | **IV. PPO** | | 2048 | **人类偏好对齐**。 | 🔧 通用操作:监控与 Checkpoint 转换 • **监控**:日志位于 目录。 • 查看指标: • 查看学习率: • **Checkpoint 转换**:每个阶段结束后,DeepSpeed 的 Checkpoint 需要转换为标准 bin 文件以便下一阶段加载。 *** 📌 阶段一:Pretrain (预训练) > 📊 **Pretrain 指标预览** > > 📌 阶段二:Midtrain (长文适应) > 📊 **Midtrain 指标预览** > > 📌 阶段三:SFT (监督微调) > 📊 **SFT 指标预览** > > 📌 阶段四:PPO (强化学习) 本阶段包含 Policy Model 和 Value Model 的联合训练。 > 📊 **PPO 指标预览** > > 🆚 PPO vs SFT 效果对比 PPO 阶段通过 Reward Model 对模型生成进行打分和优化,显著提升了回复质量。运行 可查看评分对比: | **模型阶段** | **平均得分 (Avg Score)** | **说明** | | :------- | :------------------- | :--------------- | | **SFT** | | 初步具备对话能力,但回复质量一般 | | **PPO** | | **显著提升**,更符合人类偏好 | --- 📊 star-history