ForceInjection / AI-fundermentals

AI 基础知识 - GPU 架构、CUDA 编程、大模型基础及AI Agent 相关知识

954 stars

148 forks

0 issues

HTMLShellC

Chat with Codebase Architecture Scan Security Audit Explain Codebase

AI Architecture Analysis

This repository is indexed by RepoMind. By analyzing ForceInjection/AI-fundermentals in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.

Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context on-demand, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.

Source files are only loaded when you start an analysis to optimize performance.

Click here to launch the interactive analysis workspace

Embed this Badge

Showcase RepoMind's analysis directly in your repository's README.

[![Analyzed by RepoMind](https://img.shields.io/badge/Analyzed%20by-RepoMind-4F46E5?style=for-the-badge)](https://repomind.in/repo/ForceInjection/AI-fundermentals)

Preview:

Repository Overview (README excerpt)

Crawler view

AI Fundamentals 本仓库是一个全面的人工智能基础设施（AI Infrastructure）学习资源集合，涵盖从硬件基础到高级应用的完整技术栈。内容包括 GPU 架构与编程、CUDA 开发、大语言模型、AI 系统设计、性能优化、企业级部署等核心领域，旨在为 AI 工程师、研究人员和技术爱好者提供系统性的学习路径和实践指导。 > - **适用人群**：AI 工程师、系统架构师、GPU 编程开发者、大模型应用开发者、技术研究人员。 > - **技术栈**：CUDA、GPU 架构、LLM、AI 系统、分布式计算、容器化部署、性能优化。 --- **Star History**: --- • 硬件架构与互连技术本章深入解析 AI 计算硬件与系统互连架构，内容涵盖从单机基础计算芯片（GPU、TPU）的设计哲学，到系统内高速互连总线（PCIe、NVLink）及高级跨节点直通技术（GPUDirect），最后探讨系统级延迟参考与异构融合超级芯片架构。详细内容请访问：**硬件架构与互连技术**。 • **基础计算芯片架构** • 深入理解 GPU 架构 • TPU 101：深度学习专用加速器架构解析 • GPGPU vs NPU：大模型推理训练对比 • **高速互连与数据传输技术** • PCIe 总线技术大全 • Linux PCIe P2PDMA 技术介绍 • NVLink 技术入门 • NVIDIA GPUDirect P2P 技术详解：节点内 GPU 高速互联 • NVIDIA GPUDirect RDMA 与 Storage 技术详解 • **异构融合架构与系统性能评估** • NVLink-C2C：芯片级高速互连技术详解 • NVIDIA GB300 NVL72：机架级计算系统架构解析 • AI 基础设施延迟金字塔 --- • AI 集群运维与高性能通信本章涵盖从底层网络硬件到上层通信库的完整运维体系，包括高性能网络组网、GPU 基础监控运维以及分布式通信实战，为构建高吞吐的 AI 计算集群提供保障。详细内容请访问：**AI 集群运维与通信**。 • **GPU 基础运维** • 设备查询：Device Query • 误区解读：GPU 利用率指标分析 • 状态监控：nvidia-smi 指南 • 状态监控：nvtop 指南 • **InfiniBand 高性能网络** • 理论基础：IB 网络架构与协议 • 网络运维：健康检查与性能监控实战 • **NCCL 分布式通信测试** • 理论基础：NCCL 教程 • 实战指南：基准测试与多节点部署 --- • 云原生 AI 基础设施本章聚焦于云原生技术在 AI 领域的应用，探讨如何利用 Kubernetes、容器化、微服务等云原生技术栈构建高效、可扩展的 AI 基础设施。详细内容请访问：**云原生 AI 平台**。 3.1 Kubernetes AI 基础设施 Kubernetes 是云原生 AI 平台的操作系统。本模块深入解析 Kubernetes 在 AI 场景下的核心组件与扩展机制，涵盖从底层的容器运行时支持到上层的分布式作业调度。 • Kubernetes GPU 管理与 AI 工作负载：云原生 AI 基础设施建设指南与技术导图 • NVIDIA Container Toolkit 原理：容器使用 GPU 的底层机制深度解析 • Device Plugin 原理：Kubernetes 设备插件机制源码分析 • Kueue + HAMi 调度方案：云原生作业队列与细粒度 GPU 共享机制 • LWS (Leader Worker Set) 介绍：Kubernetes 原生的大模型分布式训练与推理调度抽象 • 分布式推理框架：基于 Kubernetes 的 LLM 推理架构设计 • Containerd 日志分析：云原生容器运行时的日志排查与分析 3.2 GPU 资源管理与虚拟化 GPU 是 AI 平台最昂贵的计算资源。本模块专注于 GPU 资源的精细化管理，包括虚拟化、切分、远程调用和池化技术，旨在最大化资源利用率。 **基础系列文档**： • 第一部分：基础理论篇：构建技术认知框架，解析传统模式局限性与核心技术体系 • 第二部分：虚拟化技术篇：深入剖析硬件级、内核态与用户态虚拟化的核心实现机制 • 第三部分：资源管理与优化篇：探讨 GPU 切分、CUDA 流及 MPS 等高效资源调度与优化策略 • 第四部分：实践应用篇：涵盖环境部署、监控运维及云平台集成的生产落地指南 **HAMi 专题**： • HAMi 资源管理使用手册：异构算力管理与隔离实战指南 • HAMi Prometheus 监控指标：构建完善的 GPU 虚拟化可观测性体系 • KAI vs HAMi 对比分析：深度对比原生 Kubernetes AI 调度器与 HAMi 方案 • Flex AI 介绍：探讨灵活异构算力环境下的前沿实践 **代码实现与配置**： • 完整实现代码：GPU 调度器、虚拟化拦截与远程调用的参考实现代码 • 配置文件集合：提供适用于生产环境和多云平台的完整部署与配置参考 3.3 高性能分布式存储数据是 AI 的燃料。本模块介绍如何利用 JuiceFS、DeepSeek 3FS 等云原生分布式文件系统，解决 AI 训练中海量小文件读取、模型检查点保存和跨节点数据共享的性能瓶颈。 • JuiceFS 分布式文件系统：数据与元数据分离的架构设计，兼容 POSIX 接口 • 文件修改机制分析：底层数据一致性与写入流程解析 • 后端存储变更手册：生产环境下的存储运维与数据迁移指南 • DeepSeek 3FS 设计笔记：高性能存储系统架构设计与特性分析 • NVIDIA ICMS 架构解析：面向推理的 KV Cache 存储层架构深度解析 --- • 底层计算与异构编程本章专注于 AI 系统的底层编程技术，涵盖 GPU 基础架构、CUDA 核心编程范式以及 DPU 的开发指南，为系统级开发者提供从入门到进阶的完整技术路径。 4.1 GPU 与 CUDA 编程整合了 GPU 基础架构、CUDA 核心编程概念及丰富的学习资源。详细内容请访问：GPU 编程基础。 **开发环境配置**： • NVIDIA 容器环境配置：NVIDIA Container Toolkit 原理与构建指南 • CUDA 镜像构建分析：大模型训练与推理框架的 GPU 镜像构建深度解析 **核心编程范式**： • GPU 编程入门指南：并行计算基础与 CUDA 编程模型 • CUDA 核心概念详解：线程块、网格等基础概念的深度解析 • CUDA 流详解：CUDA 并发编程之流处理机制 • SIMT vs Tile-Based 编程模型对比：架构差异与演进分析 **Tile-Based 编程**： • TileLang 快速入门：语法详解、算子开发实战与性能优化技巧 **性能分析与调优**： • nvbandwidth 最佳实践：显存带宽与 PCIe 传输带宽测量指南 **进阶学习资源**： • CUDA-Learn-Notes：涵盖 200+ 个 Tensor Core/CUDA Core 极致优化内核示例 (HGEMM, FA2 via MMA and CuTe) • Nvidia 官方 CUDA 示例：官方标准范例库 • Multi GPU Programming Models：多卡编程模型示例 4.2 DPU 编程介绍数据处理单元（DPU）在现代计算架构中的应用及编程框架。详细内容请访问：DPU 编程。 • **DOCA 框架** • DOCA 编程入门：涵盖架构简介、核心组件及典型场景编程实践 --- • 大语言模型应用开发与编排本章探讨在 AI 时代下新兴的应用层开发范式与工作流，重点关注如何利用各种编程语言、框架和编排工具构建复杂的 LLM 应用及 Agent 系统。详细的深度探讨可参考大模型编程指南。 5.1 AI 时代的软件工程：范式转移与重构随着大语言模型能力的爆发式增长，软件工程正从 Software 1.0/2.0 时代迈向以自然语言驱动、Agent 自主决策与推理为核心的 **Software 3.0** 时代。本节探讨了在 AI 辅助下新兴的编程范式与工作流，重点关注如何利用 AI 提升开发效率与代码质量： • Agent First：软件工程的下一个范式转移 - 梳理编程范式的演变历史，探讨 Agent First 的核心理念与实战指南。 • 驾驭工程 - 深度解析如何构建驾驭系统，提升 AI 编程助手的可控性与效能。 • OpenSpec 实战指南 - Spec 驱动开发 (Spec-Driven Development) 的工程实践，演示了“意图 -> Spec -> AI -> 代码 & 验证”的新一代开发工作流。 5.2 Java AI 开发本节主要介绍在 Java 生态系统中开发大语言模型应用的技术栈。Spring AI 作为官方主推的 AI 工程框架，极大地降低了企业级 Java 应用接入 AI 能力的门槛。 • Java AI 开发指南 - Java 生态系统中的 AI 开发技术总览。 • 使用 Spring AI 构建高效 LLM 代理 - 基于 Spring AI 框架的企业级 AI 应用开发实践。 5.3 LangGraph 开发 LangGraph 是一个用于构建有状态、多智能体应用程序的库。它通过引入图计算模型，完美解决了传统 LLM 应用在循环逻辑和状态持久化方面的瓶颈，特别适合构建需要多轮推理和自我反思的复杂 Agent 工作流。 • LangGraph 框架学习资源 - LangGraph 框架的学习资源与实践案例总览。 • LangGraph 简介 - LangGraph 的核心概念与入门指南。 • AI 客服系统实战 - 基于 LangGraph 构建的 AI 客服系统 Notebook 实战。 5.4 AI 工作流与编排除硬编码框架外，无代码或低代码（No-Code/Low-Code）工具也是 AI 应用落地的重要途径，它们能大幅提升编排效率。 • Coze 部署和配置手册 - Coze 平台的私有化部署与配置指南。 • n8n 多智能体编排指南 - 基于 n8n 构建 Multi-Agent 系统。 • 开源大模型应用编排平台对比 - 主流应用编排平台的深度横评。 --- • 机器学习基础本部分基于开源项目，提供系统化的机器学习学习路径。涵盖从数学原理到代码实现的完整过程，为深入学习大模型打下坚实基础。 6.1 动手学机器学习本节提供全面的理论讲解与代码实战。动手学机器学习 - 全面的机器学习学习资源库，包含理论讲解、代码实现和实战案例。 **核心特色：** • **理论与实践结合**：以 NJU 课程为主线，辅以 SJTU 配套资源，从数学原理到代码实现的完整学习路径。 • **算法全覆盖**：涵盖监督学习、无监督学习、集成学习、推荐系统、概率图模型及深度学习。 • **项目驱动学习**：提供心脏病预测、鸢尾花分类、房价预测等实战案例。 • **工程化实践**：深入特征工程、模型评估、超参数调优及特征选择。 6.2 参考资料本节精选了数学基础、经典教材与实战平台资源，构建完整的知识图谱。 **数学基础：** • 线性代数的本质 - 3Blue1Brown 可视化教程，直观理解线性变换与矩阵运算。 • MIT 18.06 线性代数 - Gilbert Strang 经典课程，深入矩阵分解与子空间理论。 • 概率论与统计学基础 - 掌握贝叶斯定理、最大似然估计与概率分布。 **经典教材：** • **《统计学习方法》** - 李航著，系统阐述感知机、SVM、HMM 等核心算法的数学原理。 • **《机器学习》** - 周志华著（西瓜书），全面覆盖机器学习基础理论与范式。 • **《模式识别与机器学习》** - Bishop 著（PRML），贝叶斯视角的机器学习圣经。 **在线课程与实战：** • Andrew Ng 机器学习课程 - Coursera 经典入门，强调直觉理解。 • CS229 机器学习 - 斯坦福进阶课程，深入数学推导。 • Kaggle - 全球最大的数据科学竞赛平台，提供真实数据集与 Notebook 环境。 --- • 大语言模型理论与基础本章旨在为读者构建扎实的大语言模型（LLM）理论基础，涵盖从词向量嵌入到模型架构设计的核心知识。我们将深入解析 Token 机制、混合专家模型（MoE）等关键技术，并探讨量化、思维链（CoT）等前沿优化方向，同时涵盖深度研究（Deep Research）应用与工作流编排等前沿技术。 > 详细内容请访问：LLM 理论与基础 - 核心文档门户，涵盖基础理论、深度研究与工作流编排。 7.1 基础理论与概念本节介绍大语言模型的基础理论，涵盖从文本处理到模型架构的核心概念。理解这些基础概念是深入学习 LLM 技术的前提。 • Andrej Karpathy ： Deep Dive into LLMs like ChatGPT （B 站视频） - 深度学习领域权威专家的 LLM 技术解析。 • 大模型基础组件 - Tokenizer - 文本分词与编码的核心技术。 • 解密大语言模型中的 Tokens - Token 机制的深度解析与实践应用。 • Tiktokenizer 在线版 - 交互式 Token 分析工具。 • 一文读懂思维链（Chain-of-Thought, CoT） - 推理能力增强的核心技术。 • 大模型的幻觉及其应对措施 - 幻觉问题的成因分析与解决方案。 • 大模型文件格式完整指南 - 模型存储与部署的技术规范。 7.2 嵌入技术与表示学习本节深入探讨文本嵌入的原理、实现方式以及在不同场景下的应用策略。嵌入技术是大语言模型的核心组件之一，负责将离散的文本符号转换为连续的向量表示。 • 文本嵌入学习资源 - 深入探讨文本嵌入原理与应用的综合指南门户。 • 深入了解文本嵌入技术 - 全面解析 Text Embeddings 的演变、距离度量及应用。 • LLM 嵌入技术详解：图文指南…