back to home

PaddlePaddle / FastDeploy

High-performance Inference and Deployment Toolkit for LLMs and VLMs based on PaddlePaddle

View on GitHub
3,663 stars
723 forks
693 issues
PythonC++Cuda

AI Architecture Analysis

This repository is indexed by RepoMind. By analyzing PaddlePaddle/FastDeploy in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.

Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context on-demand, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.

Source files are only loaded when you start an analysis to optimize performance.

Embed this Badge

Showcase RepoMind's analysis directly in your repository's README.

[![Analyzed by RepoMind](https://img.shields.io/badge/Analyzed%20by-RepoMind-4F46E5?style=for-the-badge)](https://repomind.in/repo/PaddlePaddle/FastDeploy)
Preview:Analyzed by RepoMind

Repository Overview (README excerpt)

Crawler view

English | 简体中文 安装指导 | 快速入门 | 支持模型列表 -------------------------------------------------------------------------------- FastDeploy 飞桨大模型高效部署套件 最新活动 **[2026-01] FastDeploy v2.4 全新发布!** 新增 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署,增强MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能,升级全部内容参阅 v2.4 ReleaseNote。 **[2025-11] FastDeploy v2.3**: 新增ERNIE-4.5-VL-28B-A3B-Thinking与PaddleOCR-VL-0.9B两大重磅模型在多硬件平台上的部署支持,进一步优化全方位推理性能,以及带来更多部署功能和易用性的提升,升级全部内容参阅v2.3 ReleaseNote。 **[2025-09] FastDeploy v2.2**: HuggingFace生态模型兼容,性能进一步优化,更新增对baidu/ERNIE-21B-A3B-Thinking支持! **[2025-08] FastDeploy v2.1**:全新的KV Cache调度策略,更多模型支持PD分离和CUDA Graph,昆仑、海光等更多硬件支持增强,全方面优化服务和推理引擎的性能。 关于 **FastDeploy** 是基于飞桨(PaddlePaddle)的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,提供**开箱即用的生产级部署方案**,核心技术特性包括: • 🚀 **负载均衡式PD分解**:工业级解决方案,支持上下文缓存与动态实例角色切换,在保障SLO达标和吞吐量的同时优化资源利用率 • 🔄 **统一KV缓存传输**:轻量级高性能传输库,支持智能NVLink/RDMA选择 • 🤝 **OpenAI API服务与vLLM兼容**:单命令部署,兼容vLLM接口 • 🧮 **全量化格式支持**:W8A16、W8A8、W4A16、W4A8、W2A16、FP8等 • ⏩ **高级加速技术**:推测解码、多令牌预测(MTP)及分块预填充 • 🖥️ **多硬件支持**:NVIDIA GPU、昆仑芯XPU、海光DCU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等 要求 • 操作系统: Linux • Python: 3.10 ~ 3.12 安装 FastDeploy 支持在**英伟达(NVIDIA)GPU**、**昆仑芯(Kunlunxin)XPU**、**天数(Iluvatar)GPU**、**燧原(Enflame)GCU**、**海光(Hygon)DCU** 以及其他硬件上进行推理部署。详细安装说明如下: • 英伟达 GPU • 昆仑芯 XPU • 天数 CoreX • 燧原 S60 • 海光 DCU • 沐曦 GPU • 英特尔 Gaudi 入门指南 通过我们的文档了解如何使用 FastDeploy: • 10分钟快速部署 • ERNIE-4.5 部署 • ERNIE-4.5-VL 部署 • 离线推理 • 在线服务 • 最佳实践 支持模型列表 通过我们的文档了解如何下载模型,如何支持torch格式等: • 模型支持列表 进阶用法 • 量化 • 分离式部署 • 投机解码 • 前缀缓存 • 分块预填充 • 负载均衡调度Router • 全局Cache池化 致谢 FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。