AI Architecture Analysis
This repository is indexed by RepoMind. By analyzing DuanYan007/markitdown in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.
Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context on-demand, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.
Repository Overview (README excerpt)
Crawler viewMarkItDown > 将多种文档格式转换为 Markdown,为 AI 大模型准备高质量语料 简介 MarkItDown 是对微软开源项目 MarkItDown 的重写实现,提供三种使用方式: • **MCP 服务器** - 与 Claude Desktop 深度集成 • **Web 应用** - 在线文档转换服务 • **命令行工具** - Java 实现的轻量级工具 功能特性 • 📄 支持 PDF、Word、Excel、PPT、图片等 **12+ 种文件格式** • 🧠 **PaddleOCR** 智能版面分析和高精度 OCR 识别 • 🖼️ 图片文字提取(中英文混合识别) • 📋 ZIP 批量转换 • 🎯 专为 AI 语料准备优化 --- 📦 MCP 服务器(推荐) MCP (Model Context Protocol) 服务器版本已发布到 PyPI,可直接与 Claude Desktop 集成使用。 安装 配置 Claude Desktop 在 Claude Desktop 配置文件中添加: 获取 PaddleOCR API 凭证 访问 PaddleOCR AI Studio,点击 "API" 按钮获取 API URL 和 Token。 使用示例 配置完成后,在 Claude Desktop 中直接对话: 支持格式 | 类别 | 扩展名 | |------|--------| | PDF | | | 图片 | , , , , , , | | Word | | | PowerPoint | | | Excel | , | | Web | , | | CSV | | 详见 markitdown-mcp/README.md --- 🌐 Web 应用 基于 Flask 的 Web 应用,提供可视化界面和批量处理能力。 快速开始 访问 http://localhost:5000 功能亮点 • 拖拽上传,格式自动识别 • 实时预览转换结果 • ZIP 批量转换 • 转换历史管理 • 动态配置管理 详见 markitdown-web/readme.md --- ☕ Java 命令行工具 轻量级命令行工具,适合服务器环境和批量处理。 📦 下载发布版本 **最新版本 v0.0.2** - 已通过 103 个测试用例验证 或访问 GitHub Releases 查看所有版本。 快速开始 命令行选项 配置文件系统 Java 命令行工具支持 properties 格式的配置文件,可以预设常用参数和引擎路径: 生成配置文件 这将在当前目录创建 文件。 配置文件示例 使用配置文件 配置优先级 • 命令行参数(最高优先级) • 环境变量(如 , ) • 配置文件 • 默认值(最低优先级) 详细文档 完整的配置文件说明请参考:java/CONFIGURATION_GUIDE.md --- 📚 支持格式总览 | 格式类别 | 扩展名 | MCP | Web | Java | |---------|--------|-----|-----|------| | **PDF** | .pdf | ✅ | ✅ | ⚠️ | | **Word** | .doc, .docx | ✅ | ✅ | ✅ | | **Excel** | .xls, .xlsx | ✅ | ✅ | ✅ | | **PowerPoint** | .ppt, .pptx | ✅ | ✅ | ✅ | | **图片** | .jpg, .png, .gif, .bmp, .tiff, .webp | ✅ | ✅ | ❌ | | **HTML** | .html, .htm | ✅ | ✅ | ✅ | | **CSV** | .csv | ✅ | ✅ | ✅ | | **音频** | .mp3, .wav, .ogg, .flac, .m4a | ❌ | ✅ | ✅ | | **视频** | .mp4, .avi, .mov, .mkv | ❌ | ✅ | ❌ | | **JSON/XML** | .json, .xml | ❌ | ✅ | ✅ | | **文本** | .txt, .log, .md | ✅ | ✅ | ✅ | | **ZIP** | .zip | ❌ | ✅ | ❌ | > ✅ 完整支持 | ⚠️ 基础支持 | ❌ 不支持 --- 🏗️ 技术栈 MCP 服务器 • MCP Protocol (STDIO/HTTP) • PaddleOCR API • Python 标准库(轻量级设计) Web 应用 • Flask + PaddleOCR PP-StructureV3 • 动态配置热更新 • 原子性文件迁移 Java 工具 • Apache POI(Office 文档) • PicoCLI(命令行界面) • Jackson(JSON/XML) --- 📄 许可证 MIT License --- 🙏 致谢 • Microsoft MarkItDown - 原始项目 • PaddleOCR - OCR 框架 • Flask - Web 框架 • Apache POI - Office 文档处理 --- 👨💻 作者 **DuanYan** - GitHub