tencentmusic / cube-studio
cube studio开源云原生一站式机器学习/深度学习/大模型AI平台,mlops算法链路全流程,算力租赁平台,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU虚拟化,边缘计算,标注平台自动化标注,deepseek等大模型sft微调/奖励模型/强化学习训练,vllm/ollama/mindie大模型多机推理,私有知识库,AI模型市场,支持国产cpu/gpu/npu 昇腾生态,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/ray/volcano等分布式
AI Architecture Analysis
This repository is indexed by RepoMind. By analyzing tencentmusic/cube-studio in our AI interface, you can instantly generate complete architecture diagrams, visualize control flows, and perform automated security audits across the entire codebase.
Our Agentic Context Augmented Generation (Agentic CAG) engine loads full source files into context on-demand, avoiding the fragmentation of traditional RAG systems. Ask questions about the architecture, dependencies, or specific features to see it in action.
Repository Overview (README excerpt)
Crawler viewCube Studio English | 简体中文 整体架构 公司 帮助文档 https://github.com/tencentmusic/cube-studio/wiki 功能清单 cube studio是 开源一站式云原生机器学习平台,目前主要包含 |模块分组|功能模块| 功能清单 | |:-|:--|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| |基础能力|项目组管理| AI平台需要通过项目划分, 支持配置相应项目组用户的权限, 任务/服务的挂载,资源组,集群,服务代理, 项目组内角色应用 | |基础能力|网络| 支持非80端口, 支持公网/域名, 支持反向代理和内网穿透方式访问, 支持https | |基础能力|用户管理 角色管理/权限管理| 管理平台用户的基本信息,组织架构,支持账号密码,rbac权限体系。 增加修改和删除,清理等操作的历史记录 | |基础能力|计量计费功能| 1、支持平台资源限制的分配和查看;项目组资源限制,租户资源限制、任务资源限制,项目组下个人的资源限制,包括开发资源,训练资源、推理资源等。 额度限制限制在notebook,docker构建,pipeline,超参搜索,内部服务,推理服务中的生效。限制支持单任务,并行任务总和和历史任务总和等方法 2、提供统一的开发、训练、推理服务资源监控,从租户、项目、任务角度分析模型资源分配及使用情况。 3、支持自定义计费模式,通过计量结果自定义获取计费值 | |基础能力|SSO单点登录| 账号密码注册自动登录, 支持对接公司账号体系AUTH_OID/AUTH_LDAP/AUTH_REMOTE_USER等登录注册方式, 支持消息推送。 增加登录验证,强密码,远程用户,登录频率限制,密码密文传输等 | |基础能力|支持多种算力| 提供多种规格的资源支持不同的使用场景,cpu/gpu等 支持T4/V100/A100等多种卡型, 支持arm64芯片, 支持vgpu等模式。 支持国产gpu,支持调度海光dcu,华为npu,寒武纪mlu,天数智芯GPU, 支持rdma调度,mellanox。 支持gpu禁用模型,共享模式,独占模式 | |基础能力|多资源组/多集群| 支持划分多资源组, 支持ipvs的k8s网络模式, 支持多k8s集群, 支持containerd容器运行态 | |基础能力|边缘集群| 支持边缘集群模式,支持边缘节点开发,训练,推理 | |基础能力|serverless集群模式| 支持腾讯云serverless集群模式,(notebook,pipeline,推理服务模块支持) 阿里云serverless集群模式(notebook,pipeline,推理服务模块支持) | |基础能力|数据库存储| 支持外部mysql作为元数据库 支持外部postgres作为元数据库 | |基础能力|机器资源管理| web界面控制机器调度类型,所属资源组,是否启动rdma,是否启动vgpu,可用任务场景等 | |基础能力|存储盘管理| 支持web界面添加存储盘,支持项目组绑定,notebook pipeline 推理服务,直接在pod中挂载外部分布式存储。 支持nfs,cfs,oss,nas,cos,glusterfs,cephfs,s3/minio | |基础能力|国际化能力| mlops支持配置多语言配置,目前支持中英文 _...truncated for preview_