Skip to content

docs(FEATURES): add detailed product capability docs #355

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Draft
wants to merge 1 commit into
base: main
Choose a base branch
from
Draft
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
131 changes: 131 additions & 0 deletions FEATURES.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,131 @@
# d.run 产品能力说明书

本文档详细介绍了 d.run 平台的核心产品能力,旨在为用户提供全面、高效、安全的一站式 AI 开发与服务体验。

---

## 一、算力服务 (Compute Services)

提供稳定、弹性、高效的底层计算资源支持,是 AI 开发的坚实基础。

### 1.1 弹性 GPU 算力供给

- **秒级弹性**:支持 GPU 资源的秒级快速创建、释放,灵活应对业务负载的波峰波谷。
- **异构算力**:全面兼容并支持多种类型的 GPU/vGPU,满足不同场景下的算力需求。
- **资源池化**:通过先进的池化技术,提升资源利用率,降低成本。

### 1.2 容器化实例交付

- **云原生体验**:所有计算实例均以容器化方式交付,提供轻量、敏捷、一致的开发与运行环境。
- **JupyterLab as a Service**:内置优化的 JupyterLab 环境,实现开箱即用的交互式开发体验。

### 1.3 数据服务一体化

- **共享数据卷**:为每个用户提供默认 20GB 的共享数据存储空间,并支持按需扩容(按 GB 定价)。
- **自动挂载**:数据卷自动挂载到所有容器实例,方便数据的共享与持久化。

### 1.4 镜像空间服务

- **丰富基础镜像**:提供适配各类 GPU/vGPU 的丰富基础镜像,预装常用 AI 框架和库。
- **用户自定义镜像**:支持用户上传、管理和保存自定义镜像,实现开发环境的快速复刻与迁移。

---

## 二、算力调度 (Compute Scheduling)

构建在 DaoCloud Kubernetes 之上的智能调度系统,实现对异构资源的统一、高效管理与优化。

### 2.1 资源池统一管理层

- **集群生命周期管理**:提供从创建、扩容到销毁的全生命周期自动化管理能力。
- **异构节点管理**:无缝纳管不同架构、不同类型的计算节点。
- **统一 GPU 管理**:
- **GPU 拓扑感知**:智能调度任务,减少跨 NUMA/Socket 的数据传输延迟。
- **vGPU/MIG 切分**:支持 GPU 的精细化切分与调度,实现多任务隔离与资源最大化利用。
- **网络及安全管理**:提供统一的网络策略和安全组管理,保障多租户环境下的网络隔离与安全。

### 2.2 核心调度引擎

- **基于 DaoCloud Kubernetes**:以云原生方式对所有计算、存储、网络资源进行统一编排与调度。

### 2.3 底层能力增强与协同

- **计算池化及加速**:
- **GPU 驱动层 (MACA / GPU Operator)**:自动化管理 GPU 驱动和设备插件,简化运维。
- **算力通信及优化**:
- **互联管理 (MCCL / Spiderpool)**:优化多机多卡通信(NCCL),并协同 CNI 提升网络性能。
- **存储管理协同**:
- **存储管理 (Lustre / Lustre CSI)**:集成高性能并行文件系统(如 Lustre),通过 CSI 插件为应用提供高性能存储。

---

## 三、大模型服务平台 (Large Model Service Platform)

提供从模型部署、应用构建到服务分发的全链路 MLaaS 解决方案。

### 3.1 一站式 MaaS

- **全生命周期管理**:提供从模型训练、部署到推理的全生命周期管理,简化大模型应用开发流程。
- **企业模型私有化**:支持企业将自有模型部署到私有环境中,确保数据安全和模型资产的独立性。

### 3.2 模型仓库

- **模型版本管理**:支持模型的多版本管理。
- **云端模型下载**:支持从云端一键下载开源大模型。
- **一键部署服务**:简化上线流程,将模型一键部署为服务。
- **统一推理服务**:支持传统机器学习与大模型。
- **推理服务弹性伸缩**:按需对推理服务进行扩缩容。
- **安全认证**:内置安全认证,保障服务调用安全。

### 3.3 统一网关与分发

- **代理转发**:提供统一的 API 入口,实现大模型服务的代理转发,简化调用。
- **Token 计费**:支持基于 Token 的计量和计费,实现精细化成本控制。
- **内部分发**:支持大模型服务在企业内部的分发和共享。

### 3.4 企业级智能应用构建

- **RAG 引擎**:提供企业级检索增强生成(RAG)引擎,提升大模型在特定领域的应用效果。
- **应用生命周期管理**:支持智能应用的开发、测试、部署和迭代全生命周期管理。
- **多模态语料构建**:支持构建和管理多模态语料库,为大模型训练提供丰富数据支持。
- **精细化检索增强**:通过优化检索策略,提升 RAG 引擎的准确性和效率。

### 3.5 数据安全

- **全流程保障**:确保大模型训练和推理过程中的数据隐私和安全。

---

## 四、运维、运营与生态 (Operations, Management & Ecosystem)

打造一体化的管理与服务体系,确保平台的稳定、高效、合规运行,并构建开放共赢的生态。

### 4.1 一体化运维运营控制台

- **界面化管理**:提供良好、易用的图形化用户界面(GUI),降低管理复杂度。
- **算力集群管理**:集中管理和监控所有计算集群的健康状态与资源使用情况。
- **服务监控**:对平台所有服务和应用进行实时监控、告警和日志分析。
- **全局业务洞察**:提供多维度的运营数据分析,辅助决策。

### 4.2 精细化财务管理

- **多维度账单**:提供清晰、详细的费用账单,支持按用户、项目等多维度查询。
- **第三方即用即付集成**:支持与第三方支付平台集成,实现灵活的按需付费模式。

### 4.3 合规与安全

- **安全合规**:平台设计遵循业界安全最佳实践和相关法律法规,确保数据和业务的合规性。

### 4.4 开放生态与集成

- **开放 API**:提供丰富的 API 接口,方便与企业现有系统(如 OA, CRM)进行集成。
- **支持第三方生态**:积极拥抱并支持第三方工具和服务的集成。

### 4.5 企业级服务支持

- **专家支持**:提供专业的技术支持团队,快速响应和解决用户问题。

### 4.6 开发者友好

- **完善的文档**:提供详尽的开发文档、SDK 和示例代码。
- **活跃的社区**:构建开发者社区,促进知识分享与交流。
Loading