diff --git a/FEATURES.md b/FEATURES.md new file mode 100644 index 0000000..5f7a9d2 --- /dev/null +++ b/FEATURES.md @@ -0,0 +1,131 @@ +# d.run 产品能力说明书 + +本文档详细介绍了 d.run 平台的核心产品能力,旨在为用户提供全面、高效、安全的一站式 AI 开发与服务体验。 + +--- + +## 一、算力服务 (Compute Services) + +提供稳定、弹性、高效的底层计算资源支持,是 AI 开发的坚实基础。 + +### 1.1 弹性 GPU 算力供给 + +- **秒级弹性**:支持 GPU 资源的秒级快速创建、释放,灵活应对业务负载的波峰波谷。 +- **异构算力**:全面兼容并支持多种类型的 GPU/vGPU,满足不同场景下的算力需求。 +- **资源池化**:通过先进的池化技术,提升资源利用率,降低成本。 + +### 1.2 容器化实例交付 + +- **云原生体验**:所有计算实例均以容器化方式交付,提供轻量、敏捷、一致的开发与运行环境。 +- **JupyterLab as a Service**:内置优化的 JupyterLab 环境,实现开箱即用的交互式开发体验。 + +### 1.3 数据服务一体化 + +- **共享数据卷**:为每个用户提供默认 20GB 的共享数据存储空间,并支持按需扩容(按 GB 定价)。 +- **自动挂载**:数据卷自动挂载到所有容器实例,方便数据的共享与持久化。 + +### 1.4 镜像空间服务 + +- **丰富基础镜像**:提供适配各类 GPU/vGPU 的丰富基础镜像,预装常用 AI 框架和库。 +- **用户自定义镜像**:支持用户上传、管理和保存自定义镜像,实现开发环境的快速复刻与迁移。 + +--- + +## 二、算力调度 (Compute Scheduling) + +构建在 DaoCloud Kubernetes 之上的智能调度系统,实现对异构资源的统一、高效管理与优化。 + +### 2.1 资源池统一管理层 + +- **集群生命周期管理**:提供从创建、扩容到销毁的全生命周期自动化管理能力。 +- **异构节点管理**:无缝纳管不同架构、不同类型的计算节点。 +- **统一 GPU 管理**: + - **GPU 拓扑感知**:智能调度任务,减少跨 NUMA/Socket 的数据传输延迟。 + - **vGPU/MIG 切分**:支持 GPU 的精细化切分与调度,实现多任务隔离与资源最大化利用。 +- **网络及安全管理**:提供统一的网络策略和安全组管理,保障多租户环境下的网络隔离与安全。 + +### 2.2 核心调度引擎 + +- **基于 DaoCloud Kubernetes**:以云原生方式对所有计算、存储、网络资源进行统一编排与调度。 + +### 2.3 底层能力增强与协同 + +- **计算池化及加速**: + - **GPU 驱动层 (MACA / GPU Operator)**:自动化管理 GPU 驱动和设备插件,简化运维。 +- **算力通信及优化**: + - **互联管理 (MCCL / Spiderpool)**:优化多机多卡通信(NCCL),并协同 CNI 提升网络性能。 +- **存储管理协同**: + - **存储管理 (Lustre / Lustre CSI)**:集成高性能并行文件系统(如 Lustre),通过 CSI 插件为应用提供高性能存储。 + +--- + +## 三、大模型服务平台 (Large Model Service Platform) + +提供从模型部署、应用构建到服务分发的全链路 MLaaS 解决方案。 + +### 3.1 一站式 MaaS + +- **全生命周期管理**:提供从模型训练、部署到推理的全生命周期管理,简化大模型应用开发流程。 +- **企业模型私有化**:支持企业将自有模型部署到私有环境中,确保数据安全和模型资产的独立性。 + +### 3.2 模型仓库 + +- **模型版本管理**:支持模型的多版本管理。 +- **云端模型下载**:支持从云端一键下载开源大模型。 +- **一键部署服务**:简化上线流程,将模型一键部署为服务。 +- **统一推理服务**:支持传统机器学习与大模型。 +- **推理服务弹性伸缩**:按需对推理服务进行扩缩容。 +- **安全认证**:内置安全认证,保障服务调用安全。 + +### 3.3 统一网关与分发 + +- **代理转发**:提供统一的 API 入口,实现大模型服务的代理转发,简化调用。 +- **Token 计费**:支持基于 Token 的计量和计费,实现精细化成本控制。 +- **内部分发**:支持大模型服务在企业内部的分发和共享。 + +### 3.4 企业级智能应用构建 + +- **RAG 引擎**:提供企业级检索增强生成(RAG)引擎,提升大模型在特定领域的应用效果。 +- **应用生命周期管理**:支持智能应用的开发、测试、部署和迭代全生命周期管理。 +- **多模态语料构建**:支持构建和管理多模态语料库,为大模型训练提供丰富数据支持。 +- **精细化检索增强**:通过优化检索策略,提升 RAG 引擎的准确性和效率。 + +### 3.5 数据安全 + +- **全流程保障**:确保大模型训练和推理过程中的数据隐私和安全。 + +--- + +## 四、运维、运营与生态 (Operations, Management & Ecosystem) + +打造一体化的管理与服务体系,确保平台的稳定、高效、合规运行,并构建开放共赢的生态。 + +### 4.1 一体化运维运营控制台 + +- **界面化管理**:提供良好、易用的图形化用户界面(GUI),降低管理复杂度。 +- **算力集群管理**:集中管理和监控所有计算集群的健康状态与资源使用情况。 +- **服务监控**:对平台所有服务和应用进行实时监控、告警和日志分析。 +- **全局业务洞察**:提供多维度的运营数据分析,辅助决策。 + +### 4.2 精细化财务管理 + +- **多维度账单**:提供清晰、详细的费用账单,支持按用户、项目等多维度查询。 +- **第三方即用即付集成**:支持与第三方支付平台集成,实现灵活的按需付费模式。 + +### 4.3 合规与安全 + +- **安全合规**:平台设计遵循业界安全最佳实践和相关法律法规,确保数据和业务的合规性。 + +### 4.4 开放生态与集成 + +- **开放 API**:提供丰富的 API 接口,方便与企业现有系统(如 OA, CRM)进行集成。 +- **支持第三方生态**:积极拥抱并支持第三方工具和服务的集成。 + +### 4.5 企业级服务支持 + +- **专家支持**:提供专业的技术支持团队,快速响应和解决用户问题。 + +### 4.6 开发者友好 + +- **完善的文档**:提供详尽的开发文档、SDK 和示例代码。 +- **活跃的社区**:构建开发者社区,促进知识分享与交流。