基本概念
1. 可用区
可用区是指在同一地域内,电力和网络互相独立的物理区域,同一可用区内实例之间的网络延时更小,用户访问速度更快。
平台提供了多个可用区供用户选择,在控制台的左上角可以切换可用区。
2. 网盘
平台为每个用户提供了一块持久化,无限大,租户隔离的存储区域,叫做网盘。用户可以把网盘看成是一个云端U盘,可以存放任何数据。网盘默认有一个叫做data的文件夹,会默认挂载到所有的工作空间中,即该文件夹中的内容,会在多个工作空间中共享。
用户可以直接在浏览器中对网盘的文件进行操作,例如创建文件夹,上传文件,删除文件等等。 对于超过10M的大文件,建议通过命令行的方式进行上传。
网盘底层使用了分布式存储技术,提供99.9999999%的数据可靠性。
3. 数据盘
平台提供持久化存储的空间,叫做数据盘。数据盘的IO性能要比网盘快,和系统盘基本一致。和系统盘不同的是,工作空间停止或者重启后,数据盘的数据不会丢失,而系统的数据会丢失。
工作空间可以携带数据盘,用户可单独新建数据盘,或在创建工作空间时新建数据盘,此外创建工作空间时也可挂载已有数据盘(需要注意的是,工作空间挂载已有数据盘时,仅有数据盘类型与资源类型对应的情况可被挂载),工作空间也可将数据盘进行卸载,以便其他工作空间挂载使用。
数据盘在被销毁前会持久化存储其中的数据,对应的平台也会持续计费。对应的,数据盘销毁后会停止计费,数据盘中的数据也会被删除。
数据盘提供多种规格,用户可按需使用。
4. 数据集和模型
为了方便数据流通,平台提供了数据集市场和模型市场。用户可以从数据集市场/模型市场上购买数据集/模型,也可以将自己网盘中的内容发布到数据集市场/模型市场,发布数据集/模型需要等待平台审批后才能生效。
当前数据集市场/模型市场上绝大部分的数据集/模型都可限时免费使用。
5. 工作空间
平台提供了多个AI开发环境镜像(预置不同的机器学算法依赖和框架),用户可以购买一台按使用量计费或者包年包月计费的GPU资源,加载镜像后启动一个工作空间。工作空间内置了Jupyter和VSCode两种开发工具,支持grafana监控,事件日志,SSH登录,支持快照。
平台提供了常见的开发环境,说明如下:
镜像名 | CUDA | CUDANN | 框架 | 开发工具 |
---|---|---|---|---|
pytorch | cuda11.6 | cudann8 | pytorch1.12.1 | Jupyter, VSCode |
pytorch | cuda11.7 | cudann8 | pytorch2.0 | Jupyter, VSCode |
tensorflow | cuda11.6 | cudann8 | tensorflow2.8.0 | Jupyter, VSCode |
other/base | cuda11.7 | cudann8 | - | Jupyter, VSCode |
工作空间支持使用用户自定义镜像,镜像需要先上传到平台的镜像仓库方可使用。
6. 推理服务
用户可以在平台创建推理服务,推理服务支持基于AKSK的认证机制,支持Auto Scaling弹性扩缩容实例,支持在线升级。
推理服务支持用户自定义镜像,并支持模型和镜像分离,从而实现灵活的动态更换模型。
7. 应用
平台提供多种应用,用户可以像使用PC上的应用程序或者手机上的App一样使用应用,而无需关心应用底层的实现细节和计算存储消耗。
说明:应用当前为内测阶段,后续可能会根据市场情况,调整应用及其计费模式。
Last updated