智能计算管理一体化平台(X2023102)  询价采购公告

发布者:高海燕发布时间:2023-11-30浏览次数:168

一、询价采购编号:X2023102

二、询价人:苏州大学乐动体育LDSPORTS(中国)官方网站

地址:江苏省苏州市东环路50号凌云楼904

邮编:215021       传真:0512-67165076

联系人:罗老师      电话:0512-6750419867504359

电子邮箱:lrb998@suda.edu.cn

技术联系人:杨老师    电话13812755766

三、设备名称、数量及主要技术指标等要求

智能计算管理一体化平台  1

1.总体要求:报价产品须为商业版软件,提供符合本次GPU卡软件授权,提供≥5000个物理核心授权;基于B/S架构实现,支持主流浏览器(IEFirefoxChrome),软件界面必须实现完全中文化;与现有软件平台兼容(提供原厂证明材料并加盖公章)

2.开发环境服务:提供一站式开发环境服务,提供TensorFlowPyTorch等开发框架,提供JupyterLabVS CodeRStudio等开发工具,支持服务实例的暂停和重启,支持开发环境自定义,提供开发工具界面截图或软件使用手册。

3.数据集管理:可以进行用户数据集更新,删除、克隆等;集成Winscp客户端软件,提供软件下载链接,调用客户端软件时自动设置服务端地址、服务端目标目录和登录用户;供基于Web的文件管理功能,支持文件和文件夹的创建、删除、重命名、在线编辑、权限设置,支持文件的节点间同步,支持文件批量上传和打包下载。

4.模型管理:支持模型创建、模型克隆、模型删除和展示模型状态等,通过模型管理可以更方便的对不同模型进行处理、更直观的了解当前模型的运行情况以支持训练管理。

5.数据集预处理:提供基于Caffe的数据集预处理,用户可自行选择lmdbleveldb等不同后端格式。

6.模型训练:支持基于docker容器的模型训练功能。对CaffeTensorFlowPyTorch等框架提供在线模型编辑功能,用户可自定义训练使用的框架版本,容器数量,GPU数量,内存,GPU型号等资源,并且可以实时查看训练曲线输出,监控各容器内资源使用状况;对TensorFlowPytorch等框架下的训练任务提供Horovod训练模式,支持通过Horovod进行大规模Ring All Reduce训练,提供TensorFlowPytorch框架通过Horovod提交任务的界面截图或软件使用手册

7.在线推理:支持基于docker容器的在线推理功能。支持CaffeTensorFlowPyTorch等框架,用户可自定义推理使用的框架版本,模型路径,模型输出层及前后处理脚本。集成图像分类,目标检测、语义分割等推理应用类型,可进行数据批量推理,显示原始图片、推理结果及必要标注信息,提供docker容器下支持CaffeTensorFlowPyTorch框架并在该框架下提交任务的界面截图或软件使用手册。

8.超参调优:支持基于容器的分布式超参数自动调优功能。支持TPE自动搜索算法,多参数同时调优,分布式调优等功能。用户可自定义调参任务的调优参数类型、调参范围,使用的框架版本、容器数量、GPU数量、内存、GPU型号等内容,并可以实时查看调参曲线输出,监控各容器内资源使用状况,提供TPE自动搜索算法、多参数调优、分布式调优、用户可自定义调参、实时查看调参曲线界面截图或软件使用手册。

9.      TensorBoard:支持TensorFlowPyTorch框架下的可视化的TensorBoard应用。

10.   镜像管理:支持公有镜像管理,用户可以订阅平台公有的容器镜像资源进行使用;管理员可以向公有镜像库上传镜像资源;支持私有镜像管理,将私有镜像分享至公有镜像库,供其他用户订阅和使用。支持本地镜像上传和自定义;支持用户自定义镜像,包括在线固化,本地上传,从DockerHub拉取,基于Dockerfile在线制作等模式。提供镜像制作进度和日志查询功能界面截图或软件使用手册;支持镜像推送,支持用户将自定义镜像或订阅镜像推送至训练、调优、推理等图形化流程进行使用。用户推送的镜像仅对自身生效,不影响平台其他用户。

11.   容器端口:支持用户自定义容器的服务端口,支持httpsocket等端口模式。

12.   IDE工具:支持以远程后端形式对接Pycharm等本地IDE工具;

13.   容器任务:支持用户申请自定义容器任务,用户可以自定义容器任务使用的镜像版本、容器实例数量、GPU数量、GPU类型、CPU数量、内存大小等资源,并可通过页面嵌入的SSHJupyter方式对容器进行访问。;支持容器跨节点进行调度计算;Caffe/TensorFlow/PyTorch分布式计算方式;支持NVIDIA多实例 GPUMIG)技术,可定义实例数量,调度GPU实例,并在容器中进行使用和监控。

14.   数据分享:用户可在分享中心分享和订阅数据集、模型、代码和文档等内容。用户可获得订阅内容的访问权限,其中数据集和模型可在编辑训练任务时直接访问,提供分享中心和订阅数据界面截图或软件使用手册。

15.   主页自定义:支持自定义用户主页,可按需将常用或重要应用添加至主页快捷访问。

16.   开发接口:支持Restful二次开发接口,用户可基于现有平台功能进行二次开发。

17.   应用容器化:支持将Caffe/Tensorflow/PyTorch等应用软件预设配置到容器中;并且可以在容器中使用IB网络进行计算。

18.   作业管理:支持按节点进行分区,不同的分区进行不同的访问控制和调度策略。提供全方位的作业提交、作业管理、调度策略定制,集群资源限制等功能;支持基于队列、用户、用户组等多个维度的优先级定义策略,根据作业的静态(如资源请求、所属用户等)和动态指标(如入队时间、公平共享份额等),通过不同的权重设置,灵活控制作业优先级;支持基于队列、用户、用户组等不同维度的资源限额(即可用处理器数、内存数、节点数、作业数、GPU数等),方便管理员控制资源分配;支持针对不同用户(或用户组、队列)设置资源使用的份额,保证公平合理的使用资源;允许作业独占计算节点,支持集群、队列、作业三级的的节点独占策略设置。;支持对高优先级作业进行资源预留,有效解决在集群高负载情况下的大作业“饥饿”问题;支持灵活可配置的节点可用性判定策略。检查作业的可用节点时,需要考虑多种资源请求(如处理器、内存、磁盘)进行判定,允许针对不同的资源使用不同的判定算法(如按照实际使用量、按照调度分配量,或者综合两者进行判定);支持将作业均衡的分配到所有计算节点上,避免任务堆积在个别节点,因争抢CPU、内存等资源导致计算变慢;支持随机选择作业的计算节点,解决特定场景和固定调度算法下某些计算节点被频繁使用的问题。

19.   异构调度:支持对于CPU+GPGPU(包括GPUMIC)异构集群的调度。支持CPU作业和GPU作业共用GPGPU节点,支持为GPU/MIC按比例预留一定的CPU,保证GPU/MIC作业调度的成功。

20.   兼容性:支持NVIDIA\AMD\HYGON\CAMBRICON等多种异构资源的统一管理与使用。

21.   资产管理功能:支持资产(如服务器、机柜、刀箱、交换机等)的Excel批量导入导出功能,提供模板和示例;支持服务器等设备型号的管理,允许用户添加新机型,允许修改已有机型(如图片、高度等);支持资产分组管理,允许添加、删除和修改分组;可以根据集群不同节点的预定义角色,进行智能开关机以及批量开关机。

22.   监控功能:提供基于多维度运维视图,包括指挥视图、基础运维视图、告警视图、关键服务视图等;支持大规模监控管理,系统采集节点规模至少支持15000多节点,采集指标数量1000种,采集秒级反馈,查询秒级响应;支持监控GPU资源总量/使用量、核心平均利用率、显存平均利用率、温度、显存频率、核心频率、型号、SN号、负载进程、功耗、风扇转速、PCIE宽度、PCIE genPCIE接收与发送速率、GPU驱动版本等指标;支持热图方式集中展现集群中所有服务器的关键指标,如CPU利用率、内存利用率、网络可用性、电源状态、温度等,支持指标快速切换。

23.   集群配置功能:提供灵活强大的集群配置能力,可以一键完成对整个集群的检测和配置,如检测网络可用性、配置ssh/rsh无密码登陆、停止系统冗余服务、配置NFS、同步集群时间、同步集群用户等。管理员可以灵活组合不同的配置项。

24.   报告分析:提供内容丰富的运维服务报告,包括系统资源利用情况、作业队列用户使用分析等;支持PDFExcelHtml等不同的导出格式;实现作业统计、队列作业统计、作业规模统计、异常作业统计、集群作业趋势分析等报表,从不同维度满足用户统计分析需求,支持报表及原始数据的导出,可做二次分析;实时采集和图形显示所运行的进程名称,同时采集和显示进程所对应的用户名称。

25.   作业调度:支持大批量作业的实时调度,支持最大瞬时大规模作业(超过3000个)的同时提交;支持大批量作业的动态优先级调动并发瞬时吞吐率峰值(超过2000个),提供不少于3000个作业提交的界面截图或软件使用手册;支持基于Web的作业管理,支持对运行作业的输出进行实时监控,支持输出文件的下载,对VNC图形作业提供基于浏览器的远程访问功能;提供调度系统状态分析视图Dashboard,直观展示集群、队列、用户等不同视角的资源使用信息和作业负载信息,为管理员的调整优化提供决策依据,提供Dashboard的资源实用信息和作业负载界面截图或软件使用手册;支持计算数据或计算结果极速上传下载,支持快传和断点续传,可一次性高速传输数百个文件以及TB级文件,支持大文件远程传输,提供界面截图或软件使用手册。

26.   作业回填:支持作业回填,有效平衡大作业和小作业的调度,提高集群作业吞吐量。

27.   作业抢占:支持作业多级抢占,支持对被抢占作业进行“挂起”、“重新入队”等处理操作。

28.   计费管理:支持计费账号管理,允许多个用户使用一个计费账号;支持通过“先充值后扣费”方式使用集群资源,只有账号余额充足时才能运行作业,提供账号计算关联界面截图或软件使用手册;支持导出作业粒度的计费详表,供用户核对;支持GPU、存储计费,提供CPUGPU、存储计费预设及导出计费详表的界面截图或软件使用手册。

29.   数据安全服务:为保障集群数据安全为本项目提供国家信息中心针对本项目的数据恢复服务,提供国家信息中心出具的服务承诺函。

30.质保期不少于1年。

四、询价采购文件价格:人民币300元(相关缴纳事宜详见附件),售后不退。

五、报价截止时间:20231271400

六、有兴趣并符合资格条件的供应商,请务必认真阅读《苏州大学网上询价采购仪器设备报价须知》,在接受其所有条款要求的基础上按要求进行报价。

七、报价文件递交:顺丰快递邮寄(请充分考虑快递送达时间,避免错过时间)。

 

 

 

   

     https://sites.suda.edu.cn/_ueditor/themes/default/images/icon_pdf.gif附件:标书费缴纳说.pdf

 

 

——————————————

询价采购编号:X2023102

成交供应商:苏州观微电子科技有限公司,成交价为19.45万元人民币。