本方案中推荐的XRFlora是一整套高性能计算应用解决方案。整套系统软件相互配合应用已有10年的应用历史,在实际测算运行中不断优化修改,具有自主的知识产品,同时该产品可以自动地对整个高性能集群进行调度、管理监控和统计性能。通过定义的策略、预测调度、资源自动优化以及灵活的架构,方案中的作业调度软件具备如下优势:
通过策略组合保证服务级别和公平调度以满足用户的需求,同时可以兼顾到作业的整体通量;通过大量采用事件级调度触发器以实现整机的自动化管理,从而确保整机利用率高达90%~99%;
提供Web界面方式来满足用户灵活高效地使用作业调度系统;
支持与第三方中间件的集成,从而实现系统的统一管理和系统历史记录统计;
降低系统维护成本。
在实际工作中,方案中的作业调度软件充当整个高性能集群系统的“大脑”,从而制定出最优化的进程运行决策。
XRFlora高性能计算应用软件快速构建高性能计算存储集群,提供用户高效健壮的计算服务,高性能稳定的存储服务,满足各种科学、商业等领域的计算需求。XFlora包括高效率资源作业管理(XRTorque),高性能分布式文件系统(XRLustre)和云管理平台的智能管理工具(XRForman & XRNagios)三个部分。通过云管理平台,管理员可以方便、快速、灵活地安装配置各种规模和特点的高性能计算集群,并具有全天候故障实时监控,错误自动恢复等自动化管理特点。
- 大规模:经过严格科学测试,高性能计算应用解决方案适用于小到一百,大至上万个计算作业规模的计算集群;提供用户从TB到PB级别的高性能存储;可为5000用户提供高性能计算服务。
- 易管理:智能的云管理平台为系统管理员提供了灵活便捷的系统安装与软件升级手段,将日常运维工作减到最小。单台计算机的安装时间可以几分钟内完成,千台计算结点集群的软件升级半小时内自动完成。
- 实时监视:监控工具对高性能计算集群进行多维度,细粒度全方位监控。实时发现运行中故障,智能排除错误,保障集群稳定同效运行。
可订制化:根据各种计算的实际需求,方案提供用户可订制化服务,即按照用户需求实现计算环境,存储规模的弹性扩展。对于不同计算集群的特有功能,可提供订制化的精准监控。
高效率的资源与作业管理
高效率资源与作业管理系统XRtorque负责计算资源的统一分配和作业调度,是用户使用高性能计算资源的统一接口。该系统能够有效管理和分配高性能计算硬件和软件资源,充分利用各种硬件类型计算资源,支持多种作业类型调度功能。不仅调度单核作业,还为GPU作业,MPI计算以及OPENMP计算提供稳定作业支持支持服务。
- 灵活多样的作业队列管理模式。支持多个队列的个性化配置,满足不同计算需求。
- 动态实时的队列配置调整。根据用户作业,队列情况,资源状态实时动态调整用户优先级、作业运行数,提高计算资源使用效率。
- 支持多集群调度和管理。支持多个集群统一管理,减少管理员运维压力。
- 友好易用的用户接口。提供脚本、命令行、Web界面等多种友好便捷接口,帮助管理员、用户进行完成队列,资源配置管理,作业提交、查询、删除等操作。
- 强大的资源作业管理,满足各种计算任务需求。提供方便的工具帮助管理员进行用户、队列、节点等属性和权限设置。
- 丰富实用的作业调度策略。支持抢占、回填、预约等等多种高级调度算法。
- 详实准确的作业运行报表。提供丰富的的作业运行统计分析报表,包括多时间段、多应用、多用户的资源使用,作业运行结果报表,为管理者提供决策依据。
- 与监控系统无缝结合。动态实时排除故障点,减少硬件等故障带来的作业失败,保障计算集群的稳定运行。
- 稳定可靠的计算服务。底层Master/Slave运行机制保障了高性能集群的稳定运行。
