CloudCore并行处理调度软件
CloudCore并行处理调度软件(YHCS)允许用户在裸机上部署完整的集群,并有效地管理它们。它为整个集群提供了单一管理窗口,包括硬件、操作系统和用户。它能安装配置并管理HPC,OpenStack,Hadoop,Spark以及其他的软件环境.。通过YHCS用户可以快速地使集群正常运行,并使它们在整个生命周期中一直可靠地运行——所有这些都通过一个功能齐全维护完善的企业级集群管理器来轻松简洁地实现。
安装后在集群的整个生命周期, YHCS 能促进管理集群的硬件包括以太网/IB/OPA交换机,电源,IP网络,初级和次级头节点(支持自动或手动故障转移),计算和登录节点,机箱、机架、NVIDIA GPU、Intel Phi和文件服务器.YHCS也提供任务关键服务器比如DHCP,DNS,LDAP和MySQL.所有这些都通过你选。择的YHCS管理界面进行管理:一个基于web的图形用户界面(统一视图)或脚本命令行shell界面。
YHCS除了运行一个有效的HPC集群所需的功能和程序包外,还具有轻松部署机器学习/深度学习环境的能力。在10分钟内,就能为Tensorflow,Caffe,Torch,Theano,MLPYTHON,cuDNN,DIGITS等建立工具和程序包。
在相同的时间内, YHCS可以使用Kubernetes或Mesos+Marathon 将集群整合成一个Docker容器环境以调度。YHCS还支持使用Singularity容器以提供更好的安全性和MPI通信。
通过集成工作负载管理器和作业调度程序,YHCS可以根据需求动态调整集群的工作能力。如果工作负载需求降低,可以关闭物理节点以节省电力。当需求恢复时,这些节点可以自动启动并快速提供以处理提交的作业。
YHCS还可以将这种工作负载需求自动化与 Mesos 框架监视相结合,以促进在同一集群上运行不同的工作负载 (HPC/BD/DL/ container) ,并根据需求动态重新分配资源。
YHCS系统遵循可扩展性和灵活性的体系结构。通过两个高可用性配置的头节点,可以管理由多个网络连接的数千个计算节点。包含了预先配置好的登录节点、存储节点和其他类型的集群服务节点的配置文件,并可自定义。对于较大的集群,可以将供应节点卸载至指定的供应节点。一旦这些供应节点上线,它们就可以在在线时有效地提供计算节点。一旦建立好整个集群后,这些配置节点就可以快速地切换成计算节点。这允许动态配置可扩展性,而不必将硬件资源分配给非计算任务。
YHCS是一种先进的完全集成和统一的集群管理解决方案。提供了易于使用且功能丰富的综合集群管理,同时对系统性能的影响最小。它有一个轻量级保护进程、一个用于所有监控和配置数据的中心数据 库,以及一个用于所有集群管理功能的 CLI 和 GUI。 YHCS非常易用、可拓展、安全可靠。用户可以监控和管理集群的所有方面,无论是在本地还是在云端,几乎不需要学习。
YHCS与其他集群管理产品形成鲜明对比,几乎所有的集群管理产品都采用“工具箱”方法。这些工具包将 Linux 与许多用于提供、监视、报警等功能的第三方工具相结合。这种方法具有严重的局限性:这些单独的工具不是设计用于协同工作的且通常不是为 HPC 设计的,也不是为拓展而设计的。此外,每个工具都有自己的接口(主要是基于命令行的),并且每个都有自己的保护进程和数据库。技术员需要无数小时进行脚本编写和测试来让工具为特定的集群工作,并且大部分工具都没有说明文档。
易用性
YHCS易于使用,有两个界面选项:基于 Web 的直观集群管理图形用户界面(统一 View)和强大的集群管理 Shell(CMSH)。统一视图提供了一个单系统视图,通过“单窗格”管理集群的所有硬件和软件。管理功能操作简单,所有任务都是通过一个直观的、可视化的界面来执行的。CMSH 通过命令行接口提供了与 统一视图几乎相同的功能。通过脚本 CMSH 可以在交互模式和批处理模式间切换使用。无论使用哪种方式,这些工具对集群管理都提供了前所未有的灵活性和控制权。
强大的映像管理和配置
YHCS具有复杂的软件映像管理和配置功能。几乎可以创建无限量的映像,并根据需要将这些映像分配给尽可能多的不同类别的节点。默认的或自定义的 Linux 内核可以分配给各个映像。可以不在重启或重新配置的情况下将映像的增量更改部署到在线的节点上。供应系统仅将更改传输至映像,把传输时间和对系统性能及可用性的影响降到最低。为了获得最大的灵活性和可伸缩性,可以将配置能力动态分配给任意数量的节点。YHCS还可以提供在 InfiniBand 和 ramdisk 或虚拟机上。
计算节点磁盘选项
YHCS同时支持有硬盘或无硬盘的计算节点。带硬盘的计算节点具有本地硬盘用于存储临时文件或进行交换的空间,但是也可以在那存储操作系统。对于无状态计算节点,不管有没有本地硬盘,YHCS都会在启动时动态地向计算节点提供映像。
综合监控
当超出预定的系统极限值时,集群管理会自动采取措施,从而节省时间并防止硬件损坏。可以在任何可用的项目标准上配置极限值。内置的配置向导将指导用户完成定义规则的步骤:选择标准项目、定义极限值和指定操作。例如,可以建立 GPU 的极限温度值,系统会自动关闭过热的 GPU 单元,并向用户的手机发送短信。可以预定义几个操作,但是任何内置的集群管理命令、Linux 命令或脚本都可以被预定义。
全面的 GPU 管理
YHCS从根本上减少了管理 GPU 所需的时间和精力,并将这些设备完全集成到整个系统的单个视图中。通过运用 Nvidia GPU 的功能,拥有强大的 GPU 管理和监控能力。因为 YHCS直接与 NVIDIA 的DCGM 集成,所以用户可以轻松取得 GPU 的最大控制权,并获得即时和基于时间的状态监测。根据GPU 的型号,YHCS可以监控 GPU 的主要状态,包括:
● GPU 温度、风扇转速、利用率;
● GPU 兼容性、计算、显示、 持久性模式;
● GPU 内存利用率、ECC 统计;
● 单元风扇转速、序列号、温度、功率使用、电压和电流、LED 状态、固件;
● 板载序列号、驱动版本、PCI 信息。
除了监控状态外,还可以通过 CUDA、OpenACC和 OpenCL来规划GPU的综合开发环境。在CUDA和 OpenCL的当前版本和旧版本之间轻松切换。
集群安全
YHCS提供了一个前所未有的安全级别,并可很容易地根据本地需求量身定制。安全特性包括:
● 从密匙签名的 Linux 和 Bright 计算库中能进行安全程序等的自动更新。
● 将内部和外部通信加密。
● 基于 X509V3 证书集群基础设备管理的公共密匙认证。
● 基于角色的访问控制和完整的审计跟踪。
● 防火墙、LDAP 和 SSH。
API 工具
YHCS根本上是以 API 为基础的,这意味着任何集群管理命令和任意集群管理数据(无论是监视数据还是配置数据)都可以通过 API 获得。 SOAP 和 JSON API 都允许与来自任何编程语言的集群管理接口进行交互。方便的本地接口可用于 Python 和 C++。
集成 CCFS
CCFS集群存储系统是一款针对海量数据存储应用而设计研发的大规模通用集群存储系统,它通过虚拟化技术、分布式存储技术以及集群技术将海量的通用X86架构服务器虚拟成一个容量大、性能高、扩展性强的共享硬盘,为前端大量应用提供高并发数据读写访问。
YHCS在不影响性能和功能的情况下,从集群的安装、管理和使用中消除了复杂性。允许用户同时管理多个集群,包括 HPC、Hadoop、Deep Learning 和 OpenStack 集群—在本地或云端。
