运维中心(调度系统)为整个大数据云服务的其它有需求的组件提供统一的作业调度和执行;同时也可以作为一个独立的服务提供给需要资源和作业调度服务的系统使用。
运维中心(调度系统)支持多租户、支持细粒度的执行资源控制、支持多种依赖配置(流依赖、作业依赖、事件依赖,同时还可以在依赖上进行偏移)。通过基于事件消息驱动的方式,保证作业执行更加高效。
支持各种大数据类、非大数据类任务的执行,并采用统一的方式进行定义、调度和监控运维,并可快速扩展支持的类型,大大降低学习和使用门槛
除支持一般的作业流内串并行控制外,还支持跨流依赖,事件触发等高级控制策略,并支持立即执行、周期执行等,且可对执行进行灵活干预
能够手动运行任意作业或作业流的任意分支;可进行作业流断点调试;可启用、禁用、中止、重启作业
支持多租户,不同租户作业,使用不同的作业队列分别派发;作业执行节点容器化,提高作业执行时的隔离级别及安全性
分布式调度系统,支持横向扩展,作业派发、执行能力理论上无上限,可根据实际情况水平伸缩
提供作业执行流程图的实时监控,多维度统计监控,及时发送事件监控预警。让管理、运维人员及时、清楚地了解到批量系统运行状况
使用MQ在系统间进行消息传递;相同服务的集群节点始终保证有设定数量实例在运行;集群内部有良好的选举等策略控制,在出现大量节点异常的情况下也能保证有最小化的、可运行的主从结构