托管Hadoop是一种基于Hadoop、Spark等计算框架的集群托管服务,方便用户快速构建数据分析集群、处理海量数据;可以提供端到端的大数据解决方案。
离线数据处理是最常见的Hadoop应用场景,您可将原始数据上传到集群HDFS文件系统中,通过控制台或者API来执行批量的离线处理作业。
托管Hadoop提供了Hive和SparkSQL等类SQL查询方案,用户可使用简单直观的查询方法对海量的数据进行分析或者使用主流的BI工具生成报表。
流式数据处理逐渐成为大数据的热点,例如网站流量统计或游戏在线玩家数据,需要在不同粒度上对不同数据进行统计,既有实时性的需求,又需要涉及到聚合、去重、连接等较为复杂的统计需求,托管Hadoop提供了分布式消息队列Kafka,流式数据处理框架Storm以及Spark Streaming,帮助您轻松应对实时的数据处理需求。
互联网应用的典型特征是数据量大,高并发,业务增长快,托管Hadoop集成的Hbase是一种非常流行的分布式可扩展列存数据库,可以充分满足各种在线应用需求,同时又可以和其他大数据生态组件结合,形成端到端的方案。
托管Hadoop集群具备良好的横向扩展能力。
除了基础的服务可用性和数据可靠性保障外,托管Hadoop提供了主节点和元数据高可用功能来进一步保证集群持久对外提供服务
托管Hadoop可以通过内部高速网络直接访问标准对象存储服务,在进行数据处理工作时,您可以首先把原始数据汇总到对象存储。
可以根据业务需求弹性的增加或者减少节点,适应多变的业务场景,节省集群使用成本。
托管Hadoop除集成了基础的Hadoop组件外,同时集成了Spark, Hbase,Storm, Kafka, Elasticsearch等生态组件,以及Ambari,Hue等集群监控管理工具。