数据采集

提供将云外的数据接入云内的大数据服务

    产品信息

    数据采集简介

     数据采集服务,能够将云外的数据接入云内,支持多类型、多场景的全域数据采集。服务支持结构化、半结构化、非结构化的多数据格式数据采集;流式、批量,每种场景互相独立、可配置。服务搭配弹性的存储计算资源(DCU),无需用户额外考虑资源,开箱即用。 

    产品特性

    统一管理

    多种采集任务统一管理,支持新建、删除、修改、搜索采集任务;采集配置一键修改;采集 agent 实时监控;采集任务一键暂停与恢复;统一工具管理,通用上传工具可以支持多个批量采集任务

    可靠性保证

    ★ 流式采集自动重发机制★ 流式采集数据查重机制★ 支持数据格式校验★ 支持数据分布式存储★ 采集任务纳入统一采集管理监控,可对数据传输情况进行实时监控

    形式多样

    ★ 支持日志文件流式采集★ 支持Oracle、Mysql等关系型数据库流式采集★ 支持对任意数据格式文件的采集,包括结构化、半结构化、非结构化数据★ 提供数据采集接口,支持用户调用api进行流式采集

    界面易用

    ★ 提供向导式界面,无经验用户也可轻松配置数据源和数据目标★ 任务配置页面配置项提供默认值与属性说明,配置任务简单、快速

    应用场景

    日志采集场景

    业务类型

    各类生产系统

    上云建议

    使用数据采集实时采集各系统的日志信息,并推送至kafka中,使用流计算产品对数据进行实时分析,通过流计算的分析结果实现对各系统的业务数据、运行数据的监控和统计。

    相关产品推荐

    文件推送场景

    业务类型

    各类应用系统

    上云建议

    将客户应用系统的数据文件,推送到云上,进行离线分析、存储查询及机器学习。如对客户进行分类和信息查询识别出大型客户,加强服务,进一步提升客户满意度。

    产品功能

    流式数据采集

    流式数据采集提供数据实时接入大数据云平台的功能,为流计算提供稳定的数据来源。

    数据库流式采集

    数据库流式采集提供数据库表实时接入大数据云平台的功能。

    批量采集

    支持创建批量文件推送任务。

    支持大数据云主动拉取客户端文件。

    文件上传工具包通用,可用于不同的推送任务。

    支持通过页面直接上传文件。

    支持数据交换接口信息预览。

    • 采集任务参数配置包括基本信息配置、配置 agent、生成部署包等Agent 管理包括 agent 状态查看,停止、暂停、恢复、更新采集任务。API支持支持通过 API 进行数据采集多数据源支持支持文件、文件夹、kafka、自定义 source 等多种数据源