数据采集解决方案

全方位数据采集,汇聚价值数据

 

方案简介

专业的大数据采集平台,支持文件、数据库、网页、日志流、物联网设备等多种渠道数据采集;支持文本、图片、视频、音频等多种数据类型的实时采集、批量采集方式;支持插件式、可配置化的数据采集,对采集过程实现可视化监控。 支持数据采集的同时,完成数据检核、转换、加载、整合等任务,实现数据的高效集成。
 

方案优势

  • 多源实时数据采集

    支持基于http、https的报文数据采集,基于kafka的流式数据采集,基于数据库实时增量数据采集,基于物联网的数据采集,基于flume、logstash等开源插件的数据采集。

  • 采集Agent灵活配置

    支持Agent标准配置、高级配置等多种灵活配置,包括传输批次数据量、本地缓存方式、缓存大小、多种日志匹配模式等配置内容;支持单Agent灵活配置同时实施采集多个数据源。提供在数据采集端开发新算子的能力;支持采集端嵌入数据清洗过滤等规则的能力。

  • 采集过程可监控

    支持灵活配置监控维度、指标,通过多维度图表展示采集数据情况;支持配置采集告警;支持对采集Agent的CPU使用率,内存使用率、磁盘空间使用率进行控制。

  • 传输控制保障

    支持数据增量传输、断点续传、自动重试,保障数据传输不丢不重;支持传输过程中透明的加密和压缩传输机制;支持传输限速、智能链路选择。

  • 采集同时实现数据清洗

    支持灵活配置数据检核、过滤、加解密,在数据采集同时实现数据清洗,保障入库数据质量。

 

应用场景

场景一

互联网公开数据采集

企业从互联网采集公开数据,作为企业信息资源的补充。

业务挑战:

多渠道数据采集:支持文件、数据库、网页、日志流、物联网设备等多种渠道。
多数据类型采集:支持数据、文本、图片、视频、音频等多种结构化、非结构化数据类型。
多采集方式:支持实时采集、批量采集方式。
支持图形化、可配置的互联网公开数据采集。
对采集过程实现可视化监控,及时跟踪采集情况。