数据挖掘产品是一个通用的数据分析挖掘平台,支持主流的机器学习算法,提供单机与集群的机器学习框架支持。结合容器提供的开箱即用、Spark集群提供的强大性能等特性,为用户提供模型开发、模型训练、模型部署等一站式数据挖掘服务。
支持主流数据挖掘算法,涵盖分类、聚类、回归等;支持多种数据挖掘框架,如sklearn、lightGBM、XGBoost、SparkMLlib等。
提供可视化拖拽的方式构建模型训练工作流及基于notebook编码的方式构建模型;提供了网格搜索(grid-search)和交叉验证(cross-validation)等超参优化策略进行参数调优
覆盖数据挖掘全流程,包含数据读取、特征工程、超参数调优、模型训练、模型部署以及模型重训练等数据挖掘全生命周期。
提供了模型封装功能,满足平台标准的模型可以一键发布为支持高吞吐、低延时的实时在线推理服务(基于微服务架构),也可以发布为支持TB级别数据的离线推理服务。