DATA MINING KIT

数据挖掘套件

PRODUCT INTRODUCTION / 产品简介


分析:实时统计、即时分析、清晰呈现。降低数据分析门槛、提高产品决策效率。

工具:稳定高效的推送工具,高性能开源。数据库使您更专注于业务,快速开发。

平台:基于云计算和SOA架构,让您轻松具备大数据处理与精准推荐能力。


FUNCTION MODULE / 功能模块


  • · 数据探索及预处理

      数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。

      模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。

  • · 分类与回归

      分类是数据挖掘中应用最多的方案。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

      回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

  • · 数据探索及预处理

      聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。聚类分析类算法主要有:

      K-均值算法  EM最大期望算法  DBScan密度算法  改进K-均值算法  多层次聚类

  • · 分类与回归

      时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。时序模式类算法主要有:

      指数平滑  多元回归  GM灰色理论  RBF神经网络  ANFIS神经网络  SVM支持向量机