入门客AI创业平台(我带你入门,你带我飞行)
博文笔记

Python数据挖掘

创建时间:2017-07-19 投稿人: 浏览次数:260

Python数据挖掘

  • 数据挖掘建模过程

  1. 定义挖掘目标

  2. 数据采样

  3. 数据探索

  4. 数据预处理

  5. 挖掘建模

  6. 模型评价

  • Python数据分析及库

  1. 搭建Python开发平台-Anaconda,pip

  2. Numpy

  3. Scipy

  4. Matplotlib/seaborn

  5. Pandas

  6. StatsModels

  7. Scikit-learn

  8. Keras

  9. Gensim

  • 数据探索

  1. 数据质量分析:缺失值、异常值、一致性

  2. 数据特征分析:分布、对比、统计量、周期性、贡献度、相关性

  3. Python主要数据探索函数:统计特征(sum总和,mean算术平均数,var方差,std标准差,corr相关系数矩阵,cov协方差矩阵,偏度(三阶矩)/峰度(四阶矩)describe基本的统计量,包括均值、标准差、最大值、最小值、分位数;

  4. Python主要数据探索函数:统计作图(plot线性二维图、折线图,pie饼图,hist二维条形直方图,boxplot箱形图,plot(logx=True)/plot(logy=True)绘制x轴或y轴的对数图形,plot(yerr=error)误差条形图)

  • 数据预处理

  1. 数据清洗:缺省值、异常值

  2. 数据集成:实体识别(同名异义、异名异义、单位不统一)、冗余属性识别

  3. 数据变换:简单函数变换、规范化、连续属性离散化、属性构造、小波变换

  4. 数据规约:属性规约、数值规约

  5. Python主要数据预处理函数:interpolate插值,unique去重,isnull/notnull判断空/非空值,random生成服从特定分布的随机矩阵,PCA对指标变量矩阵进行主从成分分析

  • 挖掘建模

  1. 分类与预测

    1. 实现过程

    2. 分类与预测算法

    3. 回归分析

    4. 决策树

    5. 人工神经网络

    6. 算法评价

  2. 聚类分析

    1. 常用聚类分析算法

    2. K-Means聚类算法

    3. 算法评价

  3. 关联规则

    1. 常用关联规则算法

    2. Apriori算法

  4. 时序模式

    1. 时间序列算法

    2. 时间序列的预处理

    3. 平稳时间序列分析

    4. 非平稳时间序列分析

  5. 离群点检测

    1. 离群点检测方法

    2. 基于模型的离群点检测方法

    3. 基于聚类的离群点检测方法

声明:该文观点仅代表作者本人,入门客AI创业平台信息发布平台仅提供信息存储空间服务,如有疑问请联系rumenke@qq.com。
  • 上一篇:没有了
  • 下一篇:没有了
未上传头像