Python数据挖掘
Python数据挖掘
数据挖掘建模过程
定义挖掘目标
数据采样
数据探索
数据预处理
挖掘建模
模型评价
Python数据分析及库
搭建Python开发平台-Anaconda,pip
Numpy
Scipy
Matplotlib/seaborn
Pandas
StatsModels
Scikit-learn
Keras
Gensim
数据探索
数据质量分析:缺失值、异常值、一致性
数据特征分析:分布、对比、统计量、周期性、贡献度、相关性
Python主要数据探索函数:统计特征(sum总和,mean算术平均数,var方差,std标准差,corr相关系数矩阵,cov协方差矩阵,偏度(三阶矩)/峰度(四阶矩)describe基本的统计量,包括均值、标准差、最大值、最小值、分位数;
Python主要数据探索函数:统计作图(plot线性二维图、折线图,pie饼图,hist二维条形直方图,boxplot箱形图,plot(logx=True)/plot(logy=True)绘制x轴或y轴的对数图形,plot(yerr=error)误差条形图)
数据预处理
数据清洗:缺省值、异常值
数据集成:实体识别(同名异义、异名异义、单位不统一)、冗余属性识别
数据变换:简单函数变换、规范化、连续属性离散化、属性构造、小波变换
数据规约:属性规约、数值规约
Python主要数据预处理函数:interpolate插值,unique去重,isnull/notnull判断空/非空值,random生成服从特定分布的随机矩阵,PCA对指标变量矩阵进行主从成分分析
挖掘建模
分类与预测
实现过程
分类与预测算法
回归分析
决策树
人工神经网络
算法评价
聚类分析
常用聚类分析算法
K-Means聚类算法
算法评价
关联规则
常用关联规则算法
Apriori算法
时序模式
时间序列算法
时间序列的预处理
平稳时间序列分析
非平稳时间序列分析
离群点检测
离群点检测方法
基于模型的离群点检测方法
基于聚类的离群点检测方法
- 上一篇:没有了
- 下一篇:没有了