机器学习路线 机器学习
python基础
- 列表、字典
- 函数
- 面向对象编程
参考学习 廖雪峰的Python教程 参考工具 1. Anconda 2. visual code + python
数据处理基础
学会使用Python来增删查改数据,主要使用到numpy和pandas,pandas使用的更多一些,学会以下操作:
- pandas数据和numpy数据的相互转换
- 插入一行数据和插入一列数据
- 选择符合要求的多行和多列数据,比如温度大于30的所有数据
机器学习基础
机器学习的基本操作可以参考学习:scikit-learn的官方手册
- 数据的获取 目前主要来自建筑数据库,包括电力线路的数据库以及环境参数的数据库,在掌握python基础和数据处理基础的前提下,需要学会调用函数获取数据。
- 数据预处理
- 数据离散值处理(outlier)
- 箱型图
- 随机森林
- 数据缺失值处理
- 直接去除
- 线性插值
- 样条插值
- 数据离散值处理(outlier)
- 构造数据,目的主要是为了适应不同的预测方法,神经网络和树对于输入数据要求不一样,所以下面的几种方法需要按需使用
- 数据编码,数值数据转换为离散分类数据 onehot编码
- 归一化,常用的有MinMaxScaler、StandardScaler
- 根据个人经验和预测结果选择或者去除部分输入特征
- 数据特征构造,例如原始数据只有今日气温,可以构造增加与昨日气温之差这一特征
- 模型搭建
- 现有模型,svm、随机森林、Xgboost、lightGBM等
- 使用python torch 搭建深度学习模型,如 LSTM等,可参考torch官方手册
- 模型调整
- 不断调整构造数据和模型搭建这两部分
- 模型结果可视化,方便对比分析
其他
当最终的目的是应用时,模型的实际预测效果可以结合算法流程的调整来使得取得更好的效果,具体方法需要思考。