如何才能成为一名合格的机器学习算法工程师呢?

这是一个探索了许久的问题,期间整了一些牛人的材料,希望可以有助于知识梳理。
身为跨行菜鸟,也迫切的感谢各位资深老鸟们可以给予一些建议。

以下是若干必要不充分条件:

数据处理的编程语言

  1. Python(必要)
  2. R(可选)
  3. SQL(必要)
  4. Shell(必要)

机器学习算法的基本理论和实践

  1. 有监督
    回归:单变量线性回归、多变量线性回归
    分类:k近邻、逻辑回归、贝叶斯、SVM、神经网络、决策树
    分类集成算法:随机森林、AdaBoost、GBDT、xgboost、lightGBM

  2. 无监督
    聚类:k均值、dbscan
    异常检测:基于高斯分布的异常检测
    推荐系统:UserCF、ItemCF、LabelCF、ContextCF、NetworkCF
    关联算法:Aprior、FP-growth
    文本分析算法:TF-IDF、LDA、pLDA
    降维:PCA、SVD、因子分析

  3. 半监督
    标签传播(基于网络算法)

  4. 模型评估
    方差(various)、偏差(bias)、过拟合、欠拟合、学习曲线、交叉验证、ROC与AUC、PR曲线、查全率(Recall)、查准率(Precision)、Sensitivity、Specificity、F-score等

  5. 其他
    梯度下降、正则化、

  6. 进阶
    强化学习、深度学习

特征工程

  1. 特征生成和变换
    缺失值、离群值、归一化、
    特征平滑或离散
    特征编码:one-hot编码

  2. 特征重要性评估
    回归模型、基于树的模型、通过随机或删除特征来评估

  3. 数据集切分
    训练集、交叉验证集、测试集
    基于时序数据的切分

  4. 具体业务理解
    用户特征、商家特征、商品特征、用户行为特征等

概率论与数理统计

推荐浙江大学徐小湛的‘概率论与数理统计’教学视频

数据结构与算法

相关学习资料

分布式计算框架

Hadoop:Hive SQL
Spark:各种API

学习资料推荐

吴恩达机器学习视频教程
台大林轩田的机器学习基石视频教程
小甲鱼的零基础入门学习Python视频教程
小象学院的Python实践代码
《机器学习实战》
《机器学习实践应用》
《推荐系统实践》
《利用Python进行数据分析》
《python机器学习及实践--kaggle竞赛之路》
《Python学习手册》(第4版)

最重要一点:参与实践!

阿里天池、Kaggele


看到这里,还想学咩?……