MachineLearning

最大期望算法

极大似然算法

极大似然算法的思想:知道结果,反推条件θ

如果概率模型不依赖隐变量,则可直接用极大似然算法获取参数估计值。

举例:随机抛硬币A和B很多轮,每轮记录A和B是正面还是反面的次数,估计A正面朝上的概率、B正面朝上的概率。

随机森林

随机森林是有很多随机得决策树构成,它们之间没有关联。得到RF以后,在预测时分别对每一个决策树进行判断,最后使用Bagging的思想进行结果的输出(也就是投票的思想)。

学习过程简介

现在有N个训练样本,每个样本的特征为M个,需要建K颗树

从N个训练样本中有放回的取N个样本作为一组训练集(其余未取到的样本作为预测分类,评估其误差)

从M个特征中取m个特征左右子集特征(m<<M)

对采样的数据使用完全分裂的方式来建立决策树,这样的决策树每个节点要么无法分裂,要么所有的样本都指向同一个分类

重复2的过程K次,即可建立森林

决策树

决策树是一颗依托决策而建立起来的树。

ID3

首先,针对当前的集合,计算每个特征的信息增益;

然后,选择信息增益最大的特征作为当前节点的决策特征;

根据特征不同的类别划分到不同的子节点(比如年龄特征有青年,中年,老年,则划分到3颗子树),然后继续对子节点进行递归,直到所有特征都被划分。

机器学习都需要懂啥?

如何才能成为一名合格的机器学习算法工程师呢?

这是一个探索了许久的问题,期间整了一些牛人的材料,希望可以有助于知识梳理。
身为跨行菜鸟,也迫切的感谢各位资深老鸟们可以给予一些建议。

以下是若干必要不充分条件:

数据处理的编程语言

  1. Python(必要)
  2. R(可选)
  3. SQL(必要)
  4. Shell(必要)