决策树

决策树是一颗依托决策而建立起来的树。

ID3

首先,针对当前的集合,计算每个特征的信息增益;

然后,选择信息增益最大的特征作为当前节点的决策特征;

根据特征不同的类别划分到不同的子节点(比如年龄特征有青年,中年,老年,则划分到3颗子树),然后继续对子节点进行递归,直到所有特征都被划分。

分布式训练

模型并行vs.数据并行

模型并行

不同 node 输入相同数据,运行模型的不同部分

  1. 适用模型本身很大,否则一般不会采用模型并行,因为模型层与层之间存在串行逻辑
  2. 或者,模型本身存在一些可以并行的单元,模型的各个部分并行于多个计算设备上

BERT源码解析

源码整体框架

地址:https://github.com/google-research/bert

BERT原理和使用

最近NLP领域发生了一件大事,一个叫BERT的预训练模型掀起了一场革命式的风波。基于这段时间参读大牛们精细的解析,简单总结下BERT的原理(What)和怎么应用到自己的数据中(How)。

BERT简介

BERT

BERT(Bidirectional Encoder Representation from Transformers),是谷歌AI团队新发布的应用于NLP领域的模型,在11项NLP任务均获得了相当不错的结果,文章于2018年10月发表,并提供了开源地址( https://github.com/google-research/bert ),致谢👏👏👏。

语料库

Corpus: BooksCorpus (800M words) + English Wikipedia (2,500M words).

预训练模型及参数

可参考GitHub详细文档。

BERT的主要特点

Ø 使用Transformer作为特征提取器

Ø 双向语言模型

由于BERT是基于Transformer模型的,而Transformer模型主要基于Attention机制,因此先需要了解下Attention机制。

自然语言处理

根据这一阵子对文本分析的研究,做了一些整理,可供参考。
有不对之处,恳请大家指正。

预料库

1)直接下载现成的语料库
2)爬虫方法获取语料库
3)当前分析的所有文本形成语料库

文本预处理

主要包括:
1)文本删除(文本去重复、机械压缩去词、短句删除、去除无效标签等)
2)编码转换
3)拼写检查(针对英文)
4)大小写统一(针对英文)
5)分词
6)去停用词(网上提供1208个停用词:https://pan.baidu.com/s/1gfMXMl9)

机器学习都需要懂啥?

如何才能成为一名合格的机器学习算法工程师呢?

这是一个探索了许久的问题,期间整了一些牛人的材料,希望可以有助于知识梳理。
身为跨行菜鸟,也迫切的感谢各位资深老鸟们可以给予一些建议。

以下是若干必要不充分条件:

数据处理的编程语言

  1. Python(必要)
  2. R(可选)
  3. SQL(必要)
  4. Shell(必要)

初识Spark

浅谈Spark与Python