决策树

决策树是一颗依托决策而建立起来的树。

ID3

首先，针对当前的集合，计算每个特征的信息增益；

然后，选择信息增益最大的特征作为当前节点的决策特征；

根据特征不同的类别划分到不同的子节点（比如年龄特征有青年，中年，老年，则划分到3颗子树），然后继续对子节点进行递归，直到所有特征都被划分。

2019-07-20 MachineLearning

分布式训练

模型并行vs.数据并行

模型并行

不同 node 输入相同数据，运行模型的不同部分

适用模型本身很大，否则一般不会采用模型并行，因为模型层与层之间存在串行逻辑
或者，模型本身存在一些可以并行的单元，模型的各个部分并行于多个计算设备上

2019-06-28 Distribute

BERT源码解析

源码整体框架

地址：https://github.com/google-research/bert

2019-01-29 NLP

BERT原理和使用

最近NLP领域发生了一件大事，一个叫BERT的预训练模型掀起了一场革命式的风波。基于这段时间参读大牛们精细的解析，简单总结下BERT的原理（What）和怎么应用到自己的数据中（How）。

BERT简介

BERT

BERT（Bidirectional Encoder Representation from Transformers），是谷歌AI团队新发布的应用于NLP领域的模型，在11项NLP任务均获得了相当不错的结果，文章于2018年10月发表，并提供了开源地址（ https://github.com/google-research/bert ），致谢👏👏👏。

语料库

Corpus: BooksCorpus (800M words) + English Wikipedia (2,500M words).

预训练模型及参数

可参考GitHub详细文档。

BERT的主要特点

Ø 使用Transformer作为特征提取器

Ø 双向语言模型

由于BERT是基于Transformer模型的，而Transformer模型主要基于Attention机制，因此先需要了解下Attention机制。

2019-01-26 NLP

自然语言处理

根据这一阵子对文本分析的研究，做了一些整理，可供参考。
有不对之处，恳请大家指正。

预料库

1）直接下载现成的语料库
2）爬虫方法获取语料库
3）当前分析的所有文本形成语料库

文本预处理

主要包括：
1）文本删除（文本去重复、机械压缩去词、短句删除、去除无效标签等）
2）编码转换
3）拼写检查（针对英文）
4）大小写统一（针对英文）
5）分词
6）去停用词（网上提供1208个停用词：https://pan.baidu.com/s/1gfMXMl9）

2018-07-12 NLP

机器学习都需要懂啥？

如何才能成为一名合格的机器学习算法工程师呢？

这是一个探索了许久的问题，期间整了一些牛人的材料，希望可以有助于知识梳理。
身为跨行菜鸟，也迫切的感谢各位资深老鸟们可以给予一些建议。

以下是若干必要不充分条件：

数据处理的编程语言

Python（必要）
R（可选）
SQL（必要）
Shell（必要）

2018-04-08 MachineLearning

初识Spark

浅谈Spark与Python

2018-01-20 Spark

MySQL文本导入

2018-01-17 MySQL

Excel数据处理

2017-09-12 Excel

Python-常用函数

2017-07-28 Python

书生海海

决策树

ID3