分类标签归档：机器学习

BERT详解

1532 views

什么是BERT？ BERT全名 Bidirection Encoder Representations from Transformers，是谷歌于2018年发布的NLP领域的预训练模型，一经发布就霸屏了NLP领域的相关新闻，味道是真香。果不其然，2019年出现了很多BERT相关的论文和模型，本文旨在对 BERT模型进行一个总结。首先从名字就可以看出，BERT模型是使用双向Transformer模型的EncoderLayer进行特征提取（BERT模型中没有 Decoder部分）。Transformer模型作为目前NLP领域最牛的特征提取器其原理不需要多做介绍，其中的EncoderLay

机器学习指南（截屏版）——概率和统计

613 views

机器学习指南（截屏版）——线性代数与微积分

606 views

机器学习指南（截屏版）——机器学习技巧

620 views

机器学习指南（截屏版）——深度学习神经网络

904 views

机器学习指南（截屏版）——无监督学习导引

611 views

机器学习指南（截屏版）——监督学习简介

669 views

机器学习笔记——应用实例：图片文字识别(Application Example: Photo OCR)

553 views

十八、应用实例：图片文字识别(Application Example: Photo OCR)

18.1 问题描述和流程图

参考视频: 18 - 1 - Problem Description and Pipeline (7 min).mkv

图像文字识别应用所作的事是，从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。

为了完成这样的工作，需要采取如下步骤：

文字侦测（Text detection）——将图片上的文字与其他环境对象分离开来
字符切分（Character segmentation）——将文字分割成一个个单一的字符
字符分类（Character class

机器学习笔记——大规模机器学习

475 views

十七、大规模机器学习(Large Scale Machine Learning)

17.1 大型数据集的学习

参考视频: 17 - 1 - Learning With Large Datasets (6 min).mkv

如果我们有一个低方差的模型，增加数据集的规模可以帮助你获得更好的结果。我们应该怎样应对一个有100万条记录的训练集？

以线性回归模型为例，每一次梯度下降迭代，我们都需要计算训练集的误差的平方和，如果我们的学习算法需要有20次迭代，这便已经是非常大的计算代价。

首先应该做的事是去检查一个这么大规模的训练集是否真的必要，也许我们只用1000个训练集也能获得较好的效果，我们可以绘制

机器学习笔记——推荐系统(Recommender Systems)

510 views

十六、推荐系统(Recommender Systems)

16.1 问题形式化

参考视频: 16 - 1 - Problem Formulation (8 min).mkv

在接下来的视频中，我想讲一下推荐系统。我想讲推荐系统有两个原因：

第一、仅仅因为它是机器学习中的一个重要的应用。在过去几年，我偶尔访问硅谷不同的技术公司，我常和工作在这儿致力于机器学习应用的人们聊天，我常问他们，最重要的机器学习的应用是什么，或者，你最想改进的机器学习应用有哪些。我最常听到的答案是推荐系统。现在，在硅谷有很多团体试图建立很好的推荐系统。因此，如果你考虑网站像亚马逊，或网飞公司或易趣，或iTunes Geni