分类目录归档：动手学习深度学习系列

动手学习深度学习系列笔记——导读

571 views

前言

《动手学习深度学习》是李沐老师（AWS 资深首席科学家，美国卡内基梅隆大学计算机系博士）主讲的一系列深度学习视频。本笔记记录了该课程的重点知识。

课程简介

通常我们提到深度学习，常常会忘记深度学习只是机器学习的一小部分，而认为它是独立于机器学习的单独模块。这是因为机器学习作为一门历史更悠久的学科，在深度学习没有问世之前，在现实世界的应用范围很窄。在语音识别、计算机视觉、自然语言处理等领域，由于需要大量的领域知识并且现实情况异常复杂，机器学习往往只是解决这些领域问题方案中的一小部分。但是就在过去的几年里，深度学习的问世和应用给世界带来了惊喜，推动了计算机视觉、自然语言处理、自动语音识别、强

动手学习深度学习系列笔记——优化算法

发表评论

808 views

72.优化算法

2.局部最小 vs 全局最小

3.凸集和凸函数

凸集：形象化来说，就是这个集合上任意两个点连一条线，这个线在集合里面
凸函数：形象上来说函数上任取两个点连线，函数都在该线下面
凸优化问题：局部最小一定是全局最小。严格凸优化问题有唯一的全局最小。
- 凸：线性回归，softmax回归
- 非凸：其他（MLP,CNN,RNN,attention）

4.梯度下降

梯度下降——最简单的迭代求解算法
随机梯度下降
- 求导

动手学习深度学习系列笔记——BERT微调

发表评论

619 views

70 BERT微调

1.intro

与图片分类不同，BERT预训练时使用的两个任务没有什么实际应用场景，所以使用BERT时多需要进行微调。

BERT对每一个token都返回一个特定长度的特征向量（课堂演示为128，bert-base是768，bert-large是1024），这些特征向量抽取了上下文信息。不同的任务使用不同的特征。

2.具体应用

2.1句子分类

将句首的\<CLS>token对应的向量输入到全连接层分类。对于一对句子也是同理，句子中间用\<SEP

动手学习深度学习系列笔记——BERT预训练

发表评论

797 views

BERT预训练

1.目录：

BERT预训练

2.BERT:

2.1 NLP里的迁移学习

使用预训练好的模型来抽取词，句子的特征
- 例如word2vec或语言模型
不更新预训练好的

动手学习深度学习系列笔记——Transformer

发表评论

867 views

68-Transformer

68-Transformer
- 目录
- 1.transformer架构
- 2.多头注意力
- 3.有掩码的多头注意力
- 4.基于位置的前馈网络
- 5.层归一化
- 6.信息传递
- 7.预测
- 总结
- QA ### 1.transformer架构
基于encoder-decoder架构来处理序列对
跟使用注意力的seq2seq不同，transformer是纯基于注意力

2.多头注意力

对同一key，value，query，希望抽取不同的信息
- 例如短距离关系和长距离关系
多头注意力使用h个独立的注意力池化
- 合并各个头（head）输出得到最终输出

数学表

动手学习深度学习系列笔记——注意力分数

发表评论

547 views

- 小结

65 注意力分数

在上一节中，我们使用高斯核来对查询和键之间的关系建模。我们可以将上一节中的高斯核函数部分视为注意力评分函数，简称评分函数，然后把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，我们将得到与键对应的值的概率分布（即注意力权重）。最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。

import math
import torch
from torch import nn
from d2l import torch as d2l

掩蔽softmax操

动手学习深度学习系列笔记——束搜索

发表评论

509 views

束搜索

在序列生成问题中，常用的方法是一个个词元地进行生成，但是先前步生成的词元会影响之后词元的概率分布，为此，我们需要使用搜索算法来得到一个较好的序列

贪心搜索

贪心搜索即每个时间步都选择具有最高条件概率的词元。 $$ y{t'} = \operatorname*{argmax}{y \in \mathcal{Y}} P(y \mid y1, \ldots, y{t'-1}, \mathbf{c}) $$ 我们的目标是找到一个最有序列，他的联合概率，也就是每步之间的条件概率的乘积，最大。 $$ \prod{t'=1}^{T'} P(y{t'} \mid y1, \ldots, y{t'-1}