分类目录归档：深度学习

哈工大｜15种NLP数据增强方法总结与对比

970 views

这篇40多页的综述出自哈工大车万翔老师的团队，一共总结了15种NLP可以用到的数据增强方法、优缺点，还有一些使用技巧，十分良心。下面就速读一下，如果要使用的话还是建议参考原文以及其他文献的应用细节。论文：Data Augmentation Approaches in Natural Language Processing: A Survey 地址：https://arxiv.org/abs/2110.01852

数据增强方法

数据增强（Data Augmentation，简称DA），是指根据现有数据，合成新数据的一类方法。毕竟数据才是真正的效果天花板，有了更多数据后可以提升效果、增强模型泛化

文本语义相似度脉络

发表评论

1505 views

本文旨在帮大家快速了解文本语义相似度领域的研究脉络和进展，其中包含了文本语义相似度任务的处理步骤，文本相似度模型发展历程，相关数据集，以及重要论文分享。

文本相似度任务处理步骤

通过该领域的大量论文阅读，我认为处理文本相似度任务时可以分为一下三个步骤：预处理：如数据清洗等。此步骤旨在对文本做一些规范化操作，筛选有用特征，去除噪音。文本表示：当数据被预处理完成后，就可以送入模型了。在文本相似度任务中，需要有一个模块用于对文本的向量化表示，从而为下一步相似度比较做准备。这个部分一般会选用一些 backbone 模型，如 LSTM，BERT 等。学习范式的选择：这个步骤也是文本相似度任务中最

SimCSE详解

发表评论

713 views

「句向量表征技术」一直都是NLP领域的热门话题，在BERT前时代，一般都采用word2vec训练出的word-embedding结合pooling策略进行句向量表征，或者在有训练数据情况下，采用TextCNN/BiLSTM结合Siamese network策略进行句向量表征。在BERT时代，人们借助预训练语言模型的固有优势，一般采用BERT模型的[CLS]向量作为句向量表征；Sentence-Bert诠释了在存在训练数据的情况下，如何在BERT模型上获取更好的句向量表征。后面又有了「BERT-Flow」、「BERT-Whitenning」、「ConSERT」、「SimCSE」、「R-Drop」

Sentence-BERT详解

发表评论

757 views

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks；论文地址：https://arxiv.org/abs/1908.10084；论文代码：https://github.com/UKPLab/ sentence-transformers。

Introduction

Bert模型已经在NLP各大任务中都展现出了强者的姿态。在语义相似度计算（semantic textual similarity）任务上也不例外，但是，由于bert模型规定，在计算语义相似度时，需要将两个句子同时进入模型，进行信息交互，这造成大量的计算开销。

BART详解

发表评论

740 views

一切都得从 Transformer 说起。Transformer 左半边为 Encoder，右半边为 Decoder。我们将 Encoder 输入的句子称为 source，Decoder 输入的句子称为 target

Encoder 负责将 source 进行 self-attention 并获得句子中每个词的 representation，最经典的 Encoder 架构就是 BERT，通过 Masked Language Model 来学习词之间的关系，另外还有 XLNet, RoBERTa, ALBERT, DistilBERT 等等。但是单独 Encoder 结构不适用于生成任务

动手学习深度学习系列笔记——导读

发表评论

511 views

前言

《动手学习深度学习》是李沐老师（AWS 资深首席科学家，美国卡内基梅隆大学计算机系博士）主讲的一系列深度学习视频。本笔记记录了该课程的重点知识。

课程简介

通常我们提到深度学习，常常会忘记深度学习只是机器学习的一小部分，而认为它是独立于机器学习的单独模块。这是因为机器学习作为一门历史更悠久的学科，在深度学习没有问世之前，在现实世界的应用范围很窄。在语音识别、计算机视觉、自然语言处理等领域，由于需要大量的领域知识并且现实情况异常复杂，机器学习往往只是解决这些领域问题方案中的一小部分。但是就在过去的几年里，深度学习的问世和应用给世界带来了惊喜，推动了计算机视觉、自然语言处理、自动语音识别、强

动手学习深度学习系列笔记——优化算法

发表评论

756 views

72.优化算法

2.局部最小 vs 全局最小

3.凸集和凸函数

凸集：形象化来说，就是这个集合上任意两个点连一条线，这个线在集合里面
凸函数：形象上来说函数上任取两个点连线，函数都在该线下面
凸优化问题：局部最小一定是全局最小。严格凸优化问题有唯一的全局最小。
- 凸：线性回归，softmax回归
- 非凸：其他（MLP,CNN,RNN,attention）

4.梯度下降

梯度下降——最简单的迭代求解算法
随机梯度下降
- 求导

GPLinker：基于GlobalPointer的实体关系联合抽取

发表评论

526 views

基础思路

关系抽取乍看之下是三元组(s,p,o)（即subject, predicate, object)的抽取，但落到具体实现上，它实际是“五元组”(sh,st,p,oh,ot)的抽取，其中sh,st分别是s的首、尾位置，而oh,ot则分别是o的首、尾位置。从概率图的角度来看，我们可以这样构建模型： 1、设计一个五元组的打分函数S(sh,st,p,oh,ot)； 2、训练时让标注的五元组S(sh,st,p,oh,ot)>0，其余五元组则S(sh,st,p,oh,ot)<0； 3、预测时枚举所有可能的五元组，输出S(sh,st,p,oh,ot)>0的部分。然而，直接枚举所

论文笔记｜TPLinker：Single-stage Joint Extraction of Entities and RelationsThrough Tok

发表评论

502 views

1.Introduction

目标：从给定的非结构化文本中识别实体之间的关系，组成关系三元组(ei, rk, ej)。如图所示，关系可能会有重叠， SEO：一个实体可能出现在多个关系中。 EPO：同一个实体对可能属于不同的关系。

2.RelatedWork

方法	缺点	相关论文
Traditional pipelined method	忽视了实体抽取和关系预测之间的关系	(Zelenko et al., 2003; Chan and Roth, 2011)
Feature-based	过程过于复杂	(Yuand Lam, 2010; Miwa and Sasaki, 2014

动手学习深度学习系列笔记——BERT微调

发表评论

591 views

70 BERT微调

1.intro

与图片分类不同，BERT预训练时使用的两个任务没有什么实际应用场景，所以使用BERT时多需要进行微调。

BERT对每一个token都返回一个特定长度的特征向量（课堂演示为128，bert-base是768，bert-large是1024），这些特征向量抽取了上下文信息。不同的任务使用不同的特征。

2.具体应用

2.1句子分类

将句首的\<CLS>token对应的向量输入到全连接层分类。对于一对句子也是同理，句子中间用\<SEP

AIStation

AI站长的个人学习笔记

哈工大｜15种NLP数据增强方法总结与对比

数据增强方法

文本语义相似度脉络

文本相似度任务处理步骤

SimCSE详解

Sentence-BERT详解

Introduction

BART详解

动手学习深度学习系列笔记——导读

前言

课程简介

动手学习深度学习系列笔记——优化算法

72.优化算法

目录

2.局部最小 vs 全局最小

3.凸集和凸函数

4.梯度下降

GPLinker：基于GlobalPointer的实体关系联合抽取

基础思路

论文笔记｜TPLinker：Single-stage Joint Extraction of Entities and RelationsThrough Tok

1.Introduction

2.RelatedWork

动手学习深度学习系列笔记——BERT微调

70 BERT微调

目录

1.intro

2.具体应用

2.1句子分类