分类目录归档:深度学习

哈工大|15种NLP数据增强方法总结与对比


这篇40多页的综述出自哈工大车万翔老师的团队,一共总结了15种NLP可以用到的数据增强方法、优缺点,还有一些使用技巧,十分良心。下面就速读一下,如果要使用的话还是建议参考原文以及其他文献的应用细节。 论文:Data Augmentation Approaches in Natural Language Processing: A Survey 地址:https://arxiv.org/abs/2110.01852

数据增强方法

数据增强(Data Augmentation,简称DA),是指根据现有数据,合成新数据的一类方法。毕竟数据才是真正的效果天花板,有了更多数据后可以提升效果、增强模型泛化

Read more

文本语义相似度脉络


本文旨在帮大家快速了解文本语义相似度领域的研究脉络和进展,其中包含了文本语义相似度任务的处理步骤,文本相似度模型发展历程,相关数据集,以及重要论文分享。

文本相似度任务处理步骤

通过该领域的大量论文阅读,我认为处理文本相似度任务时可以分为一下三个步骤: 预处理:如数据清洗等。此步骤旨在对文本做一些规范化操作,筛选有用特征,去除噪音。 文本表示:当数据被预处理完成后,就可以送入模型了。在文本相似度任务中,需要有一个模块用于对文本的向量化表示,从而为下一步相似度比较做准备。这个部分一般会选用一些 backbone 模型,如 LSTM,BERT 等。 学习范式的选择: 这个步骤也是文本相似度任务中最

Read more

SimCSE详解


「句向量表征技术」一直都是NLP领域的热门话题,在BERT前时代,一般都采用word2vec训练出的word-embedding结合pooling策略进行句向量表征,或者在有训练数据情况下,采用TextCNN/BiLSTM结合Siamese network策略进行句向量表征。在BERT时代,人们借助预训练语言模型的固有优势,一般采用BERT模型的[CLS]向量作为句向量表征;Sentence-Bert诠释了在存在训练数据的情况下,如何在BERT模型上获取更好的句向量表征。后面又有了「BERT-Flow」、「BERT-Whitenning」、「ConSERT」、「SimCSE」、「R-Drop」

Read more

Sentence-BERT详解


Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks; 论文地址:https://arxiv.org/abs/1908.10084; 论文代码:https://github.com/UKPLab/ sentence-transformers。

Introduction

Bert模型已经在NLP各大任务中都展现出了强者的姿态。在语义相似度计算(semantic textual similarity)任务上也不例外,但是,由于bert模型规定,在计算语义相似度时,需要将两个句子同时进入模型,进行信息交互,这造成大量的计算开销。

Read more

BART详解


一切都得从 Transformer 说起。Transformer 左半边为 Encoder,右半边为 Decoder。我们将 Encoder 输入的句子称为 source,Decoder 输入的句子称为 target

Encoder 负责将 source 进行 self-attention 并获得句子中每个词的 representation,最经典的 Encoder 架构就是 BERT,通过 Masked Language Model 来学习词之间的关系,另外还有 XLNet, RoBERTa, ALBERT, DistilBERT 等等。但是单独 Encoder 结构不适用于生成任务

D

Read more

动手学习深度学习系列笔记——导读


前言

《动手学习深度学习》是李沐老师(AWS 资深首席科学家,美国卡内基梅隆大学计算机系博士)主讲的一系列深度学习视频。本笔记记录了该课程的重点知识。

课程简介

通常我们提到深度学习,常常会忘记深度学习只是机器学习的一小部分,而认为它是独立于机器学习的单独模块。这是因为机器学习作为一门历史更悠久的学科,在深度学习没有问世之前,在现实世界的应用范围很窄。在语音识别、计算机视觉、自然语言处理等领域,由于需要大量的领域知识并且现实情况异常复杂,机器学习往往只是解决这些领域问题方案中的一小部分。但是就在过去的几年里,深度学习的问世和应用给世界带来了惊喜,推动了计算机视觉、自然语言处理、自动语音识别、强

Read more

动手学习深度学习系列笔记——优化算法


72.优化算法

目录

2.局部最小 vs 全局最小

3.凸集和凸函数

  • 凸集:形象化来说,就是这个集合上任意两个点连一条线,这个线在集合里面
  • 凸函数:形象上来说函数上任取两个点连线,函数都在该线下面
  • 凸优化问题:局部最小一定是全局最小。严格凸优化问题有唯一的全局最小。
    • 凸:线性回归,softmax回归
    • 非凸:其他(MLP,CNN,RNN,attention)

4.梯度下降

  • 梯度下降——最简单的迭代求解算法
  • 随机梯度下降
    • 求导

Read more

GPLinker:基于GlobalPointer的实体关系联合抽取


基础思路

关系抽取乍看之下是三元组(s,p,o)(即subject, predicate, object)的抽取,但落到具体实现上,它实际是“五元组”(sh,st,p,oh,ot)的抽取,其中sh,st分别是s的首、尾位置,而oh,ot则分别是o的首、尾位置。 从概率图的角度来看,我们可以这样构建模型: 1、设计一个五元组的打分函数S(sh,st,p,oh,ot); 2、训练时让标注的五元组S(sh,st,p,oh,ot)>0,其余五元组则S(sh,st,p,oh,ot)<0; 3、预测时枚举所有可能的五元组,输出S(sh,st,p,oh,ot)>0的部分。 然而,直接枚举所

Read more

论文笔记|TPLinker:Single-stage Joint Extraction of Entities and RelationsThrough Tok


1.Introduction

目标:从给定的非结构化文本中识别实体之间的关系,组成关系三元组(ei, rk, ej)。如图所示,关系可能会有重叠, SEO:一个实体可能出现在多个关系中。 EPO:同一个实体对可能属于不同的关系。

2.RelatedWork

方法 缺点 相关论文
Traditional pipelined method 忽视了实体抽取和关系预测之间的关系 (Zelenko et al., 2003; Chan and Roth, 2011)
Feature-based 过程过于复杂 (Yuand Lam, 2010; Miwa and Sasaki, 2014

Read more

动手学习深度学习系列笔记——BERT微调


70 BERT微调

目录

1.intro

与图片分类不同,BERT预训练时使用的两个任务没有什么实际应用场景,所以使用BERT时多需要进行微调。

BERT对每一个token都返回一个特定长度的特征向量(课堂演示为128,bert-base是768,bert-large是1024),这些特征向量抽取了上下文信息。不同的任务使用不同的特征。

2.具体应用

2.1句子分类

将句首的\<CLS>token对应的向量输入到全连接层分类。对于一对句子也是同理,句子中间用\<SEP

Read more