分类标签归档:深度学习

YOLOv1-v7全系列大解析(输入侧篇)


【一】YOLO系列

【二】YOLO系列中输入侧结构的特点

YOLO系列中的输入侧结构主要包含了输入图像,数据增强算法以及一些预处理操作。 输入侧可谓是通用性最强的一个部分,具备很强的向目标检测其他模型,图像分类,图像分割,目标跟踪等方向迁移应用的价值。 从业务侧,竞赛侧,研究侧等角度观察,输入侧结构也能在这些方面比较好的融入,从容。

【三】YOLOv1 输入侧解析

YOLOv1的输入侧有着朴素的逻辑,做的最多的工作是调整输入图像的尺寸以支持对图像细粒度特征的挖掘与检测。 同样的,YOLO系列的grid逻辑(“分而治之”)也从输入侧开始展开,直到Head侧输出相应结果。

YOLOv1整体结构

Read more

文本分类经典模型(二)


文本分类是自然语言处理中最基本、最经典的任务,大部分自然语言处理任务都可以看作是分类任务。近年来,深度学习在众多研究领域中获得了巨大的成功,如今,也成为了 NLP 领域的标配技术,广泛渗透入文本分类任务中。

与数字、图像不同,对文本的处理强调精细化的处理能力。传统的文本分类方法一般需要对输入模型的文本数据进行预处理,此外还需要通过人工标注的方法来获得良好的样本特征,然后使用经典的机器学习算法对其进行分类。类似的方法包括 NaiveBayes(NB)、K 近邻(KNN)、支持向量机 SVM 等。特征提取的水平对文本分类效果的影响甚至高于图像分类,而文本分类中的特征工程往往非常耗时且计算成本高。2

Read more

阿里小蜜数字人互动决策的探索与落地


01 阿里小蜜数字人发展史

阿里小蜜从在 2019 年开始探索大屏数字人应用,并构建了首个数字人形象,用于服务大厅、地 铁站等进行咨询接待。之后从平台、数字人能力、IP、产品等不同维度逐步完善,近三年来, 已提供了包括虚拟主播、虚拟辅播、公益数字人、云上数字人等多个产品。

02 如何从零构建一个数字人产品

数字人构建主要包括六个部分,包括:  诞生:即构建基础的数字人形象的过程,包括数字人建模、数字人 IP 管理、数字人渲染 等等;  掌握身体:使得数字人可以完成简单运动的过程,包括驱动数字人的声音、嘴型、表情 以及肢体动作;  了解环境:通过多模态理解算法,使得数字人能够感知其环境

Read more

美团智能问答技术探索与实践


导读:本文主要介绍在美团业务中智能问答技术的相关落地与实践。通常问答系统需 要提前构建好问答对知识库,这种方式对高频问题能处理的很好,但难以解决开放性 问题。在日常生活服务中,如"去哪玩"、"住哪家酒店"等,在行前通常需要对景点、 酒店等目的地做详细咨询再决策,智能问答是一种非常友好的方式来帮助用户获取信 息。但针对不同的景点、酒店等用户问的问题通常不同,是开放性的,且信息往往是 动态分布在商户页面详情、政策、用户评论、社区问答等各类数据中。这需要提供一 套智能"问题解决"能力,实时从各类信息中找出准确的信息来回答用户问题,辅助用 户决策。本文在简单介绍完智能问答技术框架之后,着重介绍 Doc

Read more

文本分类经典模型(一)


文本分类是自然语言处理中最基本、最经典的任务,大部分自然语言处理任务都可以看作是分类任务。近年来,深度学习在众多研究领域中获得了巨大的成功,如今,也成为了 NLP 领域的标配技术,广泛渗透入文本分类任务中。

与数字、图像不同,对文本的处理强调精细化的处理能力。传统的文本分类方法一般需要对输入模型的文本数据进行预处理,此外还需要通过人工标注的方法来获得良好的样本特征,然后使用经典的机器学习算法对其进行分类。类似的方法包括 NaiveBayes(NB)、K 近邻(KNN)、支持向量机 SVM 等。特征提取的水平对文本分类效果的影响甚至高于图像分类,而文本分类中的特征工程往往非常耗时且计算成本高。2

Read more

21个经典深度学习句间关系模型|代码&技巧


句间关系的输入是一对文本,输出是文本间的关系。常用的判别有语义相似度、语义关系推理(蕴含/中立/矛盾)、问答对等,拿GLUE榜单来说,其中有6个(QQP/MNLI/QNLI/STS/RTE/MRPC)都是句间关系任务。这个任务的应用场景也很广泛,比如搜索推荐的语义相关性、智能问答中的问题-问题、问题-答案匹配、知识图谱中的实体链接、关系识别等,是成为NLPer必须卷的一个方向。 在深度学习中,文本匹配模型可以分为两种结构:双塔式和交互式。 双塔式模型也称孪生网络、Representation-based,就是用一个编码器分别给两个文本编码出句向量,然后把两个向量融合过一个浅层的分类器;交互是也

Read more

深度学习文本分类模型综述+代码+技巧


文本分类是NLP的必备入门任务,在搜索、推荐、对话等场景中随处可见,并有情感分析、新闻分类、标签分类等成熟的研究分支和数据集。 本文主要介绍深度学习文本分类的常用模型原理、优缺点以及技巧。

Fasttext

论文:https://arxiv.org/abs/1607.01759 代码:https://github.com/facebookresearch/fastText

Fasttext是Facebook推出的一个便捷的工具,包含文本分类和词向量训练两个功能。 Fasttext的分类实现很简单:把输入转化为词向量,取平均,再经过线性分类器得到类别。输入的词向量可以是预先训练好的,也可以随机初

Read more

YOLOv1-v7全系列大解析(Neck篇)


近年来YOLO系列层出不穷,更新不断,已经到v7版本。本人认为不能简单用版本高低来评判一个系列的效果好坏,YOLOv1-v7不同版本各有特色,在不同场景,不同上下游环境,不同资源支持的情况下,如何从容选择使用哪个版本,甚至使用哪个特定部分,都需要我们对YOLOv1-v7有一个全面的认识。 故本人将YOLO系列每个版本都表示成下图中的五个部分,逐一进行解析,并将每个部分带入业务侧,竞赛侧,研究侧进行延伸思考,探索更多可能性。 而本文将聚焦于Neck侧的分享,希望能让江湖中的英雄豪杰获益,也希望大家提出宝贵的建议与观点,让这个栏目更加繁荣。

干货篇

----【目录先行】----

YOLOv1-v

Read more

YOLOv1-v7全系列大解析(Head篇)


近年来YOLO系列层出不穷,更新不断,已经到v7版本。本人认为不能简单用版本高低来评判一个系列的效果好坏,YOLOv1-v7不同版本各有特色,在不同场景,不同上下游环境,不同资源支持的情况下,如何从容选择使用哪个版本,甚至使用哪个特定部分,都需要我们对YOLOv1-v7有一个全面的认识。 故本人将YOLO系列每个版本都表示成下图中的五个部分,逐一进行解析,并将每个部分带入业务侧,竞赛侧,研究侧进行延伸思考,探索更多可能性。 【Make YOLO Great Again】YOLOv1-v7全系列大解析(Neck篇)已经发布,大家可按需取用~ 而本文将聚焦于Head侧的分享,希望能让江湖中的英雄豪

Read more

预训练时代下的文本生成|模型&技巧


最近没看到啥好玩的NLP文章,于是开始读综述了。今天推荐一篇人大出品的37页文本生成综述: A Survey of Pretrained Language Models Based Text Generation https://arxiv.org/abs/2201.05273 虽然综述读起来累些,但多读综述有利于知识体系的梳理。而且NLP领域的综述读多了会发现,很多优化方法都是相通的,也能提供一些新的思路。 这篇文章从把文本生成的方法分成了三类:输入编码、模型设计、优化方法。同时也从数据、模型、优化层面给出了下面我们就顺着文章的思路,梳理一下最近几年文本生成领域的进展。

如何编码输入

Read more