分类标签归档：深度学习

DeepSeek技术分析

2186 views

Deepseek-LLM （V1-V3）系列

V1模型重点在于保障效果的前提下，探索低成本算法，在低成本情况下做Scaling Laws实验，打牢基础。延用LLAMA 2 稠密（Dense）模型的架构，使用2万亿Token的中英数据来做超参数和模型大小/数据配比的Scaling Laws实验，后训练阶段使用SFT和DPO算法，在多个维度超越LLaMa2 70B。

V2模型的模型参数比V1模型翻了3.5倍，训练数据量比V1多了4倍，基于论文H800用时推测预训练算力成本只增加一倍。训练效率提升主要是依靠MoE (Mixture-of-Experts)架构，为什么要从Dense架构变为MoE架构，

大模型 SFT 经验分享

发表评论

1698 views

大模型 SFT 经验分享

一、为什么大模型需要SFT？

微调作为一种技术手段，是在已具备广泛知识基础的大型预训练语言模型上，利用针对性的数据集实施额外的训练过程，旨在使模型更精准地契合特定任务需求或深入某一专业领域。微调的核心目标在于实现知识的精细化灌输与指令系统的精确匹配。当前实践中，微调通常采用以下几种策略：

二、大模型 SFT 有哪些方法？

大模型的SFT（Supervised Fine-Tuning）方式主要包括以下几种：

1.全参数微调（Full Parameter Fine Tuning）：全参数微调涉及对模型的所有权重进行调整，以使其完全适应特定领域或任务。这种方法适用于拥有大量

ChatGLM系列模型架构

发表评论

3007 views

1.ChatGLM

1.1 背景

主流的预训练框架主要有三种：

autoregressive自回归模型（AR模型）：代表作GPT。本质上是一个left-to-right的语言模型。通常用于生成式任务，在长文本生成方面取得了巨大的成功，比如自然语言生成（NLG）领域的任务：摘要、翻译或抽象问答。当扩展到十亿级别参数时，表现出了少样本学习能力。缺点是单向注意力机制，在NLU任务中，无法完全捕捉上下文的依赖关系。

autoencoding自编码模型（AE模型）：代表作BERT。是通过某个降噪目标（比如MLM）训练的双向文本编码器。编码器会产出适用于NLU任务的上下文表示，但无法直接用于文本生成。

LLM预训练之RLHF（一）：RLHF及其变种

发表评论

2163 views

在ChatGPT引领的大型语言模型时代，国内外的大模型呈现爆发式发展，尤其是以年初的LLaMA模型为首的开源大模型和最近百川智能的baichuan模型，但无一例外，都使用了「基于人类反馈的强化学习」（RLHF）来提升语言模型的性能，并在模型重注入了人类的偏好，以提高模型的有用性和安全性。不过RLHF也早已更新换代，我们以如下目录进行详细讲述RLHF及其变种：

LLM的经典预训练Pipeline
Llama 2中的RLHF
RLHF替代方案

一、LLM的经典预训练Pipeline

目前基于Transformer decoder的LLM，比如ChatGPT、LLaMA、baichuan等

LLM指令微调综述

发表评论

2726 views

指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程，它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式，领域和应用的应用。

论文：Instruction Tuning for Large Language Models: A Survey地址：https://arxiv.org/pdf/2308.10792.pdf

背景

近年来LLMs取得了显著

开源模型对比

发表评论

2264 views

最近流行大模型对比

模型	训练数据	训练数据量	模型参数量	词表大小
LLaMA	以英语为主的拉丁语系，不包含中日韩文	1T/1.4T tokens	7B、13B、33B、65B	32000
ChatGLM-6B	中英双语，中英文比例为1:1	1T tokens	6B	130528
Bloom	46种自然语言和13种编程语言，包含中文	350B tokens	560M、1.1B、1.7B、3B、7.1B、176B	250880

模型	模型结构	位置编码	激活函数	layer norm
LLaMA	Casual decoder	RoPE	SwiGLU	Pre

ChatGPT分析

发表评论

1006 views

最近ChatGPT火出圈了，它和前阵子的Stable Diffusion（AIGC）一样成为社交媒体上人们津津乐道的话题。“ChatGPT要取代谷歌搜索了？”“ChatGPT要让程序员失业了吗？”……类似的标题又一次刺激了我们的神经。作为一名码农，我对后一个标题其实是嗤之以鼻的。无论ChatGPT是用了什么样的“魔法”，仅从目前展现的能力来看，它学会的顶多就是熟练使用编程语言的API，去实现某个函数完成人类给定的特定小任务。在真实的项目场景下，程序员通常要接过一个含糊不清的需求，梳理其中的每个细节直至形成逻辑闭环，再将其抽象成一个个特定任务并实现功能，现有AI至多能帮上最后一个小阶段；更别提真

YOLOv1-v7全系列大解析（backbone篇）

发表评论

1151 views

【一】YOLOv1-v7

【二】YOLO系列中Backbone结构的特点

YOLO系列中的Backbone结构主要作为网络的一个核心特征提取器，随着时代的变迁不断发展。某种程度上，YOLO系列的各个Backbone代表着当时的高价值模型与AI行业的发展记忆，计算机视觉江湖上，曾出现的那些“算法兵器”，它们确实来过。 Backbone与输入侧一样，是通用性非常强的一个部分，具备很强的向目标检测其他模型，图像分类，图像分割，目标跟踪等方向迁移应用的价值。从业务向，竞赛向，研究向等角度观察，Backbone结构也能在这些方面比较好的融入，从容。

【三】YOLOv1 Backbone解析

YOLO

NLP中的对抗训练

发表评论

825 views

对抗训练本质是为了提高模型的鲁棒性，一般情况下在传统训练的基础上，添加了对抗训练是可以进一步提升效果的，在比赛打榜、调参时是非常重要的一个trick。对抗训练在CV领域内非常常用，那么在NLP领域如何使用呢？本文简单总结几种常用的对抗训练方法。

对抗训练旨在对原始输入样本x上施加扰动 r，得到对抗样本后用其进行训练：

公式理解：最大化扰动：挑选一个能使得模型产生更大损失（梯度较大）的扰动量，作为攻击；最小化损失：根据最大的扰动量，添加到输入样本后，朝着最小化含有扰动的损失（梯度下降）方向更新参数；

这个被构造出来的“对抗样本”并不能具体对应到某个单词，因此，反过来在推理阶段是没有办法通过

文本分类经典模型（三）

发表评论

1257 views

文本分类是自然语言处理中最基本、最经典的任务，大部分自然语言处理任务都可以看作是分类任务。近年来，深度学习在众多研究领域中获得了巨大的成功，如今，也成为了 NLP 领域的标配技术，广泛渗透入文本分类任务中。

与数字、图像不同，对文本的处理强调精细化的处理能力。传统的文本分类方法一般需要对输入模型的文本数据进行预处理，此外还需要通过人工标注的方法来获得良好的样本特征，然后使用经典的机器学习算法对其进行分类。类似的方法包括 NaiveBayes（NB）、K 近邻（KNN）、支持向量机 SVM 等。特征提取的水平对文本分类效果的影响甚至高于图像分类，而文本分类中的特征工程往往非常耗时且计算成本高。2

AIStation

AI站长的个人学习笔记

DeepSeek技术分析

Deepseek-LLM （V1-V3）系列

大模型 SFT 经验分享

大模型 SFT 经验分享

一、为什么大模型需要SFT？

二、大模型 SFT 有哪些方法？

ChatGLM系列模型架构

1.ChatGLM

1.1 背景

LLM预训练之RLHF（一）：RLHF及其变种

一、LLM的经典预训练Pipeline

LLM指令微调综述

背景

开源模型对比

最近流行大模型对比

ChatGPT分析

YOLOv1-v7全系列大解析（backbone篇）

【一】YOLOv1-v7

【二】YOLO系列中Backbone结构的特点

【三】YOLOv1 Backbone解析

NLP中的对抗训练

文本分类经典模型（三）