1. Conceptions
-
概念 内容 备注 token/word segmentation 将原始文本切分成子单元的过程就叫做 Tokenization。即,按照特定需求把文本中的句子、段落切分成一个字符串序列(其中的元素通常称为token 或叫词语),方便后续的处理分析工作。它是一个离散的文本单元,它可以是单词、标点符号、数字或其他语言元素,这些元素被用作训练和生成文本的基本单位。Token有粒度之分,如:词、字符或subword 解读资料:https://zhuanlan.zhihu.com/p/444774532 困惑度 Perplexity (PPL) 困惑度是一种用来评估语言模型的指标。它衡量了一个语言模型在给定数据集上的预测能力和概率分布的复杂性。较低的困惑度表示模型对数据集的拟合效果更好,也就是说,模型更能准确地预测下一个词或下一个句子。 SFT 监督微调(Supervised Fine-Tuning) RLHF 基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback) embedding (词)嵌入,可用于降维或升维,将特征拉近拉远到一个合适的观察点,将不同特征联系起来 https://zhuanlan.zhihu.com/p/616419336 seq2seq 序列到序列,该技术突破了传统的固定大小输入问题框架,提出了一种全新的端到端的映射方法。技术的核心是 Encoder-Decoder 架构,Encoder 负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,称为编码。而 Decoder 则负责根据语义向量生成指定的序列,这个过程也称为解码。Seq2Seq 是输出的长度不确定时采用的模型,因此在机器翻译、对话系统、自动文摘等自然语言处理任务中被广泛运用。 https://zhuanlan.zhihu.com/p/558138527
https://zhuanlan.zhihu.com/p/520657912?utm_id=0attention 注意力机制(Attention Mechanism)源于对人类视觉的研究,主要理论原理是:信息处理时选择性地关注所有信息的一部分,同时忽略其他可见的信息。在计算能力有限情况下,注意力机制是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。 attention机制:https://zhuanlan.zhihu.com/p/46990010
atention图解:https://zhuanlan.zhihu.com/p/342235515
https://zhuanlan.zhihu.com/p/42724582
https://zhuanlan.zhihu.com/p/53682800
如何理解attention中的QKV:https://www.zhihu.com/question/298810062
transformer中的attention为什么scaled:https://www.zhihu.com/question/339723385
attention计算公式中的softmax:https://zhuanlan.zhihu.com/p/157490738transformer Transformer最早起源于论文Attention is all your need,是谷歌云TPU推荐的参考模型。 目前,在NLP领域当中,主要存在三种特征处理器:CNN、RNN以及Transformer,当前Transformer的流行程度已经大过CNN和RNN,它抛弃了传统CNN和RNN神经网络,整个网络结构完全由Attention机制以及前馈神经网络组成。论文中给出Transformer的定义是:Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence aligned RNNs or convolution。 论文 :https://arxiv.org/abs/1706.03762
源码参考:https://github.com/huggingface/transformers
解读资料:https://blog.csdn.net/m0_67505927/article/details/123209347
https://blog.csdn.net/qq_52302919/article/details/122207924
B站李宏毅的视频,有几节专门讲attention和transformer的,比较清晰:https://www.bilibili.com/video/BV1Wv411h7kN?p=23Beam search 集束搜索。一种搜索算法,是对greedy search的一个改进,相对greedy search扩大了搜索空间,但远不及穷举搜索指数级的搜索空间,是二者的一个折中方案。在文本生成任务中常用的解码策略。 https://zhuanlan.zhihu.com/p/82829880 AIGC (Artificial Intelligence Generated Content / AI-Generated Content) 人工智能生成内容,一种利用人工智能技术自动生成文章、音频、视频等多媒体内容的方法。 LLM ( Large Language Model) 大语言模型,使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。特点是规模庞大(包含数十亿参数),能学习到语言数据中的复杂模式。 GPT (Generative Pre-trained Transformer) 生成式预训练Transformer模型, 由OpenAI提出的一系列强大的预训练语言模型,兼具“大规模”和“预训练”两种属性。 BERT (Bidirectional Encoder Representations from Transformers) 基于Transformer的双向编码表征,谷歌提出的一个LLM,对NLP研究产生了重大影响。该模型使用双向方法从一个词的左右两边捕捉上下文,使得各种任务的性能提高,如情感分析和命名实体识别。 Bloom ( BigScience Large Open-science Open-access Multi-lingual Language Model) BLOOM是一种基于trasnformer架构的解码器(Decoder-Only)自回归大语言模型,由BigScience社区开发和发布。该模型除了176B 之外,还提供了几个较小的模型,其模型参数规模为:560M,1.1B,1.7B,3B 和7.1B。 论文:https://arxiv.org/abs/2211.05100
解读:https://zhuanlan.zhihu.com/p/640016830Flash Attention FlashAttention 是一种重新排序注意力计算的算法,它无需任何近似即可加速注意力计算并减少内存占用,主要解决Transformer计算速度慢和存储占用高的问题,所以作为目前LLM的模型加速它是一个非常好的解决方案。 论文:
https://arxiv.org/abs/2205.14135
解读资料:
https://zhuanlan.zhihu.com/p/639228219
https://zhuanlan.zhihu.com/p/647364218
https://baijiahao.baidu.com/s?id=1774803715921029316&wfr=spider&for=pc
大约 12 分钟