服务展示

服务展示
<<返回上一页

Transformer动画讲解

发布时间:2024-11-15 00:34:02点击:

一、GPT的核心是Transformer

GPT(Generative Pre-trained Transformer) 是一种基于单向Transformer解码器的预训练语言模型,它通过在大规模语料库上的无监督学习来捕捉语言的统计规律,从而具备强大的文本生成能力。

在GPT(Generative Pre-trained Transformer)模型中,字母G、P、T各自有其特定的含义:

GPT的核心是Transformer

Transformer模型在多模态数据处理中同样扮演着重要角色 ,其能够高效、准确地处理包含不同类型(如图像、文本、音频、视频等)的多模态数据。

Transformer的多模态

二、Transformer的工作原理

Transformer工作原理四部曲: Embedding(向量化)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。

Embedding -> Attention -> MLPs -> Unembedding

阶段一:Embedding(向量化)

“Embedding”在字面上的翻译是“嵌入”,但在机器学习和自然语言处理的上下文中,我们更倾向于将其理解为一种“向量化”或“向量表示”的技术。

(1)Tokenization(词元化):

Tokenization

(2)Embedding(向量化):

Tokens转换为向量

向量语义相似度

阶段二:Attention(注意力机制)

Attention模块帮助嵌入向量形成相关性,即确定它们如何相互关联以构建出有意义的句子或段落。

注意力计算公式

(1)Attention的目的:

更新嵌入向量

建立语义相关性

(2)Attention的工作流程(注意力计算Q、K、V):

注意力计算Q、K、V

阶段三:MLPs(多层感知机或前馈网络)

Transformer的编码器和解码器中的每一层都包含一个全连接的前馈神经网络。FFNN通常包含两个线性变换,中间使用ReLU激活函数进行非线性处理。

(1)MLPs在Transformer中的

MLPs在Transformer中的位置

(2)MLPs在Transformer中的作用:

MLPs在Transformer中的作用

阶段四:Unembedding(模型输出)

Transformers通过Softmax在生成输出时, 将原始注意力分数转换为输入标记的概率分布。这种概率分布将较高的注意力权重分配给更相关的标记,并将较低的权重分配给不太相关的标记。

(1)Softmax在Transformer的

Softmax在Transformer的位置

(2)Softmax在Transformer的作用:

Softmax在Transformer中的作用

原文链接:​ ​​ ​

免责声明:凡未注明来自本站的稿件和图片作品,系转载自其它网站,及网友投稿,转载目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如若涉及侵权违规可向站长举报 。