技术报告 DeepMind推出Gemma 我们一起聊聊Google 2
发布时间:2024-11-15 00:01:53点击:
引言:大规模语言模型的发展与挑战
近年来,大规模语言模型(LLMs)在语言理解、生成和推理方面展现出了强大的能力。随着模型规模的不断扩大,新的能力也逐渐显现。最新的大型模型不仅在推理基准测试上达到了前所未有的性能,还展示了多模态和多语言的能力,甚至能处理超过1M个令牌的上下文长度。
尽管小规模模型的性能也在迅速提升,这些提升主要来自于增加训练长度。然而,这种方法与数据集大小的增长呈对数关系,最新的小型模型需要高达15T令牌才能将艺术状态提高不到1-2%。
这些持续的改进表明,小型模型仍然存在未充分训练的问题。在本工作中,我们探索了提高小型模型性能的替代方法,而不仅仅是增加训练长度。一种解决方案是改进网络在每个训练步骤中接收的信息质量,通过替换下一个令牌预测任务来实现,采用更丰富的目标。我们采用了知识蒸馏方法,这种方法经常被用来减少小型模型的训练时间,通过提供更丰富的梯度。
此外,我们还利用了几种已知的Transformer修改技术,例如交替使用全局和局部注意力层,以及分组查询注意力机制。通过这些技术的应用,我们的模型在与规模相当的开放模型相比,显著提升了性能,并且在某些情况下,甚至能与规模是其两倍的模型竞争。
总的来说,这些技术的应用不仅提升了小型模型的性能,也为大规模语言模型的发展提供了新的可能性。然而,这些模型的测试不能覆盖所有应用场景,因此在部署或使用之前,所有用户都应进行严格的安全测试。
论文标题、机构、论文链接和项目地址
1. 论文标题:Gemma 2: Improving Open Language Models at a Practical Size
2. 机构:Google DeepMind
3. 论文链接:
模型架构与技术创新
1. Gemma 2模型的基本架构
Gemma 2模型继承了Gemma系列模型的基本架构,采用了解码器仅Transformer架构(Vaswani et al., 2017)。这种架构特别强调了使用旋转位置嵌入(RoPE)(Su et al., 2021)和近似的GeGLU非线性激活函数(Shazeer, 2020)。在Gemma 2中,与Gemma 1相比,采用了更深的网络层次结构,并在每个Transformer子层中使用了RMSNorm(Zhang and Sennrich, 2019)进行输入和输出的规范化,以稳定训练过程。
2. 知识蒸馏与训练数据的使用
在Gemma 2的开发中,采用了知识蒸馏技术(Hinton et al., 2),这是一种通过大模型(教师模型)来训练小模型(学生模型)的方法。具体来说,通过模拟教师模型对每个令牌的概率分布,来训练学生模型,而不是简单的下一个令牌预测。这种方法可以给小模型提供更丰富的梯度信息,从而在不增加训练令牌数量的情况下,显著提高模型性能。例如,Gemma 2的27B模型在13万亿令牌上进行训练,而9B和2B模型分别在8万亿和2万亿令牌上进行训练。
3. 改进的Transformer技术:局部-全局注意力与群组查询注意力
Gemma 2模型在其Transformer层中引入了局部滑动窗口注意力和全局注意力的交替使用(Beltagy et al., 2020a; Luong et al., 2),这种设计旨在提高模型处理长序列数据的能力。此外,Gemma 2还采用了群组查询注意力(Grouped-Query Attention, GQA)机制(Ainslie et al., 2023),该机制通过将注意力头分组来提高推理时的速度,同时保持下游任务性能。这些技术的应用使得Gemma 2在多项自动化基准测试和人类评估中表现出色,相对于同等规模的开放模型显著提升了性能。
训练过程与数据处理
1. 使用的数据类型与规模
2. 数据过滤与安全性考虑
为了确保数据的安全性和适用性,我们采用了与Gemma 1相同的数据过滤技术。具体来说,我们过滤了预训练数据集以减少不需要或不安全的表达,过滤掉某些个人信息或其他敏感数据,从我们的预训练数据混合中去除评估集的污染,并通过最小化敏感输出的传播来减少背诵的风险。
3. 计算基础设施与优化技术
我们的模型是在TPUv4、TPUv5e和TPUv5p上训练的。具体来说,2B模型在TPUv5e的2x16x16配置上训练,总共使用了512个芯片;9B模型在TPUv4的8x16x32配置上训练,使用了4096个芯片;而27B模型则在TPUv5p的8x24x32配置上训练,使用了6144个芯片。我们还使用了类似于ZeRO-3的技术进一步分片优化器状态。对于超过单个pod的规模,我们在数据中心网络上执行数据副本减少,使用了Pathways方法和单控制器编程范式。此外,我们还使用了GSPMD分区器进行训练步骤计算,以及MegaScale XLA编译器。
模型性能与评估
1. 预训练与指令调优模型的性能
预训练模型和指令调优模型(IT模型)在多个自动化基准测试和人类评估中展示了显著的性能。例如,Gemma 2模型在Chatbot Arena评估中表现优异,其27B模型的Elo评分高于多个竞争模型。此外,这些模型在处理多轮对话和遵循指令的能力上也有所提升,显示出与之前版本相比的显著改进。
2. 人类评估与自动化基准测试
Gemma 2模型在多种领域进行了广泛的评估,包括自动化基准测试和人类偏好评估。在自动化基准测试中,Gemma 2的27B模型与其他大小相近的模型相比表现出色,甚至与训练时间更长、参数量更大的模型竞争。在人类评估方面,Gemma 2模型在Chatbot Arena中的表现尤为突出,其中27B模型的Elo评分超过了多个竞争模型。
3. 知识蒸馏对小模型性能的影响
知识蒸馏是一种有效的技术,可以显著提升小模型的性能。通过使用大模型作为教师模型,小模型可以在训练过程中学习到更丰富的信息,从而提高其性能。例如,Gemma 2的2B和9B模型通过知识蒸馏训练,与以往版本相比,在多个基准测试中显示出了10%的性能提升。这证明了即使在相同的训练代币数量下,知识蒸馏也能显著提高模型的质量和效果。
安全性、隐私与责任
1. 模型的隐私保护与数据安全
在大型语言模型的开发和部署过程中,隐私保护和数据安全是不可或缺的考虑因素。Gemma 2模型在训练阶段采用了多种数据过滤技术,以减少不希望或不安全的表达的风险。特别是,它们过滤掉了某些个人信息或其他敏感数据,以防止这些数据在模型训练过程中被不当使用。此外,为了减少模型输出中的敏感信息,Gemma 2还实施了严格的输出监控机制,确保不会泄露用户的私人信息。
2. 安全政策与训练时的缓解措施
Gemma 2的开发团队采取了多项措施来确保模型的安全性,包括在模型的训练和微调阶段采用安全策略和缓解措施。这些措施旨在防止模型生成有害内容,例如儿童性虐待和剥削内容、揭露可能导致伤害的个人身份信息、仇恨言论和骚扰以及危险或恶意内容。通过这些综合性的安全策略,Gemma 2能够在多种使用场景中提供更为安全的应用保障。
3. 对模型潜在风险的评估与管理
对于Gemma 2模型的潜在风险,开发团队进行了全面的评估和管理。这包括使用外部基准评估模型的安全性能,以及运行保证评估来理解模型可能造成的伤害。例如,Gemma 2在多个安全基准上的表现优于先前的模型,特别是在儿童安全内容上的违规率显著降低。此外,团队还评估了模型在生物、放射性和核风险方面的知识水平,确保模型不会被用于不当用途。
通过这些综合性的措施,Gemma 2不仅在功能性能上有所提升,同时也在安全性、隐私保护和责任性方面设立了新的标准,确保技术的积极影响最大化,同时降低潜在的负面影响。
本文转载自,作者: