GPU和CPU如何混合训练大模型训练的GPU联手CPU显存优化分析方法

发布时间：2024-11-15 01:22:39点击：

如果使用fluid.CUDAPlace指定了全局的运行设备，飞桨将会自动把支持GPU计算的OP分配在GPU上执行，然而当模型参数量过大并且显存有限时，很可能会遇到显存超出的情况。如下面的示例代码，embedding层的参数size包含两个元素，第一个元素为vocab_size(词表大小)，第二个为emb_size（embedding层维度）。实际场景中，词表可能会非常大。示例代码中，词表大小被设置为10,000,000，该层创建的权重矩阵的大小为(10000000, 150)，仅这一层就需要占用5.59G的显存。如果再加上其他的网络层，在这种大词表场景下，很有可能会显存超出。

上一篇 : 推荐！精选五大GPT模型提升智能交互体验
下一篇 : 文本直接生成多视角3D图像 Meta推出创新模型