新闻资讯

用于长文本建模的记忆增强检索 MemLong
用于长文本建模的记忆增强检索 MemLong

​一、结论写在前面论文标题,MemLong,Memory,AugmentedRetrievalforLongTextModeling论文链接,https,arx...

+查看全文

15 2024-11

清华大学提出1
清华大学提出1

在深度神经网络的训练过程中,全量化训练,FullyQuantizedTraining,FQT,通过将激活值、权重和梯度量化到较低的精度,显著加速了训练过程,随着...

+查看全文

15 2024-11

再战Transformer!原作者带队的Mamba 新架构训练效率大幅提升 2来了
再战Transformer!原作者带队的Mamba 新架构训练效率大幅提升 2来了

自2017年被提出以来,Transformer已经成为AI大模型的主流架构,一直稳居语言建模方面C位,但随着模型规模的扩展和需要处理的序列不断变长,Transf...

+查看全文

14 2024-11

OpenAI Madry Preparedness团队首席Aleksander 机器学习模型的内部计算如何将输入转化为预测
OpenAI Madry Preparedness团队首席Aleksander 机器学习模型的内部计算如何将输入转化为预测

考虑一个标准的ResNet50模型,该模型经过训练用于图像分类任务,我们是否能够理解这个模型中的卷积滤波器如何将输入图像转换为其预测的标签,或者,GPT,3中的...

+查看全文

14 2024-11