Archive 2023 年 10 月 13 日

Layer Norm 与 RMS Norm 的区别

Norm即Normalization,是对数据进行归一化的一种操作,一般是将数据归一化到“平均为0,方差为1”的分布中,RMS Norm相比Layer Norm少了一个除以平均数的步骤。 Layer Norm即是直接对层进行正则化,一般有两种,一个是事先正则化(pre norm),一个是事后正则化(post norm)。 事先正则化就是直接对于输入进行正则化,然后再计算结果,事后正则化则是结果计算出来后,再统一进行正则化。 虽然网上有一些资料指出,Post Norm效果要比Pre Norm好,但实际上,目前流行的网络模型中,如模型里,LLaMA、BLOOM用的都是Pre Layer Norm,而ChatGLM用的是Post Deep Norm。 进一步的在LLAMA2中,则进一步改用了RMSNorm,不但效果不错,更重要的是进一步提高了计算效率。

Read More