Language Models are Few-Shot Learners: 开箱即用的GPT-3(三)
Result前面的两个部分介绍了背景,模型的情况和一些测试的方法,这一章就是展示各种尺寸的模型,包括175B的GPT-3在各种任务下的测试情况了。power-law第三章一上来,就用了14不同尺寸的模型来验证这个cross-entropy的线性提升与模型尺寸的指数关系(从最小的100000个参数,一只上升到175B的GPT-3,从10的5次方一直测试到10的11次方),从更大的尺度上来验证这个结论