革新性自我奖励方法:Meta和纽约大学研究团队带来大模型领域的突破

时间:2024-01-22 所属栏目:行业动态 浏览:130
Meta 和纽约大学的研究者成功开发了一种创新的“自我奖励方法”,使大模型能够自行生成并微调自己的数据。这种方法已被证明在 AlpacaEval 2.0 排行榜上优于其他主流大模型,如 Claude 2、Gemini Pro 和 GPT-4。

近期,来自 Meta 和纽约大学的研究者提出了一种革新性的大模型微调方法——"自我奖励方法",这种方法允许大模型自行生成自己的微调数据。该方法已在 arXiv 上发布论文,并在 AlpacaEval 2.0 排行榜上显示出优于 Claude 2、Gemini Pro 和 GPT-4 等重要大模型的性能。

大模型自我奖励

传统上,利用人类偏好数据微调大语言模型(LLM)能显著提高预训练模型的性能。OpenAI 在 GPT 系列中采用了人类反馈强化学习(RLHF)的方法,通过从人类偏好中学习奖励模型,然后将奖励模型冻结,用于训练 LLM。然而,这种方法受到人类偏好数据规模和质量的限制,且在 RLHF 的情况下,还受到训练奖励模型质量的影响。

Meta 的研究团队提出了一种新的方法,训练一个在 LLM 调整期间不断更新的自我改进的奖励模型。这种方法的关键在于开发一个拥有所需所有能力的智能体,既充当遵循模型的指令,又能生成和评估新指令,以此来改进自身。

在实验中,研究者使用了 Llama 2 70B 作为基础模型,并进行了三次迭代微调。实验结果显示,自奖励 LLM 对齐不仅提高了指令跟随表现,奖励建模能力也得到了提高。这意味着模型可以在每次迭代中为自己提供更高质量的偏好数据集。

大模型自我奖励

此方法的实验结果在 AlpacaEval 2 排行榜上显示出显著的进步。模型优于现有的许多重要模型,包括 Claude 2、Gemini Pro 和 GPT4 0613。研究者指出,这种自我奖励的训练方式不仅提高了模型的指令跟踪能力,也提高了其在迭代中的奖励建模能力。

尽管这只是初步研究,但这种方法为大模型未来的发展提供了新的可能性,特别是在提高模型自我评估和自我改进的能力方面。这不仅为大模型领域带来了新的震撼,也为未来更复杂的判断和验证方法铺平了道路。

更多行业动态、技术前沿、AI数字人及AI教程等资讯,尽在智慧大脑!我们将持续为您提供最新资讯和深度见解,欢迎定期回访,以保持知识的更新。如果您有任何问题、建议或反馈,请随时与我们联系,再次感谢您一直以来的支持与关注!

文章标签: AI大模型 AI技术