大规模语言模型:从理论到实践


大语言模型(Large Language Models,LLM)是一种由包含数百亿以上权重的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标记文本进行训练。

自2018年以来,包含Google、OpenAI、Meta、百度、华为等公司和研究机构都纷纷发布了包括BERT, GPT等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。

2021年开始大模型呈现爆发式的增长,特别是2022年11月ChatGPT发布后,更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互,从而实现包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。

大型语言模型展现出了强大的对世界知识掌握和对语言的理解。

https://intro-llm.github.io/

复旦大学计算机科学技术学院张奇教授,会同计算语言学研究院桂韬青年副研究员、计算机科学技术学院博士研究生郑锐、以及计算机科学技术学院黄萱菁教授,2023年9月发布了一本在线免费的电子书。

这本书的名称叫做《大规模语言模型:从理论到实践》,全书297页,系统介绍了大语言模型的基础理论包括语言模型、分布式模型训练以及强化学习,并以Deepspeed-Chat框架为例介绍实现大语言模型和类ChatGPT系统的实践。

该书围绕大语言模型构建的四个主要阶段:预训练、有监督微调、奖励建模和强化学习,详细介绍各阶段使用的算法、数据、难点以及实践经验。

该书为对大语言模型感兴趣的读者提供了一个入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分的补充教材。

这本书的主题属当前的热点和热门话题。采用免费电子书的形式发布自己的研究成果,在国内学术界并不普遍。

张奇、桂韬、郑锐、黄萱菁,《大语言模型理论与实践》

https://intro-llm.github.io/, 2023.

衷心感谢张奇教授团队

中山大学校园 Photo by Johnnie Walker