作者:Gerhard Paaß,德国弗劳恩霍夫智能分析与信息系统研究所;
Sven Giesselbach,德国弗劳恩霍夫智能分析与信息系统研究所
这本开放获取图书全面概述了自然语言处理(NLP)的基础模型研究和应用的最新技术水平,适用于熟悉基本自然语言处理概念的读者。
近年来,NLP预训练模型开发了一种革命性的新范式。这些模型首先在大量文本文档上进行预训练,以获得一般句法知识和语义信息。然后会针对特定任务进行微调,新范式通常可以以超人的准确度解决这些任务。当模型足够大时,可以通过提示来指导它们解决新任务,而无需任何微调。此外,它们可以应用于广泛的不同媒体和问题领域,从图像和视频处理到机器人控制学习。因为它们为解决人工智能中的许多任务提供了蓝图,所以它们被称为基础模型。
在简要介绍了基本NLP模型之后,本书介绍了主要的预训练语言模型 BERT、GPT 和序列到序列转换器,以及自注意力和上下文敏感嵌入的概念。进而讨论了改进这些模型的不同方法,例如扩展预训练标准、增加输入文本的长度或包括额外的知识。作者同时概述了相关应用领域的最佳表现模型,例如,问答、翻译、故事生成、对话系统、从文本生成图像等。此外,作者还提供了指向免费程序代码的链接。最后总结了人工智能的经济机遇、风险缓解和潜在发展。