前言
文本信息抽取是自然语言处理领域的重要研究方向之一,也是人工智能领域极具应用价值的核心研究课题。文本信息抽取作为分析、抽取、管理文本知识的核心技术和重要手段,自诞生以来就得到了学术界与工业界的广泛关注。从非结构化文本中抽取出以结构化形式存储的信息,可以被计算机直接处理和利用,实现让机器能够像人类一样阅读文本,进而完成查询和推理等功能,一直是文本信息抽取追求的目标。现如今,信息抽取系统可应对海量非结构化文本,在各领域都有广泛的应用,数十年中依然是研究者前赴后继投身其中的奋斗目标。
随着计算机的普及以及互联网的迅猛发展,文本数据量迅速增长,大量的信息以电子文档的形式存储在计算机里,使得文本信息抽取技术研究具有充足的数据资源和广阔的应用场景。一方面,促进现有的研究工作表现出百花齐放、争奇斗艳的景象,正所谓“草树知春不久归,百般红紫斗芳菲。杨花榆荚无才思,惟解漫天作雪飞。”另一方面,这种海量数据和信息爆炸式的发展趋势也让文本信息抽取技术研究面临诸多挑战与难题,包括新研究场景下产生的新问题和悬而未决的原有科学难题。我们希望从纷繁复杂的研究工作中,帮助对这一领域感兴趣的读者梳理出一条相对清晰的研究路径。本书所探讨的内容既包括关系抽取、事件抽取这样的传统研究,也包括实体关系联合抽取、事件模板构建这样的基础任务,还涉及时下研究和应用热度持续升高的知识图谱、知识应用等重要方向。本书尽量选取领域中具有代表性的研究工作加以介绍。这些研究工作所涉及的也是人们日常生活当中实实在在能够接触到的应用场景,大部分研究方向直接见证了人工智能技术的发展过程。同时,由于文本信息抽取的研究特点,几乎所有的任务都会定期举办对应的国际/国内公开评测,也有公开发布的训练数据集、开源平台等资源供业界人士共享。本书尽可能在相关章节将这些评测、资源等相关信息列举出来,以飨读者。
本书共11章,在章节的组织上,针对文本信息抽取的典型研究方向,尽可能梳理出每个方向的问题描述、最新关键技术及未来趋势。第1章绪论部分介绍了本书的研究背景及意义,并对本书拟解决的研究问题进行了详细描述和形式化定义。第2、3章分别介绍本书主要用到的自然语言处理相关基础理论知识以及信息抽取相关评测和标注资源。第4~6章围绕实体间的关系,从联合实体识别的关系抽取、弱监督的关系抽取、基于知识迁移的关系抽取三个角度,分析相关典型理论模型并概述现有研究的不足。第7、8章围绕更为复杂的事件结构,从多实例联合的事件抽取和无监督的事件模板推导两个方面,分析文本中事件和模板的建模方式和经典理论模型,概述现有研究的缺陷。综合第4~8章,第9、10章分别从图谱构建和图谱知识应用两个方面探索信息抽取在知识图谱中的应用。第11章对全书进行了总结,并展望了未来的研究趋势。诚挚感谢电子工业出版社编辑牛平月老师及审校人员为本书出版所付出的辛勤工作。感谢长期以来对我们团队工作给予大力支持和帮助的各位同仁。
众所周知,文本信息抽取涉及众多研究内容,限于篇幅和学识,本书无法一一涵盖,仅是抛砖引玉,希望与“咬定青山不放松,立根原在破岩中”的同行学者一起,在文本信息抽取的浩瀚海洋中,共同寻求“吹尽狂沙始到金”的快乐。由于作者水平有限,加之时间和精力不足,书中难免存在疏漏或错误之处,诚心欢迎各位同仁和读者给予批评指正。
编著者
2021年12月于北京