和计算机编程语言不同,自然语言并不会被翻译成一组有限的数学运算集合。人类利用自然语言分享信息,而不会使用编程语言谈天说地或者指引去杂货店的路。用编程语言编写的计算机程序会清楚地告诉机器做什么,而对于像英语或者法语这样的自然语言,并没有所谓的编译器或解释器将它们翻译成机器指令。
定义
自然语言处理是计算机科学和人工智能(artificial intelligence,AI)的一个研究领域,它关注自然语言(如英语或汉语普通话)的处理。这种处理通常包括将自然语言转换成计算机能够用于理解这个世界的数据(数字)。同时,这种对世界的理解有时被用于生成能够体现这种理解的自然语言文本(即自然语言生成)[1]。
尽管如此,本章还是介绍机器如何能够对自然语言进行处理这一过程。我们甚至可以把该处理过程看成是自然语言的解释器,就如同Python的解释器一样。在开发计算机程序处理自然语言时,它能够在语句上触发动作甚至进行回复。但是这些动作和回复并没有精确定义,这让自然语言“流水线”的开发者拥有更多的灵活性。
定义
自然语言处理系统常常被称为“流水线”(pipeline),这是因为该系统往往包括多个处理环节,其中自然语言从“流水线”的一端输入,处理后的结果从另一端输出。
很快大家就有能力编写软件来做一些有趣的、出乎意料的事情,例如,可以让机器有点儿像人一样进行对话。这看起来可能有点儿像魔术,是的,所有的先进技术最初看起来都有点儿像魔术。但是,我们会拉开魔术背后的“帷幕”让大家一探究竟,这样大家很快就会知道自己变出这些魔术所需要的所有道具和工具。
一旦知道答案,一切都很简单。
——Dave Magee自然语言模型,佐治亚理工学院,1995
自然语言处理选择哪些书?
《Python自然语言处理NLP入门到实战》
本书是介绍自然语言处理(NLP)和深度学习的实战书。NLP已成为深度学习的核心应用领域自然语言模型,而深度学习是NLP研究和应用中的必要工具。本书分为3部分:第一部分介绍NLP基础,包括分词、TF-IDF向量化以及从词频向量到语义向量的转换;第二部分讲述深度学习,包含神经网络、词向量、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆(LSTM)网络、序列到序列建模和注意力机制等基本的深度学习模型和方法;第三部分介绍实战方面的内容,包括信息提取、问答系统、人机对话等真实世界系统的模型构建、性能挑战以及应对方法。
本书面向中高级Python开发人员,兼具基础理论与编程实战,是现代NLP领域从业者的实用参考书。
路线图
如果你是Python和自然语言处理的新手,那么应该首先阅读第一部分,然后阅读第三部分中感兴趣或工作中遇到的实际有挑战性的章节。如果想快速了解深度学习支持的NLP功能,还需要按顺序阅读第二部分,这部分内容可以帮大家建立对神经网络的初步理解,并逐步提高神经网络的复杂性和能力。
Python自然语言处理
根据读者知识背景和学习NLP的动机不同,从本书中获得的技能和知识也将不同,详情见表P-1。
表P-1目标和背景不同的读者,阅读本书可获得的技能和知识
目标
艺术与人文背景
科学与工程背景
语言分析
操控大型语料库,设计语言模型,验证由经验得出的假设
使用数据建模、数据挖掘和知识发掘的技术来分析自然语言
语言技术
应用NLP技术构建高效的系统来处理语言学任务
在高效的语言处理软件中使用语言学算法和数据结构
《Python自然语言处理》是自然语言处理领域的一本实用入门指南,旨在帮助读者学习如何编写程序来分析书面语言。《Python自然语言处理》基于Python编程语言以及一个名为NLTK的自然语言工具包的开源库,但并不要求读者有Python编程的经验。全书共11章,按照难易程度顺序编排。第1章到第3章介绍了语言处理的基础,讲述如何使用小的Python程序分析感兴趣的文本信息。第4章讨论结构化程序设计,以巩固前面几章中介绍的编程要点。第5章到第7章介绍语言处理的基本原理,包括标注、分类和信息提取等。第8章到第10章介绍了句子解析、句法结构识别和句意表达方法。第11章介绍了如何有效管理语言数据。后记部分简要讨论了NLP领域的过去和未来。
数学知识补充
数学之美 第三版
这是一本备受推崇的经典科普作品,被众多机构推荐为数学学科的敲门砖,是信息领域大学生的必读好书。
读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。
本书为何用了不少篇幅来介绍很多作者所熟知的自然语言处理和通信领域的世界级专家。这些世界级专家,他们来自不同的国家或民族,不过都有着一个共同的特点,那就是他们的数学基础都特别好,同时运用数学解决了很多实际问题。通过介绍他们日常的工作和生活,希望能让读者对真正的世界级学者有更多的了解和理解。
机器学习的数学
本书对各章的知识结构进行了总结和梳理,让读者不仅能理解细节,更能知全局,从全局层面把握数学知识,建立起整体知识结构,也有助于加深理解。
下图是最优化方法的知识体系:
下图是信息论的知识体系:
本书的目标是帮助读者全面、系统地学习机器学习所必须的数学知识。全书由8章组成,力求精准、最小地覆盖机器学习的数学知识。包括微积分,线性代数与矩阵论,最优化方法,概率论,信息论,随机过程,以及图论。本书从机器学习的角度讲授这些数学知识,对它们在该领域的应用举例说明,使读者对某些抽象的数学知识和理论的实际应用有直观、具体的认识。 本书内容紧凑,结构清晰,深入浅出,讲解详细。可用作计算机、人工智能、电子工程、自动化、数学等相关专业的教材与教学参考书。对人工智能领域的工程技术人员与产品研发人员,本书也有很强的参考价值。对于广大数学与应用的数学爱好者,本书亦为适合自学的读本。
———END———
限 时 特 惠:本站每日持续更新海量各大内部创业教程,一年会员只需128元,全站资源免费下载点击查看详情
站 长 微 信:jiumai99