ScholarGate
助手

自然语言处理

自然语言处理是人工智能领域的一个分支,旨在使计算机能够分析、理解和生成文本或语音形式的人类语言。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

自然语言处理是研究和设计方法,使计算机能够在人类语言及其形式和意义的结构化表示之间进行映射,支持从解析和翻译到抽取和生成的各种任务。

Scope

该领域涵盖了人类语言在各个结构层面的计算处理:形态学和句法(解析)、语义和意义表示、语篇,以及机器翻译和信息抽取等应用。它涉及语言的形式模型(语法、逻辑和分布式意义表示)以及分析和生成语言的任务。训练现代语言模型的通用统计和神经网络学习方法属于机器学习子领域;该领域强调语言特有的语言结构、任务和表示。

Sub-topics

Core questions

  • 如何从词序列中恢复句子的语法结构?
  • 如何以计算方式表示词语、句子和语篇的意义?
  • 如何利用上下文解决语言各个层面普遍存在的歧义?
  • 如何将语言理解能力转化为翻译和抽取等应用?

Key concepts

  • 形态学和分词
  • 句法和解析
  • 语义和意义表示
  • 歧义和消歧
  • 语篇和语用学
  • 语言模型
  • 机器翻译
  • 信息抽取

Key theories

语言分析的层次
语言在不同但相互作用的层面进行分析——语音学、形态学、句法、语义学、语用学和语篇——自然语言处理系统围绕着恢复这些层面的结构和意义而组织。
语法和解析
形式语法,特别是上下文无关语法和更丰富的形式主义,对语言的句法结构进行建模,而解析算法则恢复该结构,为意义分析提供了骨干。
统计和分布式语言建模
以概率方式处理语言——对词序列的可能性进行建模并通过分布式上下文表示词义——使自然语言处理对歧义和变异具有鲁棒性,并成为主导范式。

Clinical relevance

自然语言处理为搜索引擎、机器翻译、问答和聊天系统、语音识别和对话、情感分析以及从生物医学和法律等领域的文本中提取结构化信息提供支持,使其成为人工智能领域中最引人注目的应用之一。

History

自然语言处理始于20世纪50年代的机器翻译和60-70年代的符号系统,例如Winograd的SHRDLU。统计方法从20世纪80年代末开始崭露头角,并在Manning和Schütze(1999)等著作中得到巩固,后来神经网络和大规模语言模型方法彻底改变了该领域;其任务和语言基础仍然是人工智能的标准组成部分。

Debates

符号方法与统计和神经网络方法
自然语言处理长期以来一直在手工构建的符号语法和规则与数据驱动的统计或神经网络模型之间摇摆;统计学转向和后来的神经网络方法因其鲁棒性而占据主导地位,尽管关于可解释性和整合语言结构的问题仍然存在。

Key figures

  • Daniel Jurafsky
  • James H. Martin
  • Christopher D. Manning
  • Terry Winograd
  • Karen Spärck Jones

Related topics

Seminal works

  • winograd1972
  • manning1999
  • jurafsky2023

Frequently asked questions

自然语言处理和计算语言学有什么区别?
这两个术语有很大的重叠。计算语言学强调利用计算来理解和建模人类语言作为一种科学现象,而自然语言处理则强调工程化系统以执行有用的语言任务。实际上,相同的模型和方法服务于这两个目标。
为什么歧义是自然语言处理中的一个核心问题?
人类语言在各个层面都存在歧义:词语有多种含义,句子有多种解析方式,指代可能不明确。自然语言处理的很大一部分是利用上下文和概率或学习模型来选择人类会选择的解释,这也是该领域困难的原因。

Methods for this concept

Related concepts