Natürliche Sprachverarbeitung
Die natürliche Sprachverarbeitung ist der Bereich der künstlichen Intelligenz, der sich damit befasst, Computern die Analyse, das Verstehen und die Generierung menschlicher Sprache in Text oder Rede zu ermöglichen.
Definition
Die natürliche Sprachverarbeitung ist die Untersuchung und Entwicklung von Methoden, die es Computern ermöglichen, menschliche Sprache und strukturierte Repräsentationen ihrer Form und Bedeutung abzubilden, und unterstützt Aufgaben vom Parsing und der Übersetzung bis zur Extraktion und Generierung.
Scope
Dieser Bereich umfasst die computergestützte Verarbeitung menschlicher Sprache über ihre Strukturebenen hinweg: Morphologie und Syntax (Parsing), Semantik und Bedeutungsrepräsentation, Diskurs sowie Anwendungen wie maschinelle Übersetzung und Informationsextraktion. Er behandelt die formalen Modelle der Sprache (Grammatiken, logische und distributionelle Bedeutungsrepräsentationen) und die Aufgaben der Analyse und Produktion von Sprache. Die allgemeinen statistischen und neuronalen Lernmethoden, die moderne Sprachmodelle trainieren, sind Teil des Unterfeldes des maschinellen Lernens; dieser Bereich betont die linguistische Struktur, Aufgaben und Repräsentationen, die spezifisch für die Sprache sind.
Sub-topics
Core questions
- Wie wird die grammatische Struktur eines Satzes aus einer Wortfolge wiederhergestellt?
- Wie kann die Bedeutung von Wörtern, Sätzen und Diskursen computergestützt dargestellt werden?
- Wie wird Mehrdeutigkeit, die auf jeder Sprachebene allgegenwärtig ist, mithilfe des Kontexts aufgelöst?
- Wie werden Sprachverständnisfähigkeiten in Anwendungen wie Übersetzung und Extraktion umgesetzt?
Key concepts
- Morphologie und Tokenisierung
- Syntax und Parsing
- Semantik und Bedeutungsrepräsentation
- Mehrdeutigkeit und Disambiguierung
- Diskurs und Pragmatik
- Sprachmodelle
- Maschinelle Übersetzung
- Informationsextraktion
Key theories
- Ebenen der linguistischen Analyse
- Sprache wird auf verschiedenen, aber interagierenden Ebenen analysiert – Phonologie, Morphologie, Syntax, Semantik, Pragmatik und Diskurs – und NLP-Systeme sind darauf ausgelegt, Struktur und Bedeutung auf diesen Ebenen wiederherzustellen.
- Grammatiken und Parsing
- Formale Grammatiken, insbesondere kontextfreie und reichere Formalismen, modellieren die syntaktische Struktur der Sprache, und Parsing-Algorithmen stellen diese Struktur wieder her und bilden ein Rückgrat für die Bedeutungsanalyse.
- Statistische und distributionelle Sprachmodellierung
- Die probabilistische Behandlung von Sprache – die Modellierung der Wahrscheinlichkeit von Wortsequenzen und die Darstellung der Wortbedeutung durch den distributionellen Kontext – verlieh NLP Robustheit gegenüber Mehrdeutigkeit und Variation und wurde zum dominanten Paradigma.
Clinical relevance
Die natürliche Sprachverarbeitung treibt Suchmaschinen, maschinelle Übersetzung, Frage-Antwort- und Chatsysteme, Spracherkennung und Dialog, Stimmungsanalyse und die Extraktion strukturierter Informationen aus Texten in Bereichen wie Biomedizin und Recht an, was sie zu einem der sichtbarsten Einsatzgebiete der KI macht.
History
NLP begann mit der maschinellen Übersetzung in den 1950er Jahren und den symbolischen Systemen der 1960er-70er Jahre, wie Winograds SHRDLU. Statistische Methoden gewannen ab den späten 1980er Jahren an Bedeutung, konsolidiert in Texten wie Manning und Schütze (1999), und neuronale und großskalige Sprachmodellmethoden transformierten später das Feld; ihre Aufgaben und linguistischen Grundlagen bleiben ein Standardbestandteil der KI.
Debates
- Symbolische vs. statistische und neuronale Ansätze
- NLP oszillierte lange zwischen handgefertigten symbolischen Grammatiken und Regeln und datengesteuerten statistischen oder neuronalen Modellen; die statistische Wende und spätere neuronale Methoden dominierten aufgrund ihrer Robustheit, obwohl Fragen der Interpretierbarkeit und der Einbeziehung linguistischer Strukturen bestehen bleiben.
Key figures
- Daniel Jurafsky
- James H. Martin
- Christopher D. Manning
- Terry Winograd
- Karen Spärck Jones
Related topics
Seminal works
- winograd1972
- manning1999
- jurafsky2023
Frequently asked questions
- Was ist der Unterschied zwischen natürlicher Sprachverarbeitung und Computerlinguistik?
- Die Begriffe überschneiden sich stark. Computerlinguistik betont die Verwendung von Berechnungen, um menschliche Sprache als wissenschaftliches Phänomen zu verstehen und zu modellieren, während die natürliche Sprachverarbeitung die Entwicklung von Systemen betont, die nützliche Sprachaufgaben ausführen. In der Praxis dienen dieselben Modelle und Methoden beiden Zielen.
- Warum ist Mehrdeutigkeit ein so zentrales Problem in der NLP?
- Menschliche Sprache ist auf jeder Ebene mehrdeutig: Wörter haben mehrere Bedeutungen, Sätze haben mehrere Parsings, und Referenzen können unklar sein. Ein Großteil der NLP besteht darin, Kontext und probabilistische oder gelernte Modelle zu verwenden, um die Interpretation zu wählen, die ein Mensch wählen würde, was das Feld schwierig macht.