Lexikalische Datenbanken und Ontologien
Maschinenlesbare Inventare von Wortbedeutungen und deren Beziehungen – WordNet, FrameNet und verwandte Ontologien –, die Computersystemen einen strukturierten Zugang zur lexikalischen Semantik ermöglichen.
Definition
Eine lexikalische Datenbank oder Ontologie ist eine strukturierte Ressource, die Wortbedeutungen und die semantischen Beziehungen zwischen ihnen in einer für Computerprogramme nutzbaren Form erfasst.
Scope
Behandelt den Entwurf und die Nutzung lexikalisch-semantischer Ressourcen: WordNet-Synsets und hierarchische Beziehungen, FrameNet-Semantikrahmen und -rollen sowie breitere computergestützte Ontologien. Es wird erörtert, wie solche Ressourcen Synonymie, Hyperonymie und Prädikat-Argument-Strukturen kodieren und wie sie Disambiguierung und Inferenz unterstützen. Distributionale und neuronale lexikalische Semantik werden unter dem Begriff „Computerlinguistische Semantik“ behandelt.
Core questions
- Wie organisiert WordNet Bedeutungen in Synsets, die durch lexikalische Beziehungen verbunden sind?
- Wie stellt FrameNet Bedeutung in Form von Frames und Rollen dar?
- Wie werden diese Ressourcen zur Wortbedeutungsdisambiguierung und Ähnlichkeitsbestimmung genutzt?
- Welche Grenzen haben manuell erstellte lexikalische Ontologien?
Key concepts
- Synset
- Hyperonymie und Hyponymie
- Meronymie
- semantischer Frame
- Frame-Element
- Wortbedeutungsdisambiguierung
- lexikalische Ontologie
- Prädikat-Argument-Struktur
Key theories
- Synset-basierte lexikalische Organisation
- Modellierung des Lexikons als Mengen von Synonymen (Synsets), die durch Beziehungen wie Hyperonymie und Meronymie verbunden sind, wie in WordNet, wodurch der Wortbedeutung eine Graphenstruktur verliehen wird.
- Frame-Semantik
- Darstellung der Wortbedeutung über die Situationen (Frames), die sie hervorruft, und die darin enthaltenen Teilnehmerrollen, operationalisiert als lexikalische Ressource in FrameNet.
History
WordNet, das in den 1980er Jahren von George Millers Gruppe begonnen und 1995 sowie 1998 dokumentiert wurde, entwickelte sich zur am weitesten verbreiteten lexikalischen Ressource in der Computerlinguistik. Fillmores Frame-Semantik wurde Ende der 1990er Jahre als FrameNet operationalisiert und ergänzte WordNet um eine explizite Prädikat-Argument-Struktur.
Debates
- Manuell erstellte Ressourcen versus gelernte Repräsentationen
- Die Frage, ob kuratierte lexikalische Datenbanken im Zeitalter gelernter Embeddings weiterhin wertvoll sind; viele argumentieren, dass sie immer noch eine interpretierbare Struktur und eine Ground Truth bieten, die distributional models fehlen.
Key figures
- George Miller
- Christiane Fellbaum
- Charles Fillmore
- Collin Baker
Related topics
Seminal works
- miller1995
- fellbaum1998
- baker1998
Frequently asked questions
- Was ist ein Synset in WordNet?
- Ein Synset ist eine Menge von Wörtern, die in einem bestimmten Kontext austauschbar sind – Synonyme –, als einzelnes Konzept gruppiert und durch Beziehungen wie „ist-ein“ und „Teil-von“ mit anderen Synsets verknüpft.