Maschinelle Übersetzung
Maschinelle Übersetzung ist die automatische Umwandlung von Text oder Sprache von einer natürlichen Sprache in eine andere und eine der ältesten und prominentesten Anwendungen der natürlichen Sprachverarbeitung.
Definition
Maschinelle Übersetzung ist die Aufgabe, für einen Satz in einer Ausgangssprache einen äquivalenten Satz in einer Zielsprache zu erstellen, unter Verwendung von Systemen, die regelbasiert, statistisch oder neuronal sein können und hinsichtlich Adäquatheit und Flüssigkeit evaluiert werden.
Scope
Dieses Thema behandelt Ansätze zur automatischen Übersetzung: regelbasierte und Interlingua-Systeme, wort- und phrasenbasierte statistische maschinelle Übersetzung mit Alignment-Modellen und Sprachmodellen sowie das neuronale Sequenz-zu-Sequenz-Paradigma; daneben die zentralen Probleme der Wortausrichtung, Flüssigkeit versus Adäquatheit und automatische Evaluierung mit Metriken wie BLEU. Es wird erörtert, warum Übersetzung schwierig ist (Ambiguität, Divergenz zwischen Sprachen, Wortstellung) und wie Qualität gemessen wird. Die allgemeinen neuronalen Trainingsmethoden gehören zum Unterfeld des maschinellen Lernens.
Core questions
- Was macht Übersetzung schwierig, angesichts lexikalischer Ambiguität und struktureller Divergenz zwischen Sprachen?
- Wie werden Wort- und Phrasenentsprechungen (Alignments) aus parallelem Text gelernt?
- Wie wägen statistische und neuronale Übersetzungsmodelle Adäquatheit und Flüssigkeit ab?
- Wie wird die Übersetzungsqualität automatisch und zuverlässig gemessen?
Key concepts
- Ausgangs- und Zielsprache
- parallele Korpora
- Wort- und Phrasen-Alignment
- Übersetzungsmodell und Sprachmodell
- statistische maschinelle Übersetzung
- neuronale Sequenz-zu-Sequenz-Übersetzung
- Adäquatheit und Flüssigkeit
- BLEU und automatische Evaluierung
Key theories
- Statistische maschinelle Übersetzung
- Statistische MT modelliert Übersetzung als das Finden des Zielsatzes, der die Wahrscheinlichkeit bei gegebener Quelle maximiert, zerlegt über ein Übersetzungsmodell, das aus Wort-/Phrasen-Alignments in parallelen Korpora gelernt wird, und ein Zielsprachenmodell für die Flüssigkeit.
- Wort-Alignment
- Das Lernen, welche Quellwörter welchen Zielwörtern aus parallelem Text entsprechen (die IBM-Alignment-Modelle), ist eine grundlegende Komponente, die die beiden Sprachen verbindet und die Phrasenextraktion unterstützt.
- Automatische Evaluierung
- Metriken wie BLEU vergleichen die Systemausgabe mit menschlichen Referenzübersetzungen anhand von N-Gramm-Überlappungen, was eine schnelle, wiederholbare Evaluierung ermöglichte, die den Fortschritt vorantrieb, während bekannte Einschränkungen im Vergleich zum menschlichen Urteilsvermögen anerkannt werden.
Clinical relevance
Maschinelle Übersetzung gehört zu den am weitesten verbreiteten KI-Technologien, die in Such-, Kommunikations- und Inhaltsplattformen integriert sind, den sprachübergreifenden Zugang zu Informationen ermöglichen und Tools für Übersetzer unterstützen; ihre Evaluierungsmethodik beeinflusste auch die Evaluierung im gesamten NLP-Bereich.
History
Die maschinelle Übersetzung begann mit Weavers Memorandum von 1949 und frühen regelbasierten Systemen, überstand die Skepsis nach dem ALPAC-Bericht von 1966, wurde dann durch IBMs statistische Modelle (Brown et al., 1993) und phrasenbasierte SMT transformiert und erneut durch neuronale Sequenz-zu-Sequenz- und auf Aufmerksamkeit basierende Modelle ab Mitte der 2010er Jahre. BLEU (2002) standardisierte die Evaluierung durchgängig.
Key figures
- Peter F. Brown
- Robert L. Mercer
- Philipp Koehn
- Kishore Papineni
- Warren Weaver
Related topics
Seminal works
- brown1993
- papineni2002
- koehn2010
Frequently asked questions
- Was misst der BLEU-Score?
- BLEU misst, wie stark eine maschinelle Übersetzung in Bezug auf übereinstimmende Wortsequenzen (N-Gramme) mit einer oder mehreren menschlichen Referenzübersetzungen überlappt, wobei eine Strafe für zu kurze Übersetzungen verhängt wird. Er korreliert einigermaßen gut mit menschlichen Urteilen und ermöglicht einen schnellen automatischen Vergleich, obwohl er Bedeutung oder Flüssigkeit nicht vollständig erfasst.
- Warum gilt maschinelle Übersetzung als schwierig?
- Sprachen unterscheiden sich in Vokabular, Wortstellung, Morphologie und den erforderlichen Unterscheidungen, und einzelne Wörter und Sätze sind oft mehrdeutig. Eine Übersetzung zu erstellen, die sowohl dem ursprünglichen Sinn treu bleibt als auch in der Zielsprache natürlich klingt, erfordert die gleichzeitige Lösung dieser Probleme, was schwierig ist.