Was misst der BLEU-Score?

BLEU misst, wie stark eine maschinelle Übersetzung in Bezug auf übereinstimmende Wortsequenzen (N-Gramme) mit einer oder mehreren menschlichen Referenzübersetzungen überlappt, wobei eine Strafe für zu kurze Übersetzungen verhängt wird. Er korreliert einigermaßen gut mit menschlichen Urteilen und ermöglicht einen schnellen automatischen Vergleich, obwohl er Bedeutung oder Flüssigkeit nicht vollständig erfasst.

Warum gilt maschinelle Übersetzung als schwierig?

Sprachen unterscheiden sich in Vokabular, Wortstellung, Morphologie und den erforderlichen Unterscheidungen, und einzelne Wörter und Sätze sind oft mehrdeutig. Eine Übersetzung zu erstellen, die sowohl dem ursprünglichen Sinn treu bleibt als auch in der Zielsprache natürlich klingt, erfordert die gleichzeitige Lösung dieser Probleme, was schwierig ist.

Maschinelle Übersetzung

Maschinelle Übersetzung ist die automatische Umwandlung von Text oder Sprache von einer natürlichen Sprache in eine andere und eine der ältesten und prominentesten Anwendungen der natürlichen Sprachverarbeitung.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Maschinelle Übersetzung ist die Aufgabe, für einen Satz in einer Ausgangssprache einen äquivalenten Satz in einer Zielsprache zu erstellen, unter Verwendung von Systemen, die regelbasiert, statistisch oder neuronal sein können und hinsichtlich Adäquatheit und Flüssigkeit evaluiert werden.

Scope

Dieses Thema behandelt Ansätze zur automatischen Übersetzung: regelbasierte und Interlingua-Systeme, wort- und phrasenbasierte statistische maschinelle Übersetzung mit Alignment-Modellen und Sprachmodellen sowie das neuronale Sequenz-zu-Sequenz-Paradigma; daneben die zentralen Probleme der Wortausrichtung, Flüssigkeit versus Adäquatheit und automatische Evaluierung mit Metriken wie BLEU. Es wird erörtert, warum Übersetzung schwierig ist (Ambiguität, Divergenz zwischen Sprachen, Wortstellung) und wie Qualität gemessen wird. Die allgemeinen neuronalen Trainingsmethoden gehören zum Unterfeld des maschinellen Lernens.

Core questions

Was macht Übersetzung schwierig, angesichts lexikalischer Ambiguität und struktureller Divergenz zwischen Sprachen?
Wie werden Wort- und Phrasenentsprechungen (Alignments) aus parallelem Text gelernt?
Wie wägen statistische und neuronale Übersetzungsmodelle Adäquatheit und Flüssigkeit ab?
Wie wird die Übersetzungsqualität automatisch und zuverlässig gemessen?

Key concepts

Ausgangs- und Zielsprache
parallele Korpora
Wort- und Phrasen-Alignment
Übersetzungsmodell und Sprachmodell
statistische maschinelle Übersetzung
neuronale Sequenz-zu-Sequenz-Übersetzung
Adäquatheit und Flüssigkeit
BLEU und automatische Evaluierung

Key theories

Statistische maschinelle Übersetzung: Statistische MT modelliert Übersetzung als das Finden des Zielsatzes, der die Wahrscheinlichkeit bei gegebener Quelle maximiert, zerlegt über ein Übersetzungsmodell, das aus Wort-/Phrasen-Alignments in parallelen Korpora gelernt wird, und ein Zielsprachenmodell für die Flüssigkeit.
Wort-Alignment: Das Lernen, welche Quellwörter welchen Zielwörtern aus parallelem Text entsprechen (die IBM-Alignment-Modelle), ist eine grundlegende Komponente, die die beiden Sprachen verbindet und die Phrasenextraktion unterstützt.
Automatische Evaluierung: Metriken wie BLEU vergleichen die Systemausgabe mit menschlichen Referenzübersetzungen anhand von N-Gramm-Überlappungen, was eine schnelle, wiederholbare Evaluierung ermöglichte, die den Fortschritt vorantrieb, während bekannte Einschränkungen im Vergleich zum menschlichen Urteilsvermögen anerkannt werden.

Clinical relevance

Maschinelle Übersetzung gehört zu den am weitesten verbreiteten KI-Technologien, die in Such-, Kommunikations- und Inhaltsplattformen integriert sind, den sprachübergreifenden Zugang zu Informationen ermöglichen und Tools für Übersetzer unterstützen; ihre Evaluierungsmethodik beeinflusste auch die Evaluierung im gesamten NLP-Bereich.

History

Die maschinelle Übersetzung begann mit Weavers Memorandum von 1949 und frühen regelbasierten Systemen, überstand die Skepsis nach dem ALPAC-Bericht von 1966, wurde dann durch IBMs statistische Modelle (Brown et al., 1993) und phrasenbasierte SMT transformiert und erneut durch neuronale Sequenz-zu-Sequenz- und auf Aufmerksamkeit basierende Modelle ab Mitte der 2010er Jahre. BLEU (2002) standardisierte die Evaluierung durchgängig.

Key figures

Peter F. Brown
Robert L. Mercer
Philipp Koehn
Kishore Papineni
Warren Weaver

Seminal works

brown1993
papineni2002
koehn2010

Frequently asked questions

Was misst der BLEU-Score?: BLEU misst, wie stark eine maschinelle Übersetzung in Bezug auf übereinstimmende Wortsequenzen (N-Gramme) mit einer oder mehreren menschlichen Referenzübersetzungen überlappt, wobei eine Strafe für zu kurze Übersetzungen verhängt wird. Er korreliert einigermaßen gut mit menschlichen Urteilen und ermöglicht einen schnellen automatischen Vergleich, obwohl er Bedeutung oder Flüssigkeit nicht vollständig erfasst.
Warum gilt maschinelle Übersetzung als schwierig?: Sprachen unterscheiden sich in Vokabular, Wortstellung, Morphologie und den erforderlichen Unterscheidungen, und einzelne Wörter und Sätze sind oft mehrdeutig. Eine Übersetzung zu erstellen, die sowohl dem ursprünglichen Sinn treu bleibt als auch in der Zielsprache natürlich klingt, erfordert die gleichzeitige Lösung dieser Probleme, was schwierig ist.