ArticlePDF Available

Die Transformer-Architektur für Systeme zur neuronalen maschinellen Übersetzung -eine popularisierende Darstellung

Authors:

Abstract and Figures

This paper provides a gentle introduction to the Transformer architecture for neural machine translation (NMT) systems for audiences from the fields of translation and/or LSP communication (studies). Introduced in 2017, the Transformer has become the standard architecture for NMT systems, replacing the previous architecture based on recurrent neural networks (RNN). Since NMT has a growing impact on the practice and study of translation, there is a certain need for stakeholders in these fields to acquaint themselves with the inner workings of this technology. The present paper is intended to serve as a point of access to the technical foundations of NMT.
Abb. 17: Skalierung der Attention-Scores als Teilschritt im Self-Attention-Prozess (Vaswani u. a. 2017: 4, eigene Hervorhebung) Die Attention-Scores werden skaliert, indem sie durch den Wert 8 geteilt werden. Bei diesem Skalierungswert handelt es sich um die Quadratwurzel aus der Dimensionalität der Key-Vektoren von 64. Dieser Skalierungsschritt hat primär netzwerkinterne Gründe und ist für das Verständnis der Transformer-Architektur nicht zwingend erforderlich. Kurz und vereinfacht gesagt werden damit die in den weiteren Rechenschritten zu verarbeiteten Werte verkleinert und damit die Leistungsfähigkeit des auf der Berechnung von Skalarprodukten basierenden Self-Attention-Prozesses gesteigert. 17 An dieser Stelle sollte klar geworden sein, weshalb Vaswani u. a. (2017: 4) den Self-AttentionProzess des Transformers als "scaled dot-product attention" bezeichnen. Die auf den Skalierungsschritt folgende optionale Maskierung (in Abb. 17 Mask [opt.]) hat folgende Funktion: Wenn Sequenzen in den Transformer eingespeist werden, die kürzer sind als die längste vom Transformer zu verarbeitende Sequenz, wird diese kürzere Sequenz bis zur maximalen Sequenzlänge mit sog. Padding-Token (<pad>) aufgefüllt. Diese Token dienen lediglich als Platzhalter und haben keine semantische Relevanz für die Wörter der Input-Sequenz. Damit der Self-Attention-Mechanismus diese Token bei der Berechnung der Attention-Scores ignoriert, werden die Werte dieser Token durch eine Maske (padding mask) auf minus unendlich (−∞) gesetzt. Dadurch erhalten sie in der folgenden Softmax-Berechnung einen Wert nahe 0 und fallen bei den weiteren Rechenschritten des Self-Attention-Prozesses nicht mehr ins Gewicht (vgl. Vaswani u. a. 2017: 14; Stahlberg 2020: 10). Im Decoder gibt es noch einen weiteren, diesmal obligatorischen, Maskierungsschritt, der sich in seinem Zweck von dem hier erläuterten Maskierungsschritt unterscheidet. Dieser Schritt wird in Absatz 4.2 beschrieben.
… 
Content may be subject to copyright.
trans-kom ISSN 1867-4844 http://www.trans-kom.eu
trans-kom
ist eine wissenschaftliche Zeitschrift für Translation und Fachkommunikation.
trans-kom 14 [2] (2021): 278324
Seite 278
http://www.trans-kom.eu/bd14nr02/trans-kom_14_02_05_Krueger_NMUe.20211202.pdf
Ralph Krüger
Die Transformer-Architektur für Systeme zur neuronalen
maschinellen Übersetzungeine popularisierende
Darstellung
The Transformer architecture for neural machine translation systems – an introductory
discussionAbstract
This paper provides a gentle introduction to the Transformer architecture for neural machine
translation (NMT) systems for audiences from the fields of translation and/or LSP communication
(studies). Introduced in 2017, the Transformer has become the standard architecture for NMT
systems, replacing the previous architecture based on recurrent neural networks (RNN). Since
NMT has a growing impact on the practice and study of translation, there is a certain need for
stakeholders in these fields to acquaint themselves with the inner workings of this technology.
The present paper is intended to serve as a point of access to the technical foundations of NMT.
1 Einleitung
Im professionellen Fachübersetzen ist, wie in vielen anderen Berufsfeldern auch, schon
seit längerer Zeit eine zunehmende Digitalisierung und Datafizierung der Arbeits-
prozesse zu beobachten. Ursache für diese beiden Trends sind neue Entwicklungen in
der Forschung zur Künstlichen Intelligenz (KI) und in der KI-gestützten maschinellen
Verarbeitung natürlicher Sprache sowie die Zusammenstellung und Verfügbarmachung
großer digitaler Translationsdatenbestände. Digitalisierung und Datafizierung fließen im
Übersetzungskontext insbesondere in der neuronalen maschinellen Übersetzung (NMÜ)
zusammen, einer auf modernen KI-Verfahren basierenden Technologie, die mit großen
Übersetzungskorpora trainiert wird und anhand dieser Trainingsdaten lernt, eigenständig
neue Übersetzungen anzufertigen. Im professionellen Fachübersetzen nimmt die NMÜ
eine immer wichtigere Rolle ein. So planten 78 % aller im Rahmen der European
Language Industry Survey 2020 befragten Unternehmen, MÜ-Systeme oder Post-
Editing-Workflows in ihre Arbeitsprozesse zu integrieren oder den Einsatz dieser
Systeme und Workflows auszuweiten (ELIS 2020: 44). Die professionelle Übersetzungs-
branche ist damit derzeit mit dem Phänomen konfrontiert, dass ihre Arbeitsprozesse
immer mehr durch leistungsstarke KI-Technologien geprägt werden, diese Technologien
aber von so hoher Komplexität sind, dass die am Übersetzungsprozess beteiligten Akteure
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 279
zur neuronalen maschinellen Übersetzung
deren Funktionsweise nur noch schwer nachvollziehen können. Diese Beobachtung gilt
nicht nur für die Übersetzungspraxis, sondern auch für die akademischen Disziplinen,
deren Ziel die wissenschaftliche Erschließung des Übersetzens darstellt, hier primär die
Translations- und die Fachkommunikationswissenschaft. Auch die Akteure in diesen
Disziplinen stehen vor der Tatsache, dass die zentralen Phänomene ihres Gegenstands-
bereichs sprich, das translatorische Handeln von Fachübersetzern sowie die Produkte
dieses translatorischen Handelns immer stärker durch die NMÜ geprägt werden und
es zunehmend schwieriger wird, diese Technologie bei der translations- und
fachkommunikationswissenschaftlichen Theorie- und Modellbildung außen vor zu
lassen. In der Translationswissenschaft ist in diesem Zusammenhang in letzter Zeit
immer wieder die Forderung nach einer entsprechenden Machine Translation Literacy
(vgl. O’Brien/Ehrensberger-Dow 2020) zu hören.
Angesichts dieser hohen und in Zukunft womöglich noch zunehmenden Relevanz
der neuronalen MÜ für die praktische Tätigkeit und die wissenschaftliche Erschließung
des Fachübersetzens wird in diesem Aufsatz der Versuch unternommen, die Architektur
und Funktionsweise moderner N-Systeme in einer popularisierenden Form dar-
zustellen, die einerseits der Komplexität dieser Technologie gerecht wird und andererseits
den Wissenshorizont der vorrangig translations- und fachkommunikationswissenschaftlich
ausgebildeten Zielleserschaft im Blick behält. Der Aufsatz wurde maßgeblich inspiriert
von der popularisierenden Darstellung in Alammar (2018b) und kann als Ergänzung
verstanden werden zu der mit hohem fachlichen Anspruch geschriebenen Einführung in
die neuronale maschinelle Übersetzung, die jüngst von van Genabith (2020) vorgelegt
wurde. Während van Genabith das Feld der neuronalen MÜ in einer sehr großen
fachlichen Breite betrachtet, nimmt dieser Artikel speziell die 2017 von Vaswani u. a.
entwickelte Transformer-Architektur in den Blick, die sich inzwischen zur Standard-
architektur für NMÜ-Systeme entwickelt hat.
Bis zur Einführung der Transformer-Architektur im Jahr 2017 basierten leistungs-
starke NMÜ-Systeme meist auf sogenannten rekurrenten neuronalen Netzen (RNN). Bei
einer solchen RNN-Architektur wird der zu übersetzende Ausgangstext von einem
Decoder Wort für Wort eingelesen und in eine abstrakte Repräsentation überführt. Diese
Repräsentation wird dann an einen Encoder übergeben, der auf dieser Grundlage
ebenfalls Wort für Wort die Zielsequenz generiert. Zwischen Encoder und Decoder ist
als vermittelnde Instanz ein Attention-Mechanismus angesiedelt, der es dem Decoder
erlaubt, während der Generierung der Zielsequenz bestimmte Teile der Ausgangs-
sequenz in den Blick zu nehmen. Eine popularisierende Darstellung und Visualisierung
dieser RNN-Architektur für neuronale -Systeme findet sich in Le/Schuster (2016).
1
Mit einer solchen RNN-Architektur sind gewisse Nachteile verbunden. So erschwert
beispielsweise die sequenzielle Verarbeitung der Input-Sequenz die korrekte Identifi-
zierung von Wortdependenzen über längere Distanzen hinweg. Außerdem können durch
1
Für weitere popularisierende Darstellungen der RNN-Architektur für NMÜ-Systeme siehe Forcada
(2017), Krüger (2017) und Alammar (2018a).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 280
zur neuronalen maschinellen Übersetzung
die sequenziellen Verarbeitungsprozesse von RNN die Vorteile leistungsstarker, im
Maschinellen Lernen (ML) eingesetzter Hardwarekomponenten wie Graphical Processing
Units (GPUs) oder Tensor Processing Units (TPUs) nicht optimal genutzt werden, da
diese Komponenten für die parallele Verarbeitung von großen Datenmengen ausgelegt
sind. Dementsprechend ist der Zeit- und Kostenaufwand für das Training von RNN-
Systemen vergleichsweise hoch. Bei der Transformer-Architektur werden diese Pro-
bleme der Vorgängerarchitektur vermieden, da Transformer-Systeme eine parallele
Datenverarbeitung ermöglichen. So können mit Transformer-Systemen sämtliche r-
ter einer Input-Sequenz unabhängig von ihrer Entfernung zueinander in einem Schritt
direkt aufeinander bezogen werden. Außerdem können mit dieser Architektur größere
Datenmengen schneller und zu niedrigeren Kosten verarbeitet werden, als dies mit RNN-
Systemen möglich ist (vgl. Uszkoreit 2017). Die Transformer-Architektur bildet nicht nur
die Grundlage für moderne NMÜ-Systeme, sondern auch für neuronale Sprachmodelle
wie BERT (Devlin u. a. 2019) oder GPT-3 (Brown u. a. 2020), die in ihren jeweiligen
Anwendungsgebieten derzeit neue Maßstäbe setzen und in Zukunft möglicherweise
auch im Fachübersetzen oder im erweiterten Arbeitsfeld der ein- und mehrsprachigen
Fachkommunikation ihre Spuren hinterlassen werden. Es gibt also mehrere gute Gründe
dafür, sich als Übersetzungspraktiker oder als Translations- oder Fachkommunikations-
wissenschaftler die Funktionsweise der Transformer-Architektur in einer größeren Detail-
tiefe zu erschließen. Der vorliegende Aufsatz soll hierzu einen Einstiegspunkt bieten.
2 Transformer-Gesamtarchitektur
Die Transformer-Architektur für NMÜ-Systeme besteht ebenso wie die RNN-Architektur
aus einem Encoder (linke Seite in Abb. 1) und einem Decoder (rechte Seite in Abb. 1).
Der Encoder baut eine Repräsentation des Ausgangssatzes auf, die dann an den
Decoder übergeben und von diesem in den entsprechenden Zielsatz dekodiert wird. Ein
wesentlicher Unterschied zwischen der RNN-Architektur und dem Transformer ist, wie
bereits erwähnt, die Tatsache, dass RNN-Architekturen Daten sequenziell verarbeiten,
während der Transformer eine parallele Datenverarbeitung ermöglicht. Außerdem
verfügen NMÜ-Systeme auf Grundlage der RNN-Architektur lediglich über einen
Attention-Mechanismus. Bei der Transformer-Architektur gibt es dagegen drei solcher
Attention-Mechanismen, und zwar einen im Encoder (linke Seite in Abb. 1: Multi-Head-
Attention) und zwei im Decoder (rechte Seite in Abb. 1: Masked Multi-Head Attention
und Multi-Head Attention; dieser zweite Attention-Mechanismus im Decoder wird auch
als Encoder-Decoder Attention oder als Cross-Attention bezeichnet, vgl. van Genabith
2020: 99). Diese zusätzlichen Attention-Mechanismen sind neben der Möglichkeit zur
parallelen Datenverarbeitung maßgeblich dafür verantwortlich, dass mit der Transformer-
Architektur für NMÜ-Systeme oft eine höhere Output-Qualität erzielt werden kann als mit
der RNN-Architektur.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 281
zur neuronalen maschinellen Übersetzung
Abb. 1: Transformer-Gesamtarchitektur (Vaswani u. a. 2017: 3)
In dem Originalaufsatz von Vaswani u. a. (2017) werden jeweils sechs Encoder- und
sechs Decoder-Blöcke aufeinandergeschichtet (mit Blick auf Abb. 1 bedeutet dies Nx =
6). Jeder Encoder-Block besteht aus einer Multi-Head-Attention-Schicht und einer Feed-
Forward-Schicht, jeweils gefolgt von einer Add-&-Norm-Schicht. Jeder Decoder-Block
besteht aus einer Masked-Multi-Head-Attention-Schicht, einer Multi-Head-Attention-
Schicht
2
und einer Feed-Forward-Schicht, ebenfalls jeweils gefolgt von einer Add-&-
Norm-Schicht. Oberhalb des letzten Decoder-Blocks befinden sich außerdem eine
lineare Schicht sowie eine Softmax-Schicht.
Die einzelnen Encoder- und Decoder-Komponenten werden im Folgenden detailliert
betrachtet. Die Betrachtung der Encoder-Seite fällt dabei deutlich länger und aus-
2
Über diese Multi-Head-Attention-Schicht im Decoder (Encoder-Decoder Attention/Cross-Attention) wird
eine Verbindung zwischen dem Encoder und dem Decoder hergestellt (in der Grafik zu erkennen an
dem Pfeil, der von der Oberseite des Encoders zur zweiten Multi-Head-Attention-Schicht des Decoders
verläuft). Dieser Attention-Mechanismus entspricht daher ungefähr dem Attention-Mechanismus, der
in RNN-Systemen zwischen dem Encoder und dem Decoder angeordnet ist.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 282
zur neuronalen maschinellen Übersetzung
führlicher aus als die Betrachtung der Decoder-Seite, da viele der im Kontext des
Encoders erläuterten Komponenten und Prozesse in gleicher oder nur leicht abge-
wandelter Form auch auf der Decoder-Seite des Transformers zu finden sind.
3 Encoder-Seite des Transformers
Die Encoder-Seite des Transformers ist noch einmal in Abb. 2 dargestellt.
Abb. 2: Encoder-Seite des Transformers (Ausschnitt aus Vaswani u. a. 2017: 3)
Aufgabe des Encoders ist es, die Input-Sequenz (im Übersetzungskontext den zu über-
setzenden Ausgangstext) in eine abstrakte Vektorrepräsentation zu überführen, in der
sämtliche syntaktischen und semantischen Bezüge zwischen den einzelnen Kom-
ponenten der Sequenz möglichst vollständig und präzise kodiertsind (ohne dass der
Transformer ein Verständnis von den Begriffen Syntax oder Semantik hätte). Der
Encoder baut diese abstrakte Repräsentation auf, indem die Input-Sequenz durch die
einzelnen Encoder-Blöcke geführt und dort verarbeitet wird. Wie in Abschnitt 2 erläutert,
werden im Original-Paper (und auch in den meisten Praxisimplementierungen des
Transformers) sechs der in Abb. 2 grau eingefärbten Encoder-Blöcke aufeinander-
geschichtet. Durch jeden zusätzlichen Encoder-Block wird der Transformer leistungs-
fähiger und kann eine detailliertere Repräsentation der Input-Sequenz aufbauen.
3
Auf
3
Studien haben gezeigt, dass die Informationsverarbeitung in den einzelnen Encoder-Schichten zu
einem gewissen Grad hierarchisch erfolgt. So lernt der Transformer in den unteren Schichten tenden-
ziell Informationen zu einzelnen Wortformen, in den oberen Schichten dagegen eher Informationen zu
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 283
zur neuronalen maschinellen Übersetzung
Grundlage dieser Repräsentation erzeugt der Decoder in einem späteren Schritt dann
den Zieltext.
3.1 Input Embedding und Positional Encoding
Der erste Schritt im Transformer-Prozess besteht in der Umwandlung der Wörter der
Input-Sequenz in sog. Word Embeddings (vgl. Mikolov u. a. 2013) und der Anreicherung
dieser Word Embeddings durch sog. Positional-Encoding-Vektoren. Im Encoder wird
dieser Prozess der Umwandlung der Wörter der Input-Sequenz in Word Embeddings als
Input Embedding bezeichnet.
Abb. 3: Input Embedding und Positional Encoding (Ausschnitt aus Vaswani u. a. 2017: 3)
Durch diesen Schritt werden die Wörter der Input-Sequenz in eine erste vom Trans-
former lesbare und zu verarbeitende Repräsentation umgewandelt und diese Re-
präsentation wird zusätzlich um Informationen zur Position der einzelnen Wörter in der
Input-Sequenz ergänzt.
3.1.1 Input Embedding
Bei Word Embeddings handelt es sich um hochdimensionale Vektorrepräsentationen
von Wörtern. Ein Vektor kann für die Zwecke dieses Aufsatzes allgemein verstanden
werden als eine zeilen- oder spaltenweise angeordnete Reihe von Zahlen (Zeilen- oder
Spaltenvektor), wobei jede Zahl für eine Vektordimension steht. Durch die Umwandlung
von Wörtern in solche hochdimensionalen Vektoren werden die Wörter in einem Vektor-
raum angeordnet (oder eingebettet, engl. to embed), dessen Dimensionalität der Zahl
der Dimensionen der Wortvektoren entspricht. In diesem Vektorraum sind Wörter, die
sich in semantischer Hinsicht ähnlich sind, in räumlicher Nähe zueinander angeordnet.
Abb. 4 zeigt eine zweidimensionale Darstellung eines solchen Vektorraums.
Dependenzstrukturen innerhalb der Input-Sequenz (vgl. Hewitt/Manning 2019: 41324133; van
Genabith 2020: 100).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 284
zur neuronalen maschinellen Übersetzung
Abb. 4: Word Embeddings im zweidimensionalen Vektorraum (Ausschnitt aus Koehn 2017: 36)
Wie in Abb. 4 zu sehen ist, sind semantisch ähnliche Wörter nah beieinander angeordnet
und bilden Cluster (z. B. web und internet oder bass, guitar, solo und piano). Das Word-
Embedding-Verfahren basiert auf dem Ansatz der distributionellen Semantik, die ver-
sucht, die Bedeutung von Wörtern auf Basis von deren Verteilung in großen Textmengen
zu beschreiben (vgl. Koehn 2020: 108). Es handelt sich dabei um das bis dato leistungs-
stärkste Verfahren zur Nachbildung von menschlichen Textverständnisprozessen durch
Computer, das die Grundlage für den Großteil der modernen Verfahren im Bereich der
maschinellen Sprachverarbeitung bildet.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 285
zur neuronalen maschinellen Übersetzung
Die Umwandlung der Wörter der Input-Sequenz in Word Embeddings erfolgt durch
eine Embedding-Matrix (in Abb. 3: Input Embedding), wie in Abb. 5 dargestellt.
Abb. 5: Konvertierung von natürlichsprachlichen Wörtern in Word Embeddings anhand einer
Embedding-Matrix (die Darstellung orientiert sich an Alammar 2018b)
Abb. 5 zeigt, wie die einzelnen Wörter der in diesem Aufsatz als Beispiel verwendeten
Input-Sequenz NMT doesn’t feed on brainwave energy durch die Embedding-Matrix in
die Word Embeddings x1 bis x6 umgewandelt werden.
4
Bei der Embedding-Matrix
handelt es sich um die verdeckte Schicht eines neuronalen Netzes, das speziell auf die
Umwandlung von Wörtern in Word Embeddings trainiert wurde.
5
Die Embedding-Matrix
dient als eine Art Wörterbuch, in dem der Transformer die Vektorrepräsentationen der
eingespeisten Wörter nachschlägt. Dieser Prozess ist in detaillierter Form noch einmal
in Abb. 6 dargestellt.
4
Bei diesen liegendenVektoren handelt es sich um eine abstrakte Darstellung eines Zeilenvektors.
5
Popularisierende Detaildarstellungen des Word-Embedding-Verfahrens finden sich beispielsweise in
Alammar (2019) und van Genabith (2020).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 286
zur neuronalen maschinellen Übersetzung
Abb. 6: 100-dimensionale Vektorrepräsentation des Wortes brainwave
In Abb. 6 ist auf der rechten Seite die eigentliche Repräsentation des Word Embeddings
x5 für das Wort brainwave dargestellt. Es handelt sich dabei um eine 100-dimensionale
Vektorrepräsentation in Form von 100 Gleitkommazahlen.
6
Eine solche numerische
Vektorrepräsentation kann der Transformer lesen und in den nachfolgenden Schritten
weiterverarbeiten. Allerdings arbeitet der Transformer standardmäßig mit einer Embedding-
Dimensionalität von 512, das heißt, die anhand der Embedding-Matrix eines Trans-
formers erzeugten Wortvektoren haben 512 Dimensionen. Die Embedding-Matrix kann
speziell für eine Transformer-Implementation trainiert werden oder es können externe,
bereits vortrainierte Embedding-Matrizen genutzt werden (siehe z. B. das für die Vektor-
berechnung in Abb. 6 genutzte Word-Embedding-Modell).
Hierzu ist anzumerken, dass die Umwandlung der Wörter in Word Embeddings nur
vor der Einspeisung in den untersten Encoder-Block erfolgt und es sich bei den in diesem
Schritt erzeugten Word Embeddings um dekontextualisierte Embeddings handelt; das
heißt, die Vektorrepräsentation jedes einzelnen Wortes wird isoliert in der Embedding-
Matrix nachgeschlagen, ohne dass dabei der Kontext des Wortes innerhalb der Input-
Sequenz berücksichtigt würde. Diese Embeddings entsprechen also, wenn man bei der
Wörterbuch-Analogie bleiben möchte, dekontextualisierten Wortbedeutungen, wie man
sie in einem Wörterbuch nachschlagen würde. In den nachfolgenden Verarbeitungs-
schritten werden diese Embeddings dann durch Kontextinformationen angereichert,
sprich, in kontextualisierte Word Embeddings umgewandelt. Die über den untersten
Encoder-Block geschichteten Blöcke erhalten als Input jeweils den Output des darunter-
liegenden Encoder-Blocks, der bereits eine deutlich detailliertere und stärker kontextu-
6
Die Vektorrepräsentation des Wortes brainwave in Abb. 6 wurde auf Grundlage des vortrainierten
Word-Embedding-Modells glove-wiki-gigaword-100 berechnet, einem Modell mit einem Vokabular von
ca. 400.000 Wörtern und einer Vektordimensionalität von 100 (vgl. Krüger 2021). Die Zahlen sind hier
nur der Übersicht halber in fünf Spalten dargestellt. Eigentlich handelt es sich hierbei um einen
Zeilenvektor bestehend aus 100 in einer Zeile von links nach rechts angeordneten Zahlen.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 287
zur neuronalen maschinellen Übersetzung
alisierte Repräsentation der Input-Sequenz darstellt, als die durch die Embedding-Matrix
vor dem untersten Encoder-Block erzeugten isolierten Wortvektoren.
3.1.2 Positional Encoding
In NMÜ-Systemen auf Basis der RNN-Architektur werden die Wörter der Input-Sequenz,
wie eingangs erwähnt, der Reihe nach in das Netz eingespeist und von diesem
verarbeitet. Daher verfügen solche NMÜ-Systeme architekturbedingt bereits über
Informationen zur Wortreihenfolge und zur Position der einzelnen Wörter in der Input-
Sequenz. Da der Transformer sequenziell zu interpretierende Daten wie natürliche
Sprache in einem einzigen Schritt parallel verarbeitet, fehlen ihm solche Informationen
zur Wortposition. Diese Informationen müssen ihm daher, wie in Abb. 7 dargestellt, durch
einen speziellen Positional-Encoding-Vektor mitgeteilt werden.
Abb. 7: Anreicherung des Word Embeddings des Wortes brainwave mit Informationen zur
Position des Wortes in der Input-Sequenz
Damit Positional-Encoding-Vektoren für die einzelnen Word Embeddings der Input-
Sequenz erzeugt werden können, werden diese Embeddings zunächst indiziert, d. h. mit
Indexwerten von 1 bis n versehen. Für Embeddings mit einem geraden Index werden
dann Positional-Encoding-Vektoren anhand einer Sinusfunktion und für Embeddings mit
einem ungeraden Index werden Positional-Encoding-Vektoren anhand einer Kosinus-
funktion erzeugt
7
(aus diesem Grund wurde der Positional-Encoding-Schritt in der ur-
sprünglichen Transformer-Grafik in Abb. 1 sowie in Abb. 7 durch eine Sinuswelle
ergänzt). Diese Positional-Encoding-Vektoren haben die gleiche Dimensionalität wie die
ursprünglichen Word Embeddings.
8
Dadurch können sie in einem nächsten Schritt mit
den ursprünglichen Embeddings addiert und so die mit Positionsinformationen an-
gereicherten Word Embeddings (rechte Seite in Abb. 7) erzeugt werden.
Vor der Anreicherung mit den Positional Encodings waren die Word-Embedding-
Vektoren im 512-dimensionalen Vektorraum so verteilt, dass semantisch ähnliche
7
Für eine detaillierte Darstellung der Berechnung von Positional-Encoding-Vektoren per Sinus- und
Kosinusfunktion siehe Duke University (o. J. a), Bloem (2020) und Rothman (2021: 1117).
8
In unserem Beispiel 100, wovon in Abb. 7 lediglich die ersten vier Dimensionen dargestellt sind. Die
Zahlenwerte des Positional-Encoding-Vektors in Abb. 7 wurden anhand der Python-Bibliothek NumPy
zufällig erzeugt und dienen lediglich der Illustration.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 288
zur neuronalen maschinellen Übersetzung
Wörter näher beieinander angeordnet sind als Wörter, die eine geringe semantische
Ähnlichkeit aufweisen (siehe die Diskussion in Abschnitt 3.1.1). Nachdem die Word-
Embedding-Vektoren mit den Positional-Encoding-Vektoren addiert wurden, wird die
Nähe der angereicherten Word-Embedding-Vektoren im Vektorraum sowohl durch
deren semantische Nähe als auch durch ihre relative Position zueinander in der Input-
Sequenz bestimmt (vgl. TensorFlow 2021).
3.2 Multi-Head-Attention- und Feed-Forward-Schicht
Nach der Generierung der Word-Embeddings und deren Anreicherung mit Positional-
Encoding-Vektoren werden die Vektoren zunächst in eine Self-Attention-Schicht (in Abb.
8: Multi-Head-Attention) eingespeist und das Verarbeitungsergebnis wird dann an eine
Feed-Forward-Schicht übergeben. Der Output dieser Feed-Forward-Schicht wird dann
in den nächsten Encoder-Block eingespeist.
Abb. 8: Multi-Head-Attention- und Feed-Forward-Schicht in einem Encoder-Block (Ausschnitt aus
Vaswani u. a. 2017: 3)
Die beiden in Abb. 8 zusätzlich dargestellten Add-&-Norm-Schichten werden hier aus-
geklammert und erst in Abschnitt 3.2.3 erläutert. Diese beiden Schichten haben primär
netzwerkinterne Zwecke und sind für ein Grundverständnis der Transformer-Architektur
nicht zwingend erforderlich. Die folgenden Betrachtungen konzentrieren sich zunächst
auf den Self-Attention-Prozess als zentrale Komponente der Transformer-Architektur.
3.2.1 Multi-Head Attention (Self-Attention)
Zur Erinnerung: Die generelle Aufgabe der Encoder-Seite des Transformers ist es, die
eingespeiste Input-Sequenz in eine abstrakte Vektorrepräsentation zu überführen, in der
sämtliche semantischen und syntaktischen Abhängigkeiten zwischen den einzelnen
Wörtern der Sequenz möglichst detailliert und präzise kodiert sind. In der Multi-Head-
Attention-Schicht blickt der Transformer bei der Verarbeitung der einzelnen Wörter der
Input-Sequenz auf sämtliche Wörter in dieser Sequenz und analysiert, wie relevant diese
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 289
zur neuronalen maschinellen Übersetzung
Wörter für die Verarbeitung des aktuellen Worts sind (Self-Attention). Dieser Self-
Attention-Prozess ist beispielhaft in Abb. 9 dargestellt:
Abb. 9: Visualisierung des Self-Attention-Prozesses im dritten Encoder-Block des Transformers
In Abb. 9 ist der Self-Attention-Prozess am Beispiel des Wortes translation dargestellt.
9
Das Akronym NMT wurde für dieses Beispiel in seine Vollform neural machine
translation expandiert, da NMT nicht im Vokabular des in diesem Beispiel genutzten
Transformer-Modells enthalten war und dies die Visualisierung des Beispiels ver-
kompliziert hätte (aus dem gleichen Grund wurde doesn’t hier zu does not expandiert).
Das Wort translation auf der linken Seite der Abbildung ist das Wort, für das im aktuellen
Schritt des Self-Attention-Prozesses ermittelt wird, wie relevant die einzelnen Wörter der
Input-Sequenz für die Repräsentation dieses Wortes sind (m. a. W., wie viel Aufmerk-
samkeit den Wörtern der Input-Sequenz bei der Erzeugung des kontextualisierten Word
Embeddings für das Wort translation geschenkt werden soll). Die Stärke der Ver-
bindungslinien entspricht dabei dem jeweiligen Maß an Aufmerksamkeit. Im aktuellen
Schritt wird den Wörtern neural und machine die meiste Aufmerksamkeit gewidmet, does
und feed erhalten auch noch eine gewisse Aufmerksamkeit, die restlichen Wörter der
Input-Sequenz dagegen kaum. Diese Aufmerksamkeitsverteilung ist eine Moment-
9
Die in Abb. 9 und 10 dargestellte Visualisierung eines Self-Attention-Prozesses wurde mit dem Tool
BertViz (Vig o. J.) erzeugt. BertViz visualisiert den Self-Attention-Prozess innerhalb des neuronalen
Sprach-modells BERT (Devlin u. a. 2019), bei dem es sich nicht um ein NMÜ-System handelt. Da
BERT jedoch auf der Transformer-Architektur basiert und in seinem Aufbau nahezu identisch ist mit
der Encoder-Seite eines NMÜ-Transformers, ist dies unproblematisch. Der in Abb. 9 und 10 visuali-
sierte Self-Attention-Prozess würde in genau dieser Form auch im Encoder eines Transformer-
basierten NMÜ-Systems ablaufen. Für weitere Informationen zu BertViz sowie zur Interpretation der
damit erzeugten Visualisierungen siehe Vig (2019).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 290
zur neuronalen maschinellen Übersetzung
aufnahme eines bestimmten Attention Heads
10
im dritten Encoder-Block des Trans-
formers (in Abb. 9 als Layer bezeichnet). In anderen Blöcken und bei anderen Attention
Heads kann diese Aufmerksamkeitsverteilung gänzlich anders ausfallen, wie Abb. 10
zeigt.
Abb. 10: Veränderte Aufmerksamkeitsverteilung im fünften Encoder-Block des Transformers
In Abbildung 10 ist die Aufmerksamkeitsverteilung für das Wort translation im fünften
Encoder-Block des Transformers (gleicher Attention Head) dargestellt. Wie zu sehen ist,
wird hier den Wörtern im hinteren Teil der Input-Sequenz der Großteil der Aufmerk-
samkeit gewidmet, wobei das [SEP]-Token (dient in diesem Kontext als Satztrenn-
zeichen) die größte Aufmerksamkeit erhält. Durch die Berechnung und anschließende
Kombination solch unterschiedlicher Aufmerksamkeitsverteilungen soll eine vollständigere
und präzisere kontextualisierte Repräsentation einzelner Word Embeddings sowie der
gesamten Input-Sequenz erzeugt werden, als dies durch eine einzelne Aufmerksam-
keitsverteilung möglich wäre (vgl. van Genabith 2020: 102).
Da der Self-Attention-Mechanismus die zentrale Komponente der Transformer-
Architektur darstellt und maßgeblich für die Qualitätsvorteile dieser Architektur ge-
genüber früheren NMÜ-Architekturen verantwortlich ist, wird dieser Mechanismus im
Folgenden noch einmal in deutlich detaillierterer Form erläutert.
Detaillierte Betrachtung des Self-Attention-Mechanismus
Der Self-Attention-Prozess wird hier zunächst aufgeschlüsselt für einzelne Word
Embeddings dargestellt, da dies dem Verständnis der einzelnen Prozessschritte förder-
10
Das Konzept des Attention Heads wird an dieser Stelle noch ausgeklammert und erst im Rahmen der
Detaildiskussion der Multi-Head Attention im gleichnamigen Abschnitt genauer erläutert.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 291
zur neuronalen maschinellen Übersetzung
lich ist (vgl. Alammar 2018b). In der Realität werden die Embedding-Vektoren der ein-
zelnen Wörter jedoch zwecks einer schnelleren Verarbeitung durch den Transformer in
einer Matrix
11
(= einer Gesamtrepräsentation der Input-Sequenz) zusammengefasst und
die einzelnen Rechenschritte nur anhand dieser Matrix durchgeführt (vgl. Vaswani u. a.
2017: 4). Dieser Prozess, wie er in der Praxis abläuft, wird im Abschnitt Der Self-
Attention-Prozess als Matrizenberechnung beschrieben.
Der Self-Attention-Mechanismus wird im Originalaufsatz von Vaswani u. a. (2017: 4)
als Scaled Dot-Product Attention beschrieben und grafisch wie folgt dargestellt.
Abb. 11: Detaillierte Darstellung des Self-Attention-Mechanismus: Scaled Dot-Product Attention
(Vaswani u. a. 2017: 4)
Die einzelnen Schritte des in Abb. 11 dargestellten Prozesses werden im Folgenden
detailliert beschrieben.
1. Schritt: Erzeugung von Query-, Key- und Value-Vektoren
Die einzelnen Word-Embedding-Vektoren der Input-Sequenz werden mit drei im Rahmen
des Trainingsprozesses des Transformers trainierten Gewichtsmatrizen (engl. weight
matrices, im Folgenden mit W bezeichnet) multipliziert. So werden für jeden dieser Word-
Embedding-Vektoren ein Query-Vektor, ein Key-Vektor und ein Value-Vektor (in Abb. 11
Q, K und V) erzeugt.
12
Dieser Prozess ist in Abb. 12 dargestellt.
11
Im Gegensatz zu einem Vektor, der in diesem Aufsatz verstanden wird als eine zeilen- oder spaltenweise
angeordnete Reihen von Zahlen, handelt es sich bei einer Matrix um eine zeilen- und spaltenweise
angeordnete Zahlenreihe. Wie später in Abb. 23. zu sehen sein wird, können mehrere Zeilenvektoren
gestapeltund so in einer Matrix zusammengefasst werden.
12
In Abb. 8 ist diese Aufsplittung der ursprünglichen Word-Embedding-Vektoren in drei Vektoren an den
drei Pfeilen zu sehen, die von unten kommend auf den Multi-Head-Attention-Block zulaufen.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 292
zur neuronalen maschinellen Übersetzung
Abb. 12: Erzeugung von Query-, Key- und Value-Vektoren für die einzelnen Word-Embedding-
Vektoren der Input-Sequenz (die Darstellung orientiert sich an Alammar 2018b)
Abb. 12 ist wie folgt zu lesen:
Durch Multiplikation von Embedding-Vektor x5 mit Gewichtsmatrix WQ wird Query-
Vektor q5 und durch Multiplikation von Embedding-Vektor x6 mit Gewichtsmatrix WQ wird
Query-Vektor q6 erzeugt.
Durch Multiplikation von Embedding-Vektor x5 mit Gewichtsmatrix WK wird Key-
Vektor k5 und durch Multiplikation von Embedding-Vektor x6 mit Gewichtsmatrix WK wird
Key-Vektor k6 erzeugt.
Durch Multiplikation von Embedding-Vektor x5 mit Gewichtsmatrix WV wird Value-
Vektor v5 und durch Multiplikation von Embedding-Vektor x6 mit Gewichtsmatrix WV wird
Value-Vektor v6 erzeugt.
Die gleichen Prozesse laufen für die vorgelagerten Word-Embedding-Vektoren x1
bis x4 ab.
Bei diesen Query-, Key- und Value-Vektoren handelt es sich um drei Repräsenta-
tionen der ursprünglichen Word Embeddings, denen im Self-Attention-Prozess des
Transformers unterschiedliche Aufgaben zukommen. Die ursprünglichen Word-
Embedding-Vektoren haben eine Dimensionalität von 512 (vgl. Abschnitt 3.1.1), die für
diese Embedding-Vektoren erzeugten Query-, Key- und Value-Vektoren haben dagegen
nur eine Dimensionalität von 64. Dementsprechend werden diese Vektoren in Abbildung
12 nur durch drei Kästchen dargestellt und nicht durch vier Kästchen, wie dies bei den
ursprünglichen Embedding-Vektoren der Fall ist.
13
13
Der Grund dafür, dass die ursprünglichen Embedding-Vektoren eine Dimensionalität von 512 und die
Query-, Key- und Value-Vektoren eine Dimensionalität von 64 haben, wird im Abschnitt Multi-Head
Attention erläutert.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 293
zur neuronalen maschinellen Übersetzung
Im Rahmen des Self-Attention-Prozesses wird für jedes der ursprünglichen Word
Embeddings eine kontextualisierte Vektorrepräsentation erzeugt. Dazu prüft der Self-
Attention-Mechanismus für jedes Wort der Input-Sequenz, wie relevant die einzelnen
Wörter in der Sequenz für die kontextualisierte Repräsentation dieses Wortes sind. Der
Query-Vektor repräsentiert dabei das Wort, von dem ausgehend im aktuellen Prozess-
schritt die Relevanz der Wörter der Input-Sequenz für die kontextualisierte Re-
präsentation des durch den Query-Vektor repräsentierten Wortes abgefragt werden soll
(to query). Die Key-Vektoren repräsentieren dagegen die Wörter, deren Relevanz für die
Repräsentation des Query-Wortes abgefragt werden soll. Es findet beim Wechsel von
einem Query- zu den Key-Vektoren also eine Perspektivverschiebung von dem
abfragendenWort zu den abgefragtenWörtern statt. Dieser Prozess wird anhand der
nachstehenden Diskussion noch deutlicher werden. Die Value-Vektoren werden erst in
einem späteren Schritt des Self-Attention-Prozesses relevant und daher auch erst in
diesem Zusammenhang erläutert.
2. Schritt: Berechnung von Attention-Scores
Um zu ermitteln, wie viel Aufmerksamkeit bei der Erzeugung der kontextualisierten
Vektorrepräsentation des aktuellen Wortes (repräsentiert durch seinen Query-Vektor)
den jeweiligen Wörtern der Input-Sequenz (repräsentiert durch ihre Key-Vektoren)
geschenkt werden soll, werden für das Query-Wort zunächst sog. Attention-Scores
berechnet. Dieser Prozessschritt ist in Abb. 13 dargestellt.
Abb. 13: Berechnung von Attention-Scores als Teilschritt im Self-Attention-Prozess (Vaswani
u. a. 2017: 4, eigene Hervorhebung)
Laut Abb. 13 findet in diesem Prozessschritt eine Matrizenmultiplikation (MatMul) statt.
Wie zuvor erwähnt, wird der Self-Attention-Prozess in der Realität zwecks einer
schnelleren Verarbeitung anhand einer Matrix durchgeführt, in der die einzelnen Word
Embeddings der Input-Sequenz zusammengefasst sind. Daher ist in Abb. 13 von einer
Matrizenmultiplikation die Rede. Aus didaktischen Gründen wird hier jedoch der Self-
Attention-Prozess zunächst für einzelne Word Embeddings der Input-Sequenz be-
trachtet. Daher werden an dieser Stelle keine Matrizen, sondern einzelne Vektoren
miteinander multipliziert. Wie aus Abb. 13 hervorgeht, handelt es sich bei den Faktoren
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 294
zur neuronalen maschinellen Übersetzung
dieser Multiplikation um einen Query-Vektor (Q) und einen Key-Vektor (K). Der Value-
Vektor (V) bleibt bei diesem Rechenprozess außen vor und fließt erst später in den Self-
Attention-Prozess ein.
Wenn also festgestellt werden soll, welche Relevanz ein Wort der Input-Sequenz für
die Erzeugung der kontextualisierten Vektorrepräsentation eines Wortes hat, wird der
Query-Vektor des abfragenden Wortes mit dem Key-Vektor des abgefragten Wortes
multipliziert. Konkret wird dabei das Skalarprodukt (engl. dot product) aus dem Query-
Vektor des einen Wortes und dem Key-Vektor des anderen Wortes gebildet.
14
Das
Skalarprodukt aus Query- und Key-Vektor ist eine einzelne Zahl (Skalar), die im
aktuellen Kontext den Attention-Score des Key-Wortes für das Query-Wort darstellt.
Um zu verstehen, weshalb die Relevanz eines Wortes für ein Wort durch Bildung
des Skalarprodukts zweier Vektorrepräsentationen dieser Wörter ermittelt werden kann,
kehren wir an dieser Stelle noch einmal zu dem in Abschnitt 3.1 und 3.1.1 eingeführten
Konzept der Word Embeddings zurück. Wie zuvor erläutert, handelt es sich dabei um
hochdimensionale Vektorrepräsentationen von Wörtern. Ähnliche Wörter verfügen über
ähnliche Vektorrepräsentationen und sind daher im Vektorraum nah beieinander an-
geordnet. An dieser Stelle werden drei solcher Wortvektoren etwas genauer betrachtet.
In Abb. 14 sind die fiktiven Vektoren der beiden semantisch ähnlichen Wörter translating
und interpreting sowie zusätzlich der Vektor des Wortes football dargestellt, das sich
semantisch deutlicher von den ersten beiden Wörtern unterscheidet.
Abb. 14: Wortvektoren mit Darstellung einzelner Bedeutungskomponenten (die Darstellung
orientiert sich an Duke University o. J. b)
14
Im Rahmen des Self-Attention-Prozesses wird auch ermittelt, wie relevant ein Wort selbst für die
Erzeugung seiner kontextualisierten Vektorrepräsentation ist. Um dies zu ermitteln, wird der Query-
Vektor dieses Wortes mit dem Key-Vektor desselben Wortes multipliziert.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 295
zur neuronalen maschinellen Übersetzung
Wortvektoren können intuitiv so interpretiert werden, dass die einzelnen Vektor-
dimensionen unterschiedliche semantische Bedeutungskomponenten repräsentieren
(vgl. Duke University o. J. b).
15
In Abb. 14 wurden für die ersten fünf Dimensionen der
dargestellten Wortvektoren die fiktiven und hier lediglich der Illustration dienenden
Bedeutungskomponenten communication, leisure, mode, action und anger angenom-
men. Wenn eine Bedeutungskomponente bei zwei oder mehr Wörtern in ähnlicher
Ausprägung vorhanden ist, sind die Werte der entsprechenden Vektordimensionen
ähnlich groß. Bei den Wörtern translating und interpreting sind beispielsweise die
Bedeutungskomponenten communication und action recht stark ausgeprägt und haben
dementsprechend hohe positive Werte (in Abb. 14 sind dies die Werte 0,84 und 0,72).
Die Bedeutungskomponenten leisure und anger sind für die beiden Wörter nicht relevant
und nehmen daher schwach negative Werte an. Lediglich in der Bedeutungs-
komponente mode unterscheiden sich die beiden Wörter deutlich voneinander, da das
Übersetzen eine schriftliche und das Dolmetschen eine mündliche Kommunikations-
handlung darstellt. Das Wort football unterscheidet sich dagegen recht deutlich von den
beiden Wörtern translating und interpreting. Der kommunikative Aspekt ist zwar vor-
handen, aber weniger deutlich ausgeprägt. Dafür rückt der Freizeitcharakter dieser
Tätigkeit (leisure) sowie das damit verbundene emotionale Frustpotenzial (anger) in den
Vordergrund, während mode kaum Relevanz für die Bedeutung des Wortes hat.
Wenn wir nun mathematisch feststellen möchten, wie ähnlich sich die beiden Wörter
translating und interpreting sind (im Kontext des Self-Attention-Prozesses: wie relevant
das Wort interpreting für die kontextualisierte Vektorrepräsentation des Wortes trans-
lating ist oder umgekehrt), bilden wir das Skalarprodukt der beiden Vektoren. Dazu
werden die Vektorkomponenten Zeile für Zeile miteinander multipliziert und die Produkte
dann aufsummiert. Der Rechenprozess ist beispielhaft in Abb. 15 dargestellt.
15
Dies ist eine grobe Vereinfachung, die hier lediglich aus didaktischen Gründen vorgenommen wird. Die
Interpretierbarkeit von Wortvektoren ist in der Realität ein deutlich komplexeres Unterfangen und unter
anderem abhängig von der Rotation des entsprechenden Vektorraums (vgl. Park u. a. 2017). Das soll
und kann an dieser Stelle nicht weiter vertieft werden.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 296
zur neuronalen maschinellen Übersetzung
Abb. 15: Bildung des Skalarprodukts der Vektoren für translating und interpreting und der
Vektoren für translating und football (die Darstellung orientiert sich an Duke University o. J. b)
Ein solches Skalarprodukt ist wie folgt zu interpretieren. Je höher der Zahlenwert, desto
ähnlicher sind sich die beiden multiplizierten Wortvektoren, je niedriger dieser Wert (dazu
zählen auch negative Werte), desto weniger ähneln sich die beiden Vektoren. Dieses
Prinzip lässt sich auch aus Abb. 14 und 15 ablesen. Ähnliche Wörter wie translating und
interpreting haben viele Bedeutungskomponenten, die ähnlich ausgeprägt sind und
damit auch dasselbe Vorzeichen haben. Mit Blick auf translating und interpreting ist
beispielsweise lediglich die Bedeutungskomponente mode mit unterschiedlichen Vor-
zeichen belegt. Multipliziert man Wertpaare mit ausschließlich oder größtenteils gleichen
Vorzeichen miteinander, sind alle oder die meisten daraus resultierenden Produkte
ebenfalls positiv und bei Aufsummierung dieser Produkte ergibt sich ein entsprechend
hoher positiver Wert. Multipliziert man dagegen viele Wertpaare mit ausschließlich oder
größtenteils ungleichen Vorzeichen miteinander (im Fall von translating und football
wären dies beispielsweise drei solcher Wertpaare), so sind alle oder mehrere der daraus
resultierenden Produkte negativ und bei der Aufsummierung ergibt sich ein niedrigerer
positiver oder auch ein negativer Wert. In Abb. 15 ist zu sehen, dass das Skalarprodukt
aus den beiden ähnlichen Wortvektoren translating und interpreting den Wert 0,9 ergibt,
das Skalarprodukt der beiden weniger ähnlichen Wortvektoren translating und football
dagegen nur einen Wert von 0,45. Der intuitive Eindruck, dass sich die beiden Wörter
translating und interpreting semantisch näher sind als die beiden Wörter translating und
football, wird durch die Bildung der Skalarprodukte aus den entsprechenden Wort-
vektoren also mathematisch bestätigt.
Das Skalarprodukt dient also als Maß zur Bestimmung der Ähnlichkeit zwischen
zwei Vektoren sowie zwischen den durch die Vektoren repräsentierten Wörtern. Dem-
entsprechend bemisst der Self-Attention-Mechanismus das Maß an Aufmerksamkeit,
das bei der Erzeugung der kontextualisierten Repräsentation eines Wortes den ein-
zelnen Wörtern in der Sequenz geschenkt wird, nach der Ähnlichkeit zwischen dem
Query-Wort und den Key-Wörtern in der Sequenz. In Abb. 16 ist die Berechnung von
Attention-Scores für das vorletzte Wort der Input-Sequenz dargestellt.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 297
zur neuronalen maschinellen Übersetzung
Abb. 16: Berechnung der Attention-Scores für das Wort brainwave der Input-Sequenz (die
Darstellung orientiert sich an Alammar 2018b)
Ausgehend von dem Wort brainwave werden in Abb. 16 die Attention-Scores für sämt-
liche Wörter der Input-Sequenz berechnet, indem das Skalarprodukt aus dem Query-
Vektor des Wortes brainwave sowie den Key-Vektoren aller Wörter in der Input-Sequenz
berechnet wird. Die in Abb. 16 dargestellten Attention-Scores sind fiktiv und dienen
lediglich der Illustration. Die Scores drücken aus, wie relevant die jeweiligen Wörter der
Input-Sequenz für die kontextualisierte Repräsentation des aktuellen Wortes sind.
16
Der
in Abb. 16 dargestellte Prozess der Attention-Score-Berechnung wird für jedes Wort der
Input-Sequenz gesondert durchgeführt.
3. Schritt: Skalierung der Attention-Scores
Im nächsten Schritt werden die zuvor ermittelten Attention-Scores skaliert, wobei skalieren
hier in seiner Bedeutung von die Größe eines Wertes ändernzu verstehen ist. Dieser
Schritt ist in Abb. 17 dargestellt.
16
Wie zu sehen ist, hat für die Repräsentation des Wortes brainwave das Wort brainwave selbst die
höchste Relevanz. Das sollte nicht verwundern und ist aus der zuvor geschilderten Logik der Skalar-
produktbildung heraus erklärbar. Allerdings ist es für die Erzeugung der kontextualisierten Vektor-
repräsentation eines Wortes nicht von Vorteil, wenn der Fokus eines Wortes zulasten der anderen
Wörter der Input-Sequenz zu stark auf sich selbst liegt. Dieser Effekt kann durch das im gleichnamigen
Abschnitt erläuterte Konzept der Multi-Head Attention abgeschwächt werden.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 298
zur neuronalen maschinellen Übersetzung
Abb. 17: Skalierung der Attention- Scores als Teilschritt im Self-Attention-Prozess (Vaswani u. a.
2017: 4, eigene Hervorhebung)
Die Attention-Scores werden skaliert, indem sie durch den Wert 8 geteilt werden. Bei
diesem Skalierungswert handelt es sich um die Quadratwurzel aus der Dimensionalität
der Key-Vektoren von 64. Dieser Skalierungsschritt hat primär netzwerkinterne Gründe
und ist für das Verständnis der Transformer-Architektur nicht zwingend erforderlich. Kurz
und vereinfacht gesagt werden damit die in den weiteren Rechenschritten zu ver-
arbeiteten Werte verkleinert und damit die Leistungsfähigkeit des auf der Berechnung
von Skalarprodukten basierenden Self-Attention-Prozesses gesteigert.
17
An dieser
Stelle sollte klar geworden sein, weshalb Vaswani u. a. (2017: 4) den Self-Attention-
Prozess des Transformers als scaled dot-product attentionbezeichnen.
Die auf den Skalierungsschritt folgende optionale Maskierung (in Abb. 17 Mask [opt.])
hat folgende Funktion: Wenn Sequenzen in den Transformer eingespeist werden, die
kürzer sind als die längste vom Transformer zu verarbeitende Sequenz, wird diese
kürzere Sequenz bis zur maximalen Sequenzlänge mit sog. Padding-Token (<pad>)
aufgefüllt. Diese Token dienen lediglich als Platzhalter und haben keine semantische
Relevanz für die Wörter der Input-Sequenz. Damit der Self-Attention-Mechanismus
diese Token bei der Berechnung der Attention-Scores ignoriert, werden die Werte dieser
Token durch eine Maske (padding mask) auf minus unendlich (−∞) gesetzt. Dadurch
erhalten sie in der folgenden Softmax-Berechnung einen Wert nahe 0 und fallen bei den
weiteren Rechenschritten des Self-Attention-Prozesses nicht mehr ins Gewicht (vgl.
Vaswani u. a. 2017: 14; Stahlberg 2020: 10). Im Decoder gibt es noch einen weiteren,
diesmal obligatorischen, Maskierungsschritt, der sich in seinem Zweck von dem hier
erläuterten Maskierungsschritt unterscheidet. Dieser Schritt wird in Absatz 4.2
beschrieben.
17
Für eine mathematische Begründung dieses Skalierungsschritts siehe Vaswani u. a. (2017: 4).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 299
zur neuronalen maschinellen Übersetzung
4. Schritt: Normalisierung der Attention-Scores durch Umwandlung in Softmax-Scores
Im vierten Schritt werden die zuvor ermittelten und skalierten Attention-Scores an eine
Softmax-Funktion übergeben. Dieser Schritt ist in Abb. 18 dargestellt.
Abb. 18: Berechnung von Softmax-Scores als Teilschritt im Self-Attention-Prozess (Vaswani u. a.
2017: 4, eigene Hervorhebung)
Die Softmax-Funktion nimmt als Input eine Reihe von Werten (in unserem Fall die ska-
lierten Attention-Scores) und liefert als Output eine normalisierte Version dieser Werte,
die alle positiv sind und in Summe 1 ergeben. Die SciPy-Bibliothek für die Programmier-
sprache Python verfügt über eine leicht zugängliche Implementierung der Softmax-
Funktion. Der entsprechende Rechenprozess ist in Abb. 19 dargestellt.
Abb. 19: Softmax-Berechnung anhand konkreter Attention-Scores
Als skalierte Attention-Scores (scaled_attention_scores) werden hier die durch den Wert
8 dividierten fiktiven Attention-Scores aus Abb. 16 verwendet. Diese Scores werden
dann an die Softmax-Funktion übergeben (softmax[scaled_attention_scores]). Bei dem
Output in der untersten Zeile in Abb. 19 handelt es sich um die per Softmax-Funktion
normalisierten Attention-Scores, die nun in Summe 1 ergeben. Diese normalisierten
Scores werden auch als Attention-Gewichte (in Abb. 19 attention_weights) bezeichnet.
Diese Gewichte drücken bezogen auf einen Wertebereich von 0 bis 1 aus, wie relevant
die Wörter an den verschiedenen Positionen der Input-Sequenz für die Erzeugung der
kontextualisierten Repräsentation des aktuellen Wortes sind. Mit Blick auf Abb. 19
bedeutet dies beispielsweise, dass das Wort brainwave selbst für die Verarbeitung des
Wortes brainwave eine Relevanz von 0,29 oder 29 % hat, das Wort on dagegen nur eine
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 300
zur neuronalen maschinellen Übersetzung
Relevanz von 0,07 oder 7 %.
18
Die Softmax-Scores (im weiteren Verlauf nur noch als
Attention-Gewichte bezeichnet) vermitteln damit ein präziseres Verständnis von der
Relevanz der einzelnen Wörter als die nicht normalisierten Attention-Scores (in unserem
Beispiel on = -1,4 und brainwave = 9,5, siehe Abb. 16).
5. Schritt: Multiplikation der Attention-Gewichte mit den Value-Vektoren
Im fünften Schritt kommen nun die zusammen mit den Query- und Key-Vektoren ein-
geführten, aber noch nicht weiter erläuterten Value-Vektoren ins Spiel. Diese werden
nun mit den zuvor ermittelten Attention-Gewichten multipliziert. Dieser Teilschritt des
Self-Attention-Prozesses ist in Abb. 20 dargestellt.
Abb. 20: Multiplikation der Attention-Gewichte mit den Value-Vektoren als Teilschritt im Self-
Attention-Prozess (Vaswani u. a. 2017: 4, eigene Hervorhebung)
In Abb. 20 wird die späte Relevanz der Value-Vektoren im Self-Attention-Prozess noch
einmal deutlich. Während die Query- und Key-Vektoren die einzelnen Rechenschritte
auf der linken Seite durchlaufen (Bildung Skalarprodukt, Skalierung, optionale Maskie-
rung, Softmax-Berechnung) bleiben die Value-Vektoren bei diesen Rechenschritten
außen vor und kommen erst im fünften Schritt des Self-Attention-Prozesses ins Spiel.
Dieser Schritt wird in Abb. 20 wieder als Matrizenmultiplikation (MatMut) beschrieben.
Da wir den Self-Attention-Prozess aktuell aber aufgeschlüsselt für einzelne Wort-
vektoren betrachten, erfolgt hier erneut keine Matrizenmultiplikation, sondern die
einzelnen Value-Vektoren werden mit den zuvor ermittelten Attention-Gewichten multi-
pliziert. Dieser Prozess ist in Abb. 21 dargestellt.
18
Zur Erinnerung: Die Berechnung der Attention-Gewichte in unserem Beispiel erfolgte ausgehend von
dem Query-Wort brainwave (siehe Abb. 16). Daher sind diese Gewichte auch relativ zu diesem Wort
zu interpretieren. Die in Abb. 19 berechneten Attention-Gewichte 1 bis 6 drücken also aus, wie relevant
das zu dem jeweiligen Attention-Gewicht gehörende Wort für die kontextualisierte Repräsentation des
Wortes brainwave ist. Um eine solche Repräsentation für sämtliche Wörter unserer Input-Sequenz zu
erhalten, müssen für jedes Wort dieser Input-Sequenz sechs Attention-Gewichte berechnet werden.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 301
zur neuronalen maschinellen Übersetzung
Abb. 21: Multiplikation der Value-Vektoren mit den Attention-Gewichten (die Darstellung orientiert
sich an Alammar 2018b)
In Abb. 21 sind die bisherigen Rechenschritte der Übersicht halber noch einmal dar-
gestellt. Für das Wort brainwave wurde mittels der Berechnung des Skalarprodukts aus
dem Query-Vektor des Wortes brainwave und den Key-Vektoren aller Wörter in der
Input-Sequenz die Ähnlichkeit zwischen dem Wort brainwave und sämtlichen Wörtern
der Input-Sequenz ermittelt (= Attention-Scores). Die Attention-Scores wurden skaliert
(durch den Wert 8 dividiert) und per Softmax-Funktion so normalisiert, dass sie in
Summe den Wert 1 ergeben (= Attention-Gewichte). Die im oberen Bereich von Abb. 21
dargestellten Value-Vektoren v1 bis v6 fungieren wieder als Repräsentation der einzelnen
Wörter der Input-Sequenz. Indem diese Value-Vektoren mit den für die jeweiligen Wörter
ermittelten Attention-Gewichten multipliziert werden, erhalten die Value-Vektoren der
Wörter, die für die kontextuelle Repräsentation des Query-Wortes brainwave eine hohe
Relevanz haben, ein entsprechend hohes Gewicht (da sie mit einem Attention-Gewicht
multipliziert werden, das einen hohen Wert aufweist). Nach dem gleichen Prinzip er-
halten für das Query-Wort nur wenig relevante Value-Vektoren ein geringes Gewicht. Bis
zum vierten Schritt des Self-Attention-Prozesses war diese Relevanz nur durch einen
Zahlenwert (Attention-Score skalierter Attention-Score → Attention-Gewicht) quanti-
fiziert. Im aktuellen Schritt wird diese Relevanz nun auf die konkreten Vektorrepräsenta-
tionen der einzelnen Wörter (in Form ihrer Value-Vektoren) bezogen. Das Ergebnis sind,
wie in Abb. 21 dargestellt, nach ihrer Relevanz für das Query-Wort gewichtete Value-
Vektoren z1 bis z6.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 302
zur neuronalen maschinellen Übersetzung
6. Schritt: Addition der gewichteten Value-Vektoren
Im sechsten und letzten Schritt des Self-Attention-Prozesses werden die zuvor er-
zeugten gewichteten Value-Vektoren addiert und so der Output des Self-Attention-
Mechanismus erzeugt. Dieser Prozess ist in Abb. 22 dargestellt.
Abb. 22: Addition der gewichteten Value-Vektoren
Durch die Addition der ausgehend von dem Wort brainwave ermittelten gewichteten
Value-Vektoren wird ein neuer Vektor erzeugt, bei dem es sich um die kontextualisierte,
d. h. unter Berücksichtigung sämtlicher Wörter der Input-Sequenz erzeugte Vektorreprä-
sentation des Wortes brainwave handelt (in Abb. 22 bezeichnet als zX5 Kontext). In Abb. 22
ist die eigentliche Aufgabe des Self-Attention-Mechanismus noch einmal auf den Punkt
gebracht. Als Input erhält dieser Mechanismus dekontextualisierte, lediglich mit Positions-
informationen angereicherte Word Embeddings. Diese Embeddings durchlaufen die
verschiedenen zuvor beschriebenen Rechenschritte. Der Output des Self-Attention-
Mechanismus sind dann die gerade erläuterten kontextualisierten Wortvektoren. Diese
Vektoren werden dann zur weiteren Verarbeitung an die nächsten Schichten übergeben.
Der Self-Attention-Prozess als Matrizenberechnung
In den vorherigen Abschnitten wurde der Self-Attention-Prozess zur besseren Ver-
anschaulichung anhand eines einzelnen Wortes der Input-Sequenz erläutert. Wie
mehrfach erwähnt, werden in der Praxis die Embedding-Vektoren der einzelnen Wörter
zwecks einer schnelleren Verarbeitung durch den Transformer in einer Matrix zu-
sammengefasst und die einzelnen Rechenschritte nur mit dieser Matrix durchgeführt.
Dieser Prozess wird im Folgenden noch einmal in kompakter Form erläutert.
1. Schritt:
Statt Query-, Key- und Value-Vektoren für einzelne Wörter werden in der Praxis eine
Query-Matrix (Q), eine Key-Matrix (K) und eine Value-Matrix (V) für die in einer Matrix
(X) zusammengefassten Embedding-Vektoren der Input-Sequenz erzeugt.
19
Dazu wird,
19
Die sechs abstrakt dargestellten Zeilenvektoren x1 bis x6 wurden hier also zu der Matrix X gestapelt.
Diese Matrix hat die Größe 6x512 (Zahl der Input-Wörter x Dimensionalität der Word Embeddings).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 303
zur neuronalen maschinellen Übersetzung
wie in Abb. 23 dargestellt, die Matrix X mit den zuvor im Rahmen des Trainingsprozesses
trainierten Gewichtsmatrizen WQ, WK und WV multipliziert.
20
Abb. 23: Erzeugung von Query-, Key- und Value-Matrix (die Darstellung orientiert sich an
Alammar 2018b)
Jede Zeile in Matrix X entspricht einem Wort in der Input-Sequenz. Da unsere Input-
Sequenz sechs Wörter enthält, hat die Matrix X dementsprechend sechs Zeilen.
20
Die Gewichtsmatrizen WQ, WK und WV haben die Größe 512x64 (Dimensionalität der Word
Embeddings x Dimensionalität der durch die Gewichtsmatrizen erzeugten Query-, Key- und Value-
Matrizen Q, K und V). Diese Query-, Key- und Value-Matrizen haben dann die Größe 6x64.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 304
zur neuronalen maschinellen Übersetzung
2. bis 6. Schritt:
Der zweite bis sechste Schritt kann in der folgenden Formel zusammengefasst werden,
die den Output der Self-Attention-Schicht berechnet.
Abb. 24: Zweiter bis sechster Schritt des Self-Attention-Prozesses als Matrizenmultiplikation;
oben die Originalformel aus Vaswani u. a. (2017: 4), unten eigene Darstellung in Anlehnung an
Alammar (2018b)
Die Matrix Q enthält die Query-Vektoren aller Wörter der Input-Sequenz. Diese Matrix
wird mit der Matrix KT multipliziert
21
, die die Key-Vektoren aller Wörter in der Input-
Sequenz enthält. Das Ergebnis dieser Matrizenmultiplikation ist eine Score-Matrix (hier
nicht abgebildet), die die Attention-Scores sämtlicher Wörter der Input-Sequenz für
sämtliche Wörter der Input-Sequenz enthält. Diese Score-Matrix wird dann durch die
Quadratwurzel der Dimensionalität der Key-Vektoren (√dk) dividiert und somit skaliert.
Die skalierte Score-Matrix wird dann an die Softmax-Funktion übergeben, die daraus die
Attention-Gewichtsmatrix erzeugt. Eine solche Attention-Gewichtsmatrix hat die Größe
6x6 (Zahl Input-Wörter x Zahl Input-Wörter) und könnte wie in Abb. 25 aussehen.
21
Das T steht hier für Transpose und zeigt an, dass die Key-Matrix transponiert wurde, sprich, aus der
ursprünglich stehendenMatrix wurde durch Transposition eine liegendeMatrix (man spricht in
diesem Kontext auch davon, dass die Matrix gestürztwurde). Diese Transposition der Key-Matrix ist
erforderlich, da zwei Matrizen nur dann miteinander multipliziert werden können, wenn die Zahl der
Spalten der ersten Matrix (in Abb. 24 sind dies drei) der Zahl der Zeilen der zweiten Matrix entspricht
(nach der Transposition der Key-Matrix sind dies ebenfalls drei). Für weitere Informationen zu
mathematischen Vektor- und Matrizenoperationen im Kontext des Maschinellen Lernens siehe
Goodfellow u. a. (2016: 29ff.).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 305
zur neuronalen maschinellen Übersetzung
Abb. 25: Beispieldarstellung einer Attention-Gewichtsmatrix
In dieser Attention-Gewichtsmatrix ist also die Relevanz mtlicher Wörter der Input-
Sequenz für jedes dieser Wörter in der Input-Sequenz in Form eines Attention-Gewichts
dargestellt. Die Gewichtswerte in Abb. 25 sind wieder fiktiv und dienen lediglich der
Illustration. Diese Gewichtsmatrix wird dann, wie in Abb. 24 zu sehen, mit der Value-
Matrix V multipliziert, die sämtliche Value-Vektoren der Wörter der Input-Sequenz erhält.
Durch diesen Multiplikationsschritt wird, wie schon bei der Betrachtung auf Wortvektor-
ebene erwähnt, die in Attention-Gewichten ausgedrückte Relevanz der einzelnen Wörter
der Input-Sequenz füreinander auf die konkreten Vektorrepräsentationen der einzelnen
Wörter (in Form ihrer Value-Vektoren, hier zusammengefasst in der Value-Matrix V)
bezogen. Das Ergebnis ist die in Abb. 24 als ZKontext bezeichnete Matrix,
22
die eine
kontextualisierte Vektorrepräsentation sämtlicher Wörter der Input-Sequenz enthält.
23
22
Diese Z-Matrix hat, wie die Matrizen Q, K und V, die Größe 6x64.
23
Der im Kontext der Wortvektorbetrachtung separat erläuterte sechste Schritt, der die Addition der
gewichteten Value-Vektoren zum Gegenstand hatte, ist in Abb. 24 nicht gesondert zu sehen, da dieser
Additionsschritt bereits Teil der Matrizenmultiplikation ist. Bei der Multiplikation zweier Matrizen wird
das erste Element der ersten Zeile von Matrix 1 mit dem ersten Element der ersten Spalte von Matrix
2 multipliziert; zu diesem Produkt hinzuaddiert wird dann das Produkt aus dem zweiten Element der
ersten Zeile von Matrix 1 und dem zweiten Element der ersten Spalte von Matrix 2 usw. Die Addition
der Produkte der jeweiligen Zeilen- und Spaltenelemente entspricht der Addition der gewichteten
Value-Vektoren bei Betrachtung auf Wortvektorebene.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 306
zur neuronalen maschinellen Übersetzung
Multi-Head Attention
An dieser Stelle wird die letzte Komplexitätsebene des Self-Attention-Prozesses
eingeführt, die sog. Multi-Head Attention. Der zuvor beschriebene Self-Attention-
Prozess wird nicht einmal, sondern achtmal parallel durchgeführt. Für jeden dieser acht
Self-Attention-Prozesse ist ein separater Attention Head zuständig. Der Multi-Head-
Attention-Prozess ist in Abb. 26 dargestellt.
Abb. 26: Multi-Head Attention (Vaswani u. a. 2017: 4)
Das h im mittleren rechten Bereich der Abbildung steht für die Zahl der parallel
ablaufenden Self-Attention-Prozesse und wird in der Standard-Transformer-Architektur
durch die Zahl 8 ersetzt. Die ursprünglichen Embedding-Vektoren werden in jeweils acht
separate Query-, Key- und Value-Vektoren aufgespalten, in der linearen Schicht mit den
einzelnen Gewichtsmatrizen multipliziert und dadurch in acht verschiedene 64-
dimensionale Vektorräume projiziert. Hier ist anzumerken, dass die acht Query-, die acht
Key- und die acht Value-Repräsentationen sich jeweils voneinander unterscheiden (vgl.
Vaswani u. a. 2017: 4), sodass auch die Skalarprodukte aus den Query- und den Key-
Vektoren und damit die im Rahmen der einzelnen Self-Attention-Prozesse berechneten
Attention-Gewichte unterschiedlich ausfallen. Durch diese Aufspaltung des Self-Attention-
Prozesses in acht parallel verlaufende Teilprozesse mit jeweils unterschiedlichen Key-,
Query- und Value-Repräsentationen können also mehr und stärker unterschiedlich
gelagerte Informationen zu den Wortbezügen innerhalb der Input-Sequenz gelernt werden,
als dies mit nur einem einzigen Self-Attention-Prozess möglich ist (vgl. Vaswani u. a.
2017: 5; van Genabith 2020: 102).
Zu Beginn von Abschnitt 3.2.1 wurde bereits darauf hingewiesen, dass die Auf-
merksamkeitsverteilung zwischen den Wörtern der Input-Sequenz je nach Encoder-
Block und Attention Head unterschiedlich ausfällt, und dies anhand einer Visualisierung
der Aufmerksamkeitsverteilung in zwei unterschiedlichen Encoder-Blöcken illustriert. An
dieser Stelle soll noch einmal die unterschiedliche Aufmerksamkeitsverteilung in den
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 307
zur neuronalen maschinellen Übersetzung
verschiedenen Attention Heads eines Encoder-Blocks diskutiert werden. Dieses Phä-
nomen ist in Abb. 27 dargestellt.
Abb. 27: Unterschiedliche Aufmerksamkeitsverteilung im zweiten Attention Head (links) und im
siebten Attention Head (rechts) (gleicher Encoder-Block)
In Abb. 27 sind die Unterschiede zwischen der Aufmerksamkeitsverteilung im zweiten
Attention Head (das orangefarbene Kästchen an zweiter Stelle unterhalb von Layer 2)
und der Aufmerksamkeitsverteilung im siebten Attention Head (lilafarbenes Kästchen an
siebter Stelle unterhalb von Layer 2) im zweiten Encoder-Block dargestellt.
24
Im zweiten
Attention Head wird ausgehend von einem Query-Wort tendenziell die Relevanz der
Wörter in der unmittelbaren Umgebung dieses Wortes abgebildet. So liegt beispiels-
weise der Fokus des Query-Wortes machine in der linken Spalte hauptsächlich auf den
angrenzenden Key-Wörtern neural und translation in der rechten Spalte (m. a. W., das
Skalarprodukt zwischen dem Query-Wort und den beiden Key-Wörtern ist relativ groß).
Im siebten Attention Head dagegen liegt die Aufmerksamkeit der Query-Wörter dagegen
eher auf den Wörtern selbst.
25
So liegt beispielsweise der Fokus des Query-Wortes
translation hauptsächlich auf dem Key-Wort translation, d. h., das Skalarprodukt zwischen
Query- und Key-Vektor dieses Wortes ist hier am größten.
Innerhalb jedes dieser acht Attention Heads laufen die gleichen sechs zuvor be-
schriebenen Rechenschritte ab und der Output der einzelnen Attention Heads ist jeweils
24
Zur Erinnerung: Die Visualisierung wurde mit dem Tool BertViz (Vig o. J.) durchgeführt, das den Self-
Attention-Prozess innerhalb des neuronalen Sprachmodells BERT visualisiert. BERT arbeitet im
Gegensatz zur Standard-Transformer-Implementierung von NMÜ-Systemen nicht mit acht, sondern mit
zwölf Attention Heads. Das erklärt, weshalb in Abb. 27 zwölf farbige Kästchen zur Auswahl von zwölf
Attention Heads zur Verfügung stehen.
25
Dieser Effekt, dass sich ein Wort im Rahmen des Self-Attention-Prozesses selbst die höchste Auf-
merksamkeit schenkt (vgl. Abb. 16 u. Anm. 16), wird durch die Multi-Head Attention abgeschwächt.
Wie in Abb. 27 zu sehen ist, kommt diese Selbstbezogenheitvon Wörtern zwar in bestimmten
Attention Heads (hier Head 7), aber durchaus nicht in allen Heads zum Tragen (wie Head 2 zeigt).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 308
zur neuronalen maschinellen Übersetzung
eine Matrix ZKontext (siehe Abb. 24), die eine kontextualisierte Vektorrepräsentation
sämtlicher Wörter der Input-Sequenz unter Berücksichtigung der individuellen Aus-
prägung der Query-, Key- und Value-Vektoren in dem jeweiligen Attention Head enthält.
Diese acht ZKontext-Matrizen werden in einem nächsten Schritt zu einer Gesamtmatrix
aneinandergereiht (oder konkateniert, in Abb. 26 Concat) und in einer weiteren linearen
Schicht per Multiplikation mit einer weiteren Gewichtsmatrix WO in den finalen Output
der Self-Attention-Schicht transformiert (vgl. Vaswani u. a. 2017: 5). Dies ist in Abb. 28
dargestellt:
Abb. 28: Konkatenation der ZKontext-Matrizen der acht Attention Heads und Multiplikation mit der
Gewichtsmatrix WO zur Erzeugung des finalen Outputs der Self-Attention-Schicht (die Darstel-
lung orientiert sich an Alammar 2018b)
Auf der linken Seite in Abb. 28 ist die aus den acht ZKontext-Matrizen der Attention Heads
zusammengesetzte Gesamtmatrix dargestellt. Diese Matrix wird in der darauffolgenden
linearen Schicht mit der Gewichtsmatrix WO multipliziert
26
und so in die Matrix ZKontext gesamt
transformiert, die den finalen Output der Self-Attention-Schicht bildet. Diese Matrix hat
nun wieder die Größe 6x512 (Zahl der Input-Wörter x Dimensionalität der Word
Embeddings, siehe Anm. 19 u. 20). Hier wird noch einmal ein Vorteil der Dimensiona-
litätsreduzierung auf 64 während des Self-Attention-Prozesses deutlich. Zu Beginn ver-
arbeitet das System Embeddings (Word + Positional Embeddings) mit 512 Dimensionen.
Dann werden die Rechenprozesse auf acht parallele Attention Heads verteilt und die
Vektordimensionalität auf 1/8 der ursprünglichen Dimensionalität reduziert. Da acht Self-
26
Die Matrix WO ist nicht mit den zuvor diskutierten Query-, Key- und Value-Matrizen WQ, WK und WV
zu verwechseln. Aufgabe der ursprünglichen drei Matrizen ist es, die 64-dimensionalen Query-, Key-
und Value-Vektoren zu erzeugen. Aufgabe der Matrix WO ist es dagegen, die einzelnen von den acht
Attention Heads erzeugten Matrizen wieder in einer Gesamtmatrix zusammenzufassen. Die ent-
sprechenden Matrizenmultiplikationen finden jeweils in einer linearen Schicht statt.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 309
zur neuronalen maschinellen Übersetzung
Attention-Prozesse gleichzeitig ablaufen, verarbeitet das System in Summe immer noch
Repräsentationen mit 512 Dimensionen. Nachdem die parallelen Self-Attention-Prozesse
zum Abschluss gekommen sind, wird die Vektordimensionalität dann wieder auf 512
erhöht. Durch die Dimensionalitätsreduzierung im Self-Attention-Prozess wird also dafür
gesorgt, dass das System während des gesamten Encoder-Prozesses konstant Re-
präsentationen mit insgesamt 512 Dimensionen verarbeitet (vgl. Vaswani u. a. 2017: 5).
Damit schließt die recht umfangreiche und komplexe Betrachtung des Self-Attention-
Prozesses auf der Encoder-Seite des Transformers. Da dieser Self-Attention-Prozess
von wesentlicher Bedeutung für die hohe Leistungsfähigkeit moderner NMÜ-Systeme
und anderer moderner Sprachverarbeitungstechnologien ist, wurde seiner detaillierten
Betrachtung hier so viel Raum gegeben. Die weiteren Transformer-Komponenten außer-
halb des Self-Attention-Prozesses werden im weiteren Verlauf des Aufsatzes in stärker
kondensierter Form behandelt.
3.2.2 Feed-Forward-Schicht
Die Matrix ZKontext gesamt wird als finaler Output des Multi-Head-Self-Attention-
Mechanismus zur weiteren Verarbeitung an eine Feed-Forward-Schicht übergeben. Bei
dieser Schicht handelt es sich um ein neuronales Feed-Forward-Netz mit einer Input-
Schicht bestehend aus 512 Knoten (einem pro Vektordimension), einer verdeckten
Schicht aus 2048 Knoten und einer Output-Schicht mit erneut 512 Knoten. Die Ver-
arbeitung durch dieses Feed-Forward-Netz ist in Abb. 29 dargestellt.
Abb. 29: Weiterverarbeitung des Multi-Head-Attention-Outputs durch ein Feed-Forward-Netz
Die kontextualisierten Word-Embedding-Vektoren z1 bis z6 werden von dem Netz
gesondert parallel verarbeitet. Durch dieses Feed-Forward-Netz wird eine Komponente
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 310
zur neuronalen maschinellen Übersetzung
in die Transformer-Architektur eingebracht, die in den bisherigen Verarbeitungsschritten
noch fehlte, die für die Modellierung komplexer Input-Output-Beziehungen in neuronalen
Netzen jedoch besonders wichtig ist: eine nichtlineare Funktion (vgl. Koehn 2020: 69).
In dem vergrößert dargestellten Verarbeitungsknoten aus der verdeckten Schicht der
Feed-Forward-Netzes in Abb. 29 unten rechts ist die in dem Netz verwendete Funktion
zu sehen. Es handelt sich dabei um eine sogenannte ReLU-Aktivierungsfunktion
(Rectified Linear Unit), deren Funktionsweise beispielhaft in Abb. 30 dargestellt ist:
Abb. 30: Beispiel für ReLU-Aktivierungsfunktion im Feed-Forward-Netz des Encoders
Im oberen Teil der Abbildung ist eine mit zufälligen Werten im Wertebereich von -4 bis 5
erzeugte Z-Matrix zu sehen, die in unserem Beispiel der Matrix ZKontext gesamt in Abb. 29
entspricht. Die untere Matrix ist das Ergebnis der Verarbeitung durch die ReLU-Funktion.
Wie zu sehen ist, wurden durch die Funktion sämtliche negativen Werte auf null gesetzt
und die positiven Werte unverändert gelassen. Durch das Feed-Forward-Netz mit einer
nichtlinearen ReLU-Aktivierungsfunktion in der verdeckten Schicht wird der Werte-
bereich der Output-Werte also auf 0 bis potenziell unendlich eingeschränkt. Der
Transformer lernt dadurch noch einmal eine leistungsstärkere Repräsentation der kon-
textualisierten Word-Embedding-Vektoren (vgl. Koehn 2020: 209).
Die in Abb. 29 etwas sperrig als ZKontext gesamt final bezeichnete Matrix mit den Wort-
vektoren z1 bis z6 enthält die finale kontextualisierte Vektorrepräsentation der Input-Sequenz
NMT doesn’t feed on brainwave energy und bildet den Output eines Encoder-Blocks.
Dieser Output wird dann entweder zur weiteren Verarbeitung an die darüber liegenden
Encoder-Blöcke weitergeleitet oder, im Falle des sechsten und letzten Encoder-Blocks,
dem Decoder als Kontext für die Generierung der zielsprachlichen Output-Sequenz zur
Verfügung gestellt.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 311
zur neuronalen maschinellen Übersetzung
3.2.3 Residualverbindungen sowie Add-&-Norm-Schicht
Was bisher noch nicht betrachtet wurde, sind die Verbindungen, die um die Multi-Head-
Attention- und die Feed-Forward-Schicht herumlaufen und jeweils in einer Add-&-Norm-
Schicht enden. Diese Komponenten sind in Abb. 31 hervorgehoben:
Abb. 31: Residualverbindungen sowie Add-&-Norm-Schicht (Ausschnitt aus Vaswani u. a.
2017: 3, eigene Hervorhebung)
Bei den Verbindungen handelt es sich um sogenannte Residualverbindungen (residual
connections, auch als skip oder shortcut connections bezeichnet, vgl. Koehn 2020: 184).
Über diese Verbindungen wird jeweils eine Kopie der in der nachfolgenden Multi-Head-
Attention- bzw. Feed-Forward-Schicht zu verarbeitenden Matrix erstellt und diese Matrix-
Kopie in unverarbeiteter Form um die jeweilige Schicht herumgeführt (während die
ursprüngliche Matrix ganz normal die Verarbeitungsprozesse in der Multi-Head-
Attention- und der Feed-Forward-Schicht durchläuft). Solche Residualverbindungen
werden standardmäßig in tiefen neuronalen Netzen (deep neural networks) mit vielen
Verarbeitungsschichten eingesetzt und tragen insbesondere zu einem optimierten
Training dieser Netze bei (vgl. Koehn 2020: 135). Außerdem können durch diese
Verbindungen Informationen aus den unteren Schichten eines Encoder-Blocks (wie
beispielsweise Positional-Encoding-Informationen) besser in die oberen Schichten
transportiert werden (vgl. Vaswani 2019).
In der Add-&-Norm-Schicht werden die durch die vorherige Schicht verarbeitete
Matrix und die per Residualverbindung um die vorherige Schicht herumgeführte Matrix-
Kopie wieder zusammengeführt, indem sie addiert (Add) und einer sog. Schicht-
normalisierung (Layer Normalization, Norm) unterzogen werden.
27
Dieser Prozess der
Schichtnormalisierung ist in Abb. 32 dargestellt:
27
Für eine detailliertere Erläuterung zu Residualverbindungen und Schichtnormalisierungen siehe Koehn
(2020: 183185).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 312
zur neuronalen maschinellen Übersetzung
Abb. 32: Schichtnormalisierung nach der Multi-Head-Attention-Schicht im untersten Encoder-
Block (die Darstellung orientiert sich an Alammar 2018b)
In der Abbildung ist zu sehen, wie die ursprüngliche Word-Embedding-Matrix X einmal
zur Verarbeitung in die Multi-Head-Attention-Schicht geführt und einmal per Residual-
verbindung um diese Schicht herumgeführt wird. In der Add-&-Norm-Schicht werden die
verarbeitete Matrix Z und die unverarbeitete Matrix X addiert und es findet eine Schicht-
normalisierung statt. Durch eine solche Normalisierung kann die Trainingszeit von
neuronalen Netzen verkürzt sowie die Generalisierungsleistung dieser Netze gesteigert
werden (vgl. Ba u. a. 2016).
28
Damit ist die Betrachtung der Encoder-Seite des Transformers abgeschlossen. Die
Betrachtung der Decoder-Seite wird deutlich kürzer ausfallen, da der Großteil der
relevanten Konzepte bereits in angemessener Detailtiefe im Kontext der Encoder-
Betrachtung erläutert wurde.
4 Decoder-Seite des Transformers
Aufgabe des Decoders ist es, auf Grundlage der vom Encoder aufgebauten abstrakten
Vektorrepräsentation des Ausgangstextes den Zieltext zu erzeugen. Im Gegensatz zum
parallel arbeitenden Encoder geht der Decoder bei diesem Prozess (wie der Decoder
eines RNN) sequenziell vor, d. h., er gibt Schritt für Schritt das nächste Wort der ziel-
sprachlichen Output-Sequenz aus. Nachdem der Decoder ein zielsprachliches Wort
erzeugt hat, wird dieses wieder als zusätzlicher Kontext in den untersten Decoder-Block
eingespeist. Dieser Prozess wird so lange wiederholt, bis der Decoder ein <eos>-Token
28
Für eine detaillierte mathematische Erläuterung der Schichtnormalisierung siehe Bloem (2020).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 313
zur neuronalen maschinellen Übersetzung
(end of sentence) generiert, das den Abschluss der Output-Sequenz markiert. Die
komplette Decoder-Seite des Transformers ist in Abb. 33 dargestellt.
Abb. 33: Decoder-Seite des Transformers (Ausschnitt aus Vaswani u. a. 2017: 3)
Wie zu sehen ist, gleicht der Aufbau der Decoder-Seite stark dem Aufbau der Encoder-
Seite. Neue oder modifizierte Elemente sind die Masked-Multi-Head-Attention-Schicht,
eine leicht abweichende Funktionsweise der darüber liegenden Multi-Head-Attention-
Schicht (illustriert durch die beiden Pfeile, die von links kommend auf die Schicht
zulaufen) sowie die lineare Schicht und die Softmax-Schicht oberhalb des letzten
Decoder-Blocks. Die folgenden Betrachtungen konzentrieren sich auf diese neuen oder
modifizierten Elemente.
4.1 Output Embedding und Positional Encoding
Der Decoder wird durch ein <start>-Token initialisiert (vgl. Uszkoreit 2017). Dieses
Token zeigt dem Decoder an, dass er mit der Generierung einer zielsprachlichen Output-
Sequenz beginnen soll. Das <start>-Token belegt die erste Position in dieser Output-
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 314
zur neuronalen maschinellen Übersetzung
Sequenz, und die eigentlichen Wörter der Output-Sequenz werden um eine Position
nach rechts verschoben (in Abb. 33 Outputs [shifted right]). Das Token wird durch die
Embedding-Matrix in einen Embedding-Vektor umgewandelt, durch Addition mit einem
Positional-Encoding-Vektor mit Positionsinformationen angereichert und zur weiteren
Verarbeitung an die nachfolgenden Schichten übergeben.
4.2 Masked Multi-Head Attention
Das Prinzip der Masked Multi-Head Attention kommt in der Trainingsphase des Trans-
formers zum Tragen. In dieser Phase wird der Transformer mit großen zweisprachigen
Textkorpora bestehend aus Ausgangstexten und deren Übersetzungen trainiert. Im
Rahmen des Trainings soll der Decoder lernen, auf Grundlage der zuvor im Encoder
erzeugten kontextualisierten Vektorrepräsentation der Input-Sequenz eine zielsprach-
liche Output-Sequenz zu generieren.
29
Dabei soll der Decoder sequenziell und auto-
regressiv vorgehen (vgl. Vaswani u. a. 2017: 2), d. h. die Output-Sequenz Schritt für
Schritt erzeugen und bei der Erzeugung des jeweils nächsten Outputs-Worts neben der
Input-Sequenz des Encoders auch die bisher schon generierten Output-Wörter
berücksichtigen (wie dies bei der RNN-Architektur für NMÜ-Systeme der Fall ist). Da
dem Transformer jedoch beim Training schon die vollständige Output-Sequenz (in Form
der Übersetzung eines bestimmten Ausgangstextes im Trainingskorpus) zur Verfügung
gestellt wird und die Transformer-Architektur für eine parallele Verarbeitung ausgelegt
ist, könnte der Decoder im Trainingsprozess prinzipiell bereits auf die Wörter an der
aktuellen Position sowie an den künftigen Positionen der Output-Sequenz zugreifen und
würde so lediglich lernen, diese Wörter zu kopieren. Um dies zu verhindern, werden die
Wörter an den künftigen Positionen der Output-Sequenz maskiert (vgl. Vaswani 2019;
Bloem 2019, 2020). Dazu wird über die Matrix, die die skalierten Attention-Scores enthält
(d. h. über die Matrix, die im nächsten Schritt an die Softmax-Funktion übergeben wird,
siehe Übersichtsdarstellung in Abb. 21), eine Maske gelegt, durch die die Werte aller
skalierten Attention-Scores oberhalb der Matrix-Diagonalen auf minus unendlich gesetzt
werden (vgl. Funktionsweise der Padding-Maske im Encoder). In der offiziellen
Transformer-Implementierung wird diese Maske als look_ahead_mask (vgl. TensorFlow
2021) und in einigen anderen Transformer-Implementierungen vielleicht noch etwas
29
Der Trainingsprozess eines Transformers gleicht insgesamt dem Trainingsprozess eines RNN-
Systems zur neuronalen maschinellen Übersetzung sowie dem Trainingsprozess von neuronalen
Netzen im Allgemeinen. In der Trainingsphase wird der vom Transformer produzierte Output (Ist-
Output) mit der tatsächlichen Übersetzung (Soll-Output, dieser liegt als Zielseite der Trainingsdaten
vor) abgeglichen und anhand einer Kostenfunktion (im Transformer-Kontext ist dies die Kreuzentropie
bzw. die Kullback-Leibler-Divergenz, zu Details siehe Alammar 2018b, Agarwal 2020a) die Ist-Soll-
Differenz (Netzfehler) ermittelt. Dieser Netzfehler wird dann anhand des sog. Backpropagation-
Algorithmus rückwärts durch das Netz propagiert und die trainierbaren Parameter des Netzes werden
in Abhängigkeit von ihrem jeweiligen Einfluss auf den Netzfehler nachjustiert (vgl. Koehn 2020: 72ff.).
Bei diesen trainierbaren Parametern handelt es sich insbesondere um die Gewichtungen der
Neuronenverbindungen in den einzelnen Feed-Forward-Schichten und den linearen Schichten des
Transformers, beispielsweise um die Gewichtungen der Gewichtsmatrizen WQ, WK, WV und WO.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 315
zur neuronalen maschinellen Übersetzung
treffender als nopeak_mask (vgl. Lynn-Evans 2018) bezeichnet. Dieser Maskierungs-
schritt ist in Abb. 34 dargestellt.
Abb. 34: Maskierung der skalierten Attention-Scores und Softmax-Normalisierung
Auf der linken Seite von Abb. 34 ist zu sehen, dass die skalierten Attention-Scores
oberhalb der Matrix-Diagonalen per Look-Ahead-/No-Peak-Maske auf minus unendlich
gesetzt wurden. Die Softmax-Funktion weist diesen Werten dann einen Wert nahe null
(auf der rechten Seite von Abb. 34 als 0 dargestellt) zu. Die Value-Vektoren der Wörter,
auf die der Decoder an einer bestimmten Stelle des Self-Attention-Prozesses noch nicht
zugreifen darf, werden mit diesem Wert nahe null multipliziert und spielen dadurch bei
der Frage, welches Wort der Output-Sequenz der Decoder als nächstes generieren soll,
keine Rolle mehr. Auf der rechten Seite von Abb. 34 sieht der Decoder beispielsweise
an der Position <start> in der obersten Zeile rechts von der Position <start> nur noch
Nullen, d. h., die an dieser Position stehenden Wörter bleiben ihm verborgen. Gleiches
gilt für die Position Die in der zweiten Zeile, für die Position NMÜ in der dritten Zeile usw.
In allen Fällen sind sämtliche Positionen rechts von der aktuellen Position maskiert und
für den Decoder damit nicht sichtbar.
30
Der Output der Masked-Multi-Head-Attention-
Schicht wird dann zur weiteren Verarbeitung an die nächste Multi-Head-Attention-
Schicht übergeben.
4.3 Multi-Head-Attention (Encoder-Decoder Attention) und Feed-Forward-
Schicht
In der Multi-Head-Attention-Schicht wird nun eine Verbindung zwischen dem Encoder
und dem Decoder hergestellt, indem der Encoder dem Decoder seine finale kon-
30
Zusätzlich zu der obligatorischen Look-Ahead-Maskierung in der Masked-Multi-Head-Attention-Schicht
ist in dieser Schicht sowie in der darauffolgenden Multi-Head-Attention-Schicht auch noch eine
Padding-Maskierung möglich. Diese ist vergleichbar mit der Padding-Maskierung im Encoder (vgl.
TensorFlow 2021; siehe außerdem Diskussion unter Skalierung der Attention-Scores in Abschnitt
3.2.1).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 316
zur neuronalen maschinellen Übersetzung
textualisierte Vektorrepräsentation der Input-Sequenz zur Verfügung stellt. Aus diesem
Grund wird dieser Attention-Prozess, wie eingangs erläutert, auch als Encoder-Decoder
Attention oder als Cross-Attention bezeichnet. Durch diese Cross-Attention-Verbindung
stehen dem Decoder bei der Generierung des jeweils nächsten zielsprachlichen Wortes
der Output-Sequenz sowohl die bisher generierten zielsprachlichen Wörter als auch die
Repräsentation sämtlicher ausgangssprachlicher Wörter der Input-Sequenz zur Verfügung.
Der Decoder arbeitet im Rahmen des Self-Attention-Prozesses ebenso wie der Encoder
mit Query-, Key- und Value-Repräsentationen. Der Unterschied bei der Encoder-
Decoder Attention besteht darin, dass die Query-Vektoren aus dem Output der
darunterliegenden Masked-Multi-Head-Attention-Schicht des Decoders, die Key- und
Value-Vektoren dagegen aus dem finalen Output des Encoders gebildet werden (vgl.
TensorFlow 2021). Durch einen Query-Vektor wird in der Encoder-Decoder-Attention-
Schicht also abgefragt, wie relevant für die Generierung des nächsten zielsprachlichen
Wortes die ausgangssprachlichen Wörter der Input-Sequenz sind. Abgefragt werden
dabei die Key-Vektoren dieser ausgangssprachlichen Wörter. Dieser Prozess ist in Abb.
35 dargestellt.
Abb. 35: Encoder-Decoder Attention
Im unteren Bereich von Abb. 35 ist zunächst noch einmal der im vorangegangenen
Abschnitt erläuterte Prozess der Masked Multi-Head Attention dargestellt. Hier wird eine
Repräsentation erzeugt (in Abb. 35 abstrakt als <next word> bezeichnet), auf deren
Grundlage der Decoder später das nächste zielsprachliche Wort der Output-Sequenz
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 317
zur neuronalen maschinellen Übersetzung
ausgeben soll. In diese Repräsentation fließen Informationen zu den bisher generierten
zielsprachlichen Wörtern ein. In der Encoder-Decoder Attention wird aus dieser Re-
präsentation ein Query-Vektor gebildet. Ausgehend von diesem Query-Vektor werden
nun die vom Encoder zur Verfügung gestellten kontextualisierten Repräsentationen der
ausgangssprachlichen Wörter (in Form von Key-Vektoren) darauf abgefragt, wie rele-
vant sie jeweils für das zielsprachliche Wort sind, das im aktuellen Decoder-Schritt
erzeugt werden soll. Dazu wird das Skalarprodukt aus dem Query-Vektor und den
einzelnen Key-Vektoren (= Attention Scores) gebildet und die nächsten Rechenschritte
(Skalierung Attention-Scores → Berechnung Attention-Gewichte per Softmax-Funktion,
in Abb. 35 nicht dargestellt) durchgeführt. Die Attention-Gewichte werden mit den
ebenfalls vom Encoder zur Verfügung gestellten Value-Vektoren multipliziert und die
gewichteten Value-Vektoren
31
dann zu dem hier als zy3 Kontext bezeichneten Vektor
summiert. Dieser Vektor enthält nun Informationen zur Generierung des nächsten ziel-
sprachlichen Wortes, die aus den bisher erzeugten zielsprachlichen Wörtern sowie aus
sämtlichen ausgangssprachlichen Wörtern der Output-Sequenz gewonnen wurden.
Dieser Vektor wird dann zur weiteren Verarbeitung an ein Feed-Forward-Netz über-
geben, das in seinem Aufbau, seiner Funktionsweise und seinem Zweck mit dem Feed-
Forward-Netz auf der Encoder-Seite identisch ist.
In den Decoder-Blöcken gibt es wie in den Encoder-Blöcken Residualverbindungen
sowie Add-&-Norm-Schichten. Auch diese sind in ihrem Aufbau, ihrer Funktionsweise
und ihrem Zweck identisch mit ihren Pendants auf der Encoder-Seite und werden daher
an dieser Stelle nicht mehr weiter erläutert.
4.4 Lineare Schicht und Softmax-Schicht
Die auf den letzten Decoder-Block folgende lineare Schicht und Softmax-Schicht sind in
Abb. 36 dargestellt.
Abb. 36: Lineare Schicht und Softmax-Schicht oberhalb des letzten Decoder-Blocks (Ausschnitt
aus Vaswani u. a. 2017: 3)
Durch die lineare Schicht wird der Output-Vektor des letzten Decoder-Blocks von einem
512-dimensionalen Vektor in einen deutlich größeren Vektor transformiert, dessen
31
Dabei handelt es sich um die in Abb. 35 rot eingefärbten Vektoren z1 bis z6. Diese Vektoren sind nicht
mit den identisch benannten gelb eingefärbten Vektoren z1 bis z6 im Encoder-Output zu verwechseln,
aus denen die Key- und Value-Vektoren r die Self-Attention-Berechnung in der Encoder-Decoder-
Attention-Schicht gebildet werden.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 318
zur neuronalen maschinellen Übersetzung
Dimensionalität der Größe des vom Transformer gelernten zielsprachlichen Vokabulars
entspricht (vgl. Alammar 2018b; Agarwal 2020a). In diesem Vektor repräsentiert jede
Vektordimension ein Wort des zielsprachlichen Vokabulars, dem der entsprechende
Zahlenwert für diese Dimension zugewiesen wird. Dieser Vokabularvektorwird dann
an eine Softmax-Funktion übergeben, durch die diese Werteverteilung so normalisiert
wird, dass die Einzelwerte in Summe 1 ergeben (siehe die Diskussion der Softmax-
Funktion im Kontext des Self-Attention-Prozesses). Dieser Prozess ist in Abb. 37 dargestellt.
Abb. 37: Erzeugung des nächsten zielsprachlichen Wortes durch die lineare Schicht und die
Softmax-Schicht oberhalb des letzten Decoder-Blocks
Als Input für die lineare Schicht dient hier der Beispielvektor zy3 Kontext aus Abb. 35. Die
Dimensionalität dieses Vektors (= 512) wird durch die lineare Schicht auf die Größe des
vom Transformer gelernten zielsprachlichen Vokabulars erhöht.
32
Durch die Softmax-
Funktion wird dann eine Wahrscheinlichkeitsverteilung über das gesamte Vokabular
erzeugt. Wie rechts in Abb. 37 zu sehen, wird dem Eintrag NMÜ die höchste Wahr-
scheinlichkeit (probability, p) zugewiesen. Beim sog. Greedy Decoding würde nun dieses
32
Transformer-Systeme arbeiten i. d. R. mit einem relativ kleinen Vokabular von beispielsweise 20.000
bis 80.000 Wörtern (vgl. Koehn 2020: 224), da mit zunehmender Vokabulargröße die Rechen-
komplexität des im aktuellen Schritt geschilderten Prozesses immer mehr zunimmt (vgl. van Genabith
2020: 94). Ein solches Vokabular deckt selbstverständlich nicht sämtliche Wörter des Lexikons einer
Sprache ab. Daher handelt es sich bei den vom Transformer gelernten Wörtern häufig nicht um voll-
ständige Wörter, sondern um sog. Subwörter. Beispielsweise könnte ein Wort wie lowest in die Sub-
wörter low und est aufgespalten und mit dem Subwort est weitere Superlative (wie z. B. high-est) gebildet
werden. Die vier Wörter low, lowest, high und highest könnten also aus nur drei Subwörtern gebildet und
das erforderliche Transformer-Vokabular so reduziert werden. Für eine detaillierte Erläuterung des
Subwortverfahrens siehe beispielsweise Koehn (2020: 224ff.) und van Genabith (2020: 94ff.).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 319
zur neuronalen maschinellen Übersetzung
Wort als nächstes zielsprachliches Wort ausgegeben (wie dies in Abb. 37 dargestellt ist)
und im nächsten Schritt als zusätzlicher Input in den untersten Decoder-Block ein-
gespeist. Wenn in jedem Schritt allerdings immer nur das jeweils wahrscheinlichste Wort
ausgegeben wird, kann es zu einem Garden-Path-Effekt kommen, d. h., der Decoder
gibt an einer vorderen Stelle des Satzes das wahrscheinlichste Wort aus, was sich im
weiteren Verlauf des Satzes dann als Fehler herausstellt, der dann allerdings nicht mehr
korrigiert werden kann (vgl. Stahlberg 2020: 19). Dieser Effekt kann durch die sog. Beam
Search vermieden werden, bei der in jedem Schritt nicht nur das wahrscheinlichste,
sondern z. B. die zwei wahrscheinlichsten Wörter (Beam Size = 2) berücksichtigt werden
und bei der dann mit beiden Varianten weitergerechnet wird. Die schlechtere der beiden
Varianten wird dann in einem späteren Schritt wieder verworfen.
33
5 Zusammenwirken der Encoder- und der Decoder-Seite des
Transformers
Die Betrachtung der relevanten Bausteine und Funktionsprinzipien der Transformer-
Architektur ist an dieser Stelle abgeschlossen. In Abb. 38 ist der gesamte Transformer-
Prozess noch einmal dargestellt.
Abb. 38: Transformer-Gesamtprozess
33
Detaillierte Erläuterungen des Beam-Search-Verfahrens finden sich in Agarwal (2020a), Koehn (2020:
304ff.) und Stahlberg (2020: 18ff.). In dem Original-Paper von Vaswani u. a. arbeitet der Transformer mit
einem Beam-Search-Algorithmus mit einer Beam Size von 4 (vgl. Vaswani u. a. 2017: 8). In dem aktuellen
Aufsatz wird mit dem Ziel einer einfacheren Darstellung das Greedy-Decoding-Prinzip zugrunde gelegt.
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 320
zur neuronalen maschinellen Übersetzung
Die Input-Sequenz NMT doesn’t feed on brainwave energy durchläuft sämtliche im
Kontext des Encoders erläuterten Schritte, von denen hier der Übersichtlichkeit halber
nur noch die wichtigsten dargestellt sind. Der Output des obersten Encoder-Blocks ist
eine kontextualisierte Vektorrepräsentation der gesamten Input-Sequenz. Der Decoder
wird mit einem <start>-Token initialisiert und erzeugt daraufhin Wort für Wort die
zielsprachliche Output-Sequenz. In der Masked-Multi-Head-Attention-Schicht wird die
Relevanz der bisher schon generierten zielsprachlichen Wörter für das nächste zu
generierende Wort ermittelt. In der darauffolgenden Multi-Head-Attention-Schicht
(Encoder-Decoder Attention/Cross-Attention) steht dem Decoder dann zusätzlich die
kontextualisierte Vektorrepräsentation der Input-Sequenz (in Form von Key- und Value-
Vektoren) zur Verfügung. Hier wird ermittelt, wie relevant die ausgangssprachlichen
Wörter der Input-Sequenz für die Generierung des nächsten zielsprachlichen Output-
Wortes sind. Der Output des obersten Decoder-Blocks wird an eine lineare Schicht und
dann an eine Softmax-Schicht übergeben, durch die jedem Wort des vom Transformer
gelernten zielsprachlichen Vokabulars ein Wahrscheinlichkeitswert zugewiesen wird.
Das Wort mit der höchsten Wahrscheinlichkeit stellt das im aktuellen Decoder-Schritt zu
generierende zielsprachliche Wort dar.
34
Dieses Wort wird dann als zusätzlicher ziel-
sprachlicher Kontext in den untersten Decoder-Block eingespeist und der Prozess
beginnt von Neuem, bis das nächste zu generierende Wort ein <eos>-Token ist, mit dem
das Ende der Output-Sequenz signalisiert wird.
35
6 Weiterentwicklungen im Bereich der Transformer-Architektur
An dieser Stelle soll noch kurz auf einige neue Entwicklungen im Bereich der
Transformer-Architektur hingewiesen werden. Da die ursprüngliche Architektur im Jahr
2017 entwickelt wurde und vier Jahre in der modernen (sprachorientierten) KI-Forschung
bereits eine kleine Ewigkeit sind, ist es wenig verwunderlich, dass in der Zwischenzeit
mit Blick auf die Originalarchitektur zahlreiche Optimierungen vorgeschlagen wurden. So
wurde beispielsweise ein neuer Ansatz zur Erzeugung der Positional-Encoding-Vektoren
ohne Rückgriff auf eine Sinus- und eine Kosinusfunktion entwickelt. Bei diesem neuen
Ansatz, der von den Autoren als Relation-aware Self-Attention (Shaw u. a. 2018)
bezeichnet wird, werden die relativen Positionen oder Abstände der Elemente der Input-
Sequenz zueinander erfasst und im Self-Attention-Prozess berücksichtigt. In dem
Evolved Transformer (So u. a. 2019) wird die ursprüngliche Transformer-Architektur
durch neue Komponenten wie Konvolutionen (die zentralen Bestandteile von sog.
Convolutional Neural Networks) und Gated Linear Units ergänzt und so bei einer klei-
neren Modellgröße eine höhere Output-Qualität erzielt. Eine weitere Optimierung ist
unter dem Namen Reformer(Kitaev/Kaiser 2020) bekannt. Dabei handelt es sich um
eine im Vergleich zur Originalarchitektur effizientere Transformer-Variante, die Sequenzen
34
Siehe allerdings die vorangegangene Diskussion zu Greedy Decoding vs. Beam Search.
35
Dynamische Visualisierungen des Transformer-Gesamtprozesses finden sich in Alammar (2018b),
Uszkoreit (2017) und Agarwal (2020a,b).
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 321
zur neuronalen maschinellen Übersetzung
mit einer Länge von bis zu einer Million Wörter verarbeiten kann. In eine ähnliche
Richtung zielt der sog. Linformer(Wang u. a. 2020), durch dessen überarbeiteten Self-
Attention-Mechanismus die Arbeitsspeicheranforderungen und der Zeitaufwand für das
Training von Transformer-Systemen reduziert werden können. Durch diese Weiter-
entwicklungen wird die Transformer-Architektur zwar in verschiedener Hinsicht optimiert,
das grundlegende Funktionsprinzip des Transformers jedoch nicht wesentlich verändert.
7 Schlussbetrachtung
Ziel dieses Aufsatzes war es, einen Einstiegspunkt zu schaffen für eine umfassendere
Erschließung der Architektur und Funktionsweise moderner NMÜ-Systeme für Akteure
aus der Übersetzungspraxis sowie der Translations- und der Fachkommunikations-
wissenschaft. Angestrebt wurde dabei eine möglichst lückenlose Detailbetrachtung der
einzelnen Komponenten und Prozesse der Transformer-Architektur für NMÜ-Systeme.
Dazu wurden neben der einschlägigen Fachliteratur zu Transformern und zu NMÜ-
Systemen im Allgemeinen auch verschiedene popularisierende Darstellungen mit
hohem didaktischen Nutzen ausgewertet, die im Literaturverzeichnis aufgeführt sind und
ergänzend zur Lektüre dieses Aufsatzes mit großem Gewinn gelesen werden können.
An dieser Stelle soll auch noch kurz auf das durch die EU geförderte Forschungsprojekt
MultiTraiNMT Machine Translation Training for Multilingual Citizens (MultiTraiNMT o. J.)
hingewiesen werden, dessen Ziel es ist, Schulungsunterlagen mit Einführungscharakter
zum Thema neuronale zu entwickeln, die Akteuren aus der Hochschullandschaft
und der Berufspraxis unter einer freien Lizenz zur Verfügung gestellt werden sollen. Es
gibt derzeit also auf breiterer Front Bestrebungen, die Funktionsweise der neuronalen
MÜ einem größeren Adressatenkreis über die Computerlinguistik und die sprach-
orientierte KI-Forschung hinaus zugänglich zu machen. Für das Ziel einer angemessenen
Machine Translation Literacy im Kontext der Translation/Fachkommunikation sollten
diese Bestrebungen förderlich sein.
Danksagung
Mein besonderer Dank gilt Herrn Prof. Dr. Josef van Genabith von der Universität des Saarlandes
für die fachliche Durchsicht der Manuskriptfassung dieses Aufsatzes.
Literatur
Agarwal, Rahul (2020a): “What are transformer models in machine learning?” Lionbridge AI
https://lionbridge.ai/articles/what-are-transformer-models-in-machine-learning/ (30.04.2021)
Agarwal, Rahul (2020b): “Transformers in NLP: Creating a translator model from scratch.
Lionbridge AIhttps://lionbridge.ai/articles/transformers-in-nlp-creating-a-translator-model-
from-scratch/ (30.04.2021)
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 322
zur neuronalen maschinellen Übersetzung
Alammar, Jay (2018a): “Visualizing a neural machine translation model (Mechanics of Seq2seq
models with attention.” Visualizing Machine Learning One Concept at a Time Blog
https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-
models-with-attention/ (30.04.2021)
Alammar, Jay (2018b): “The illustrated transformer.” Visualizing Machine Learning One Concept
at a Time Bloghttp://jalammar.github.io/illustrated-transformer/ (30.04.2021)
Alammar, Jay (2019): “The illustrated Word2vec.” Visualizing Machine Learning One Concept at
a Time Bloghttps://jalammar.github.io/illustrated-word2vec/ (30.04.2021)
Ba, Jimmy Lei; Jamie Ryan Kiros, Geoffrey E. Hinton (2016): “Layer normalization.” arXiv
https://arxiv.org/abs/1607.06450 (30.04.2021)
Bloem, Peter (2019): Transformers from scratch http://peterbloem.nl/blog/transformers
(30.04.2021)
Bloem, Peter (2020): “Transformers and self-attention. Lecture 12.2 transformers.” Präsentation
im Rahmen der Veranstaltung Deep Learning an der Freien Universität Amsterdam
https://www.youtube.com/watch?v=oUhGZMCTHtI (30.04.2021)
Brown, Tom; Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla
Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini
Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya
Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler,
Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam
McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei (2020): “Language models are few-
shot learners.” Hugo Larochelle, Marc’Aurelio Ranzato, Raja Hadsell, Maria-Florina Balcan,
Hsuan-Tien Lin (Hg.): Advances in Neural Information Processing Systems 33 (NeurIPS
2020), 1–25
https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
(30.04.2021)
trans-kom ISSN 1867-4844
trans-kom ist eine wissenschaftliche Zeitschrift für Translation und Fachkommunikation.
trans-kom veröffentlicht Forschungsergebnisse und wissenschaftliche Diskussionsbeiträge zu Themen
des Übersetzens und Dolmetschens, der Fachkommunikation, der Technikkommunikation, der Fach-
sprachen, der Terminologie und verwandter Gebiete.
Beiträge können in deutscher, englischer, französischer oder spanischer Sprache eingereicht werden.
Sie müssen nach den Publikationsrichtlinien der Zeitschrift gestaltet sein. Diese Richtlinien können von
der trans-kom-Website heruntergeladen werden. Alle Beiträge werden vor der Veröffentlichung anonym
begutachtet.
trans-kom wird ausschließlich im Internet publiziert: http://www.trans-kom.eu
Redaktion
Leona Van Vaerenbergh Klaus Schubert
University of Antwerp Universität Hildesheim
Arts and Philosophy Institut für Übersetzungswissenschaft
Applied Linguistics / Translation and Interpreting und Fachkommunikation
O. L. V. van Lourdeslaan 17/5 Universitätsplatz 1
B-1090 Brussel D-31141 Hildesheim
Belgien Deutschland
Leona.VanVaerenbergh@uantwerpen.be klaus.schubert@uni-hildesheim.de
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 323
zur neuronalen maschinellen Übersetzung
Devlin, Jacob; Ming-Wei Chang, Kenton Lee, Kristina Toutanova (2019): BERT: Pre-training of
deep bidirectional transformers for language understanding.” Jill Burstein, Christy Doran,
Thamar Solorio (Hg.): Proceedings of the 2019 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language Technologies, Volume 1
(Long and Short Papers). Association for Computational Linguistics, 41714186
https://www.aclweb.org/anthology/N19-1423/ (30.04.2021)
Duke University (o. J. a): “Self-attention and positional encodings.” Schulungsvideo im Rahmen
des Coursera-Onlinekurses Introduction to Machine Learning
https://www.coursera.org/learn/machine-learning-duke/lecture/AMoyH/self-attention-and-
positional-encodings (30.04.2021)
Duke University (o. J. b): “Intuition into meaning of inner products of word vectors.” Schulungs-
video im Rahmen des Coursera-Onlinekurses Introduction to Machine Learning
https://www.coursera.org/learn/machine-learning-duke/lecture/FP0cc/intuition-into-
meaning-of-inner-products-of-word-vectors (30.04.2021)
ELIS (2020): European Language Industry Survey 2020
https://ec.europa.eu/info/sites/info/files/2020_language_industry_survey_report.pdf
(30.04.2021)
Forcada, Mikel L. (2017): “Making sense of neural machine translation.” Translation Spaces 6 [2]:
291309
Genabith, Josef van (2020): Neural machine translation.Jörg Porsiel (Hg.): Maschinelle
Übersetzung für Übersetzungsprofis. Berlin: BDÜ Fachverlag, 59115
Goodfellow, Ian; Yoshua Bengio, Aaron Courville (2016): Deep learning. MIT Press
https://www.deeplearningbook.org/ (30.04.2021)
Hewitt, John; Christopher D. Manning (2019): “A structural probe for finding syntax in word
represenations.” Jill Burstein, Christy Doran, Thamar Solorio (Hg.): Proceedings of the 2019
Conference of the North American Chapter of the Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long and Short Papers). Association for
Computational Linguistics, 41294138 https://www.aclweb.org/anthology/N19-1419/
(30.04.2021)
Kitaev, Nikita; Łukasz Kaiser (2020): Reformer: The efficient transformer.” Google AI Blog
https://ai.googleblog.com/2020/01/reformer-efficient-transformer.html (30.04.2021)
Koehn, Philipp (2017): Statistical machine translation. Draft of Chapter 13: Neural machine
translation. 2. öffentliche Entwurfsfassung https://arxiv.org/abs/1709.07809 (30.04.2021)
Koehn, Philipp (2020): Neural machine translation. Cambridge: University Press
Krüger, Ralph (2017): “Von Netzen und Vektoren Neuronale Maschinelle Übersetzung.” MDÜ
Fachzeitschrift für Dolmetscher und Übersetzer 63 [1]: 3844
Krüger, Ralph (2021): Understanding word embeddings for neural machine translation
fundamentals. Jupyter Notebook https://github.com/ITMK/MT_Teaching (30.04.2021)
Le, Quoc V.; Mike Schuster (2016): “A neural network for machine translation, at production
scale.” Google AI Blog
https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html (30.04.2021)
Lynn-Evans, Samuel (2018): “How to code the transformer in Pytorch.” Towards data science
https://towardsdatascience.com/how-to-code-the-transformer-in-pytorch-24db27c8f9ec
(30.04.2021)
Mikolov, Tomas; Kai Chen, Greg Corrado, Jeffrey Dean (2013): Efficient estimation of word
representation in vector space.” arXivhttps://arxiv.org/abs/1301.3781 (30.04.2021)
MultiTraiNMT (o. J.): MultiTraiNMT Machine Translation Training for Multilingual Citizens
http://www.multitrainmt.eu/index.php/en/ (30.04.2021)
O’Brien, Sharon; Maureen Ehrensberger-Dow (2020): “MT literacy a cognitive view.” Translation,
Cognition & Behaviour 3 [2]: 145164
Ralph Krüger trans-kom 14 [2] (2021): 278324
Die Transformer-Architektur für Systeme Seite 324
zur neuronalen maschinellen Übersetzung
Park, Sungjoon; JinYeon Bak, Alice Oh (2017): “Rotated word vector representations and their
interpretability.” Martha Palmer, Rebecca Hwa, Sebastian Riedel (Hg.): Proceedings of the
2017 Conference on Empirical Methods in Natural Language Processing. Association for
Computational Linguistics, 401411
https://www.aclweb.org/anthology/D17-1041/ (30.04.2021)
Rothman, Denis (2021): Transformers for natural language processing. Build innovative deep
neural network architectures for NLP with Python, PyTorch, TensorFlow, BERT, RoBERTa,
and more. Birmingham/Mumbai: Packt
Shaw, Peter; Jacob Uszkoreit, Ashish Vaswani (2018): “Self-attention with relative position
representations.” Marilyn Walker, Heng Ji, Amanda Stent (Hg.): Proceedings of the 2018
Conference of the North American Chapter of the Association for Computational Linguistics:
Human Language Technologies. Volume 2: (Short Papers). Association for Computational
Linguistics, 464468 https://www.aclweb.org/anthology/N18-2074/ (30.04.2021)
So, David R.; Chen Liang, Quoc V. Le (2019): “The evolved transformer.” Kamalika Chauhuri,
Ruslan Salakhutdinov (Hg.): Proceedings of the 36th International Conference on Machine
Learning. Proceedings of Machine Learning Research, 58775886
http://proceedings.mlr.press/v97/so19a (30.04.2021)
Stahlberg, Felix (2020): Neural machine translation: A review and survey.” arXiv
https://arxiv.org/abs/1912.02047 (30.04.2021)
TensorFlow (2021): Transformer model for language understanding
https://www.tensorflow.org/tutorials/text/transformer (30.04.2021)
Uszkoreit, Jakob (2017): Transformer: A novel neural network architecture for language
understanding. Google AI Blog https://ai.googleblog.com/2017/08/transformer-novel-
neural-network.html?m=1 (30.04.2021)
Vaswani, Ashish (2019): “Transformers and self-attention.” Gastvortrag im Rahmen der Ver-
anstaltung NLP with Deep Learning an der Stanford University
https://www.youtube.com/watch?v=5vcj8kSwBCY (30.04.2021)
Vaswani, Ashish; Noam Shazeer, Niki Parmar, Jacob Uszkoreit, Llion Jones, Aidan N. Gomez,
Łukasz Kaiser, Illia Polosukhin (2017): “Attention is all you need.” Isabelle Guyon, Ulrike von
Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, Roman
Garnett (Hg.): Advances in Neural Information Processing Systems 30 (NIPS 2017), 111
https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-
Abstract.html (30.04.2021)
Vig, Jesse (2019): “A multiscale visualization of attention in the transformer model.” Marta R.
Costa-jussà, Enrique Alfonseca (Hg.): Proceedings of the 57th Annual Meeting of the
Association for Computational Linguistics: System Demonstrations. o. O.: Association for
Computational Linguistics, 3742 https://www.aclweb.org/anthology/P19-3007/ (30.04.2021)
Vig, Jesse (o. J.): BertViz https://github.com/jessevig/bertviz (30.04.2021)
Wang, Sinong; Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma (2020): “Linformer: Self-
attention with linear complexity.” arXivhttps://arxiv.org/abs/2006.04768 (30.04.2021)
Autor
Ralph Krüger ist Professor für Sprach- und Übersetzungstechnologie am Institut für Translation
und Mehrsprachige Kommunikation der Technischen Hochschule Köln. Er wurde 2014 im Fach
Translationswissenschaft an der University of Salford promoviert. Sein aktuelles Forschungs-
interesse gilt der Leistungsfähigkeit der neuronalen maschinellen Übersetzung im Kontext der
technisch-naturwissenschaftlichen Fachübersetzung, der Qualitätsbewertung von maschinell
übersetzten Texten sowie didaktischen Verfahren und Instrumenten zur Vermittlung der
Funktionsweise der neuronalen MÜ im Rahmen von Fachkommunikationsstudiengängen.
E-Mail: ralph.krueger@th-koeln.de
Neu bei Fran & Timme
Philosophie eaterwissenscha Archäologie Klassische
Philologie Politikwissenscha eologie Soziologie Transla-
tionswissenscha Fachsprachenforschung Musikwissen-
scha Sozialpädagogik Erziehungswissenscha Sprachwis-
senscha Translationswissenscha Romanistik Medien
wissenscha
Kunstwissenscha
Altertumswissenscha
wissenscha
Sprachwissenscha
Fachsprachenforschung
Kunstwissenscha
Philosophie Romanistik
Slawistik Spr
Sprach
wissenscha Literaturwissenscha
Musikwissen-
scha
Altertumswissenscha Kulturwissenscha
Kommu-
nikationswissenscha
Medienwissenscha
Kunstwissen-
scha
eologie Religionswissenscha
Geschichtswissen
scha Philosophie
eaterwissenscha
Archäologie Klassi-
sche Philologie Politikwissenscha Musikwissenscha Ro-
manistik
Translationswissenscha
Sprachwissenschazio-
logie
Sozialpädagogik Erziehungswissenscha
Slawistik
scha
Fachsprachenforschung Kunstwissenscha
Philoso-
hie Romanistik Slawistik
Literaturwissenscha
Translati-
onswissenscha
Musikwissenscha
Altertumswissensch-
wissenscha Kommunikationswissenscha Medienwissen
scha
eologie Religionswissenscha
Geschichtswissen-
scha
Philosophie eaterwissenscha
Archäologie Klassi-
sche Philologie
Politikwissenscha Soziologie
Sozialpäda-
gogik
Erziehungswissenscha
Translationswissenscha
Sprachwissenscha
Fachsprachenforschung
Kunstwissen-
scha Philosophie Romanistik Slawistik Soziologie Ge-
schichtswissenscha Literaturwissenscha Musikwiss-
scha Altertumswissenscha Kulturwissenscha Komm
unikationswissenscha Medienwissenscha eologie Ro-
manistik Religionswissenscha Geschichtswissenscha
Frank & Timme
TÜD. Arbeiten zur eorie und Praxis
des Übersetzens und Dolmetschens
Herausgegeben von Prof. Dr. Klaus-Dieter Baumann,
Prof. Dr. Dr. h.c. Hartwig Kalverkämper, Prof. Dr. Klaus Schubert
Jutta Seeger-Vollmer: Schwer lesbar gleich texttreu?
Wissenschaliche Translationskritik zur Moby-Dick-
Übersetzung Friedhelm Rathjens. ISBN 978-3-7329-0766-3
Katerina Sinclair: TranslatorInnen als SprachlehrerInnen:
Eignung und Einsatz. ISBN 978-3-7329-0739-7
Nathalie iede: Qualität bei der Loalisierung von Video-
spielen. ISBN 978-3-7329-0793-9
Iryna Kloster: Translation Competence and Language
Contrast – A Multi-Method Study. Italian – Russian – German.
ISBN 978-3-7329-0761-8
Kerstin Rupcic: Einsatzpotenziale maschineller Übersetzung
in der juristischen Fachübersetzung. ISBN 978-3-7329-0782-3
Wittelsbacherstraße 27 a, 10707 Berlin Telefon +49 (0)30 88 66 79 11 info@frank-timme.de, www.frank-timme.de
eoretische Translationsforschung
Herausgegeben von Prof. Dr. Dilek Dizdar und Prof. Dr. Lavinia Heller
Raquel Pacheco Aguilar: Translation – Lehre – Institution.
Eine dekonstruktive Annäherung. ISBN 978-3-7329-0611-6
Alle Bücher sind auch als E-Books erhältlich.
Easy – Plain – Accessible
Herausgegeben von Prof. Dr. Silvia Hansen-Schirra,
Prof. Dr. Christiane Maaß
Camilla Lindholm and Ulla Vanhatalo (eds.): Handboo of
Easy Languages in Europe. ISBN 978-3-7329-0771-7
Silvia Hansen-Schirra/Katja Abels/Sarah Signer/Christiane
Maaß: e Dictionary of Accessible Communication.
ISBN 978-3-7329-0729-8
Katrin Lang: Aundbareit, Wahrnehmbareit, Azeptabi-
lität. Webseiten von Behörden in Leichter Sprache vor dem
Hintergrund der rechtlichen Lage. ISBN 978-3-7329-0804-2
Forum für Fachsprachen-Forschung
Herausgegeben von Prof. Dr. Dr. h.c. Hartwig Kalverkämper
Marina Adams/Klaus-Dieter Baumann/Hartwig Kalverkämper
(Hg.): Fachommuniationsforschung im Spannungsfeld
von Methoden, Instrumenten und Fächern.
ISBN 978-3-7329-0783-0
Sprachwissenscha
Nikola Vujčić/Boz̆ inka Petronijević: Phraseologisches Über-
setzungswörterbuch Deutsch–Serbisch/Serbisch–Deutsch.
Prevodni frazeološki rečnik Nemačko–Srpski/Srpsko–Nemački.
ISBN 978-3-7329-0733-5
... For a more detailed popularised discussion of the working principle of modern transformer-based NMT systems, see, for example, Alammar (2018), van Genabith (2020) andKrüger (2021b). ...
Chapter
Full-text available
Against the backdrop of the current debate on (super)human performance of neural machine translation, this paper discusses the extent to which this machine translation architecture is able to draw on and incorporate contextual meaning when translating, which is assumed to be an important added value of competent human translators. First of all, the paper takes a cognitive linguistic perspective and investigates how context and (contextual) meaning in human translation can be modelled. Then, the paper illustrates how neural machine translation processes linguistic meaning and to what extent contextual information are considered in this process. In the next step, the actual performance of the generic neural machine translation system DeepL with regard to encoding contextually available meaning in its translation output is discussed. In this context, the paper analyses several English- German translation examples where DeepL either performed an explicitation shift in translation or failed to perform such a shift when a human translator of the same text did so. Finally, the paper discusses current research on document- level machine translation and multimodal machine translation, which aims to extend the range of contextual information which neural machine translation systems can take into account.
... Uszkoreit 2017). Introductory discussions of current NMT architectures for translation studies audiences can be found, for example, in van Genabith (2020) and Krüger (2021b). ...
Article
The data-driven paradigm of neural machine translation is a powerful translation technology based on state-of-the art approaches in artificial intelligence research. This technology is employed extensively in the professional translation process, requiring an adequate degree of machine translation literacy on the part of professional translators. At the same time, the increasing datafication to be observed in modern society – both in private as well as in professional contexts – contributes to the rise in prominence of another digital literacy, i.e., data literacy, which is also of high relevance with regard to data-driven machine translation. The present paper analyses and discusses in detail the individual dimensions and subdimensions of professional machine translation literacy and data literacy and attempts to integrate the two concepts. It thereby lays the theoretical foundation for a didactic project concerned with teaching data literacy in its machine translation-specific form to students in the fields of translation and specialised communication studies.
Thesis
Full-text available
Kumulative Habilitationsschrift zur Rolle der neuronalen maschinellen Übersetzung (NMÜ) als Werkzeug des fachübersetzerischen Handelns im modernen digitalisierten und datafizierten Fachübersetzungsprozess. Es handelt sich hierbei um die Mantelschrift, die die kumulative Leistung umschließt. Im vorderen Teil des Mantels wird zunächst ein größerer Kontext für die Betrachtung der neuronalen maschinellen Übersetzung als Werkzeug fachübersetzerischen Handelns aufgebaut und die vorliegende Schrift translationswissenschaftlich verortet. Im hinteren Mantelteil fließen die im vorderen Teil und in der kumulativen Leistung angestellten Überlegungen, ergänzt durch einige zusätzliche Gedanken, in einem Faktorenmodell des situierten NMÜ-gestützten Fachübersetzungsprozesses zusammen. In diesem Modell wird die „Passung des Werkzeugs, des Werkstücks und des Werkmeisters“ (Holz-Mänttäri 1984:136) in einem gegebenen soziotechnischen und sozioökonomischen Umfeld betrachtet.
Article
Full-text available
We present two methods that merge ideas from statistical machine translation (SMT) and translation memories (TM). We use a TM to retrieve matches for source segments, and replace the mismatched parts with instructions to an SMT system to fill in the gap. We show that for fuzzy matches of over 70%, one method outperforms both SMT and TM base-lines.
Thesis
Experience in translation does not always correlate with the quality of the target text and the evaluations of translation work vary considerably among evaluators. This study suggests shifting the focus of attention from the final translation to the underlying translation process when assessing translation competence. The researcher applies a multi-method approach to model the translation competence on the basis of empirical parameters, such as gaze behavior, dictionary use, revisions as well as subjective evaluations of comprehension and translation difficulty. Eye tracking, keystroke logging, screen recording and retrospective interviews were applied to collect data in the experimental groups consisting of novice and semi-professional translators. The author suggests using language contrasts for researching translation competence. The problematic nature of language contrasts has been the focus of long-standing research in contrastive linguistics and recent studies in corpus linguistics. The author draws a number of conclusions based on hypotheses testing, provides justification by triangulating quantitative and qualitative data and discusses the results in the light of empirical translation studies.
Article
The last few years have witnessed a surge in the interest of a new machine translation paradigm: neural machine translation (NMT). Neural machine translation is starting to displace its corpus-based predecessor, statistical machine translation (SMT). In this paper, I introduce NMT, and explain in detail, without the mathematical complexity, how neural machine translation systems work, how they are trained, and their main differences with SMT systems. The paper will try to decipher NMT jargon such as “distributed representations”, “deep learning”, “word embeddings”, “vectors”, “layers”, “weights”, “encoder”, “decoder”, and “attention”, and build upon these concepts, so that individual translators and professionals working for the translation industry as well as students and academics in translation studies can make sense of this new technology and know what to expect from it. Aspects such as how NMT output differs from SMT, and the hardware and software requirements of NMT, both at training time and at run time, on the translation industry, will be discussed.
Article
Journal: MDÜ – Fachzeitschrift für Dolmetscher und Übersetzer 63(1), 38-44 URL: https://www.bdue-fachverlag.de/detail_mdueheft/74
Visualizing a neural machine translation model (Mechanics of Seq2seq models with attention
  • Jay Alammar
Alammar, Jay (2018a): "Visualizing a neural machine translation model (Mechanics of Seq2seq models with attention." Visualizing Machine Learning One Concept at a Time Bloghttps://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/ (30.04.2021)
The illustrated transformer
  • Jay Alammar
Alammar, Jay (2018b): "The illustrated transformer." Visualizing Machine Learning One Concept at a Time Blog -http://jalammar.github.io/illustrated-transformer/ (30.04.2021)
The illustrated Word2vec
  • Jay Alammar
Alammar, Jay (2019): "The illustrated Word2vec." Visualizing Machine Learning One Concept at a Time Blog -https://jalammar.github.io/illustrated-word2vec/ (30.04.2021)
Präsentation im Rahmen der Veranstaltung Deep Learning an der Freien Universität Amsterdam
  • Peter Bloem
Bloem, Peter (2020): "Transformers and self-attention. Lecture 12.2 transformers." Präsentation im Rahmen der Veranstaltung Deep Learning an der Freien Universität Amsterdamhttps://www.youtube.com/watch?v=oUhGZMCTHtI (30.04.2021)