BookPDF Available

Grammatik der Menschenbezeichner in biographischen Kontexten

Ludwig-Maximilians-Universit¨
at M¨
unchen
Centrum f¨
ur Informations- und Sprachverarbeitung (CIS)
Magisterarbeit
im
Studiengang Computerlinguistik
Grammatik der Menschenbezeichner
in biographischen Kontexten
Gek¨
urzte Fasssung vom September 2007
Michaela Geierhos
M¨
arz 2006
Betreuer der Arbeit:
Prof. Dr. Franz Guenthner
Inhaltsverzeichnis
Vorwort 7
1 NER innerhalb biographischer Relationen in Nachrichten 9
1.1 Begriffskl¨
arung: Named Entity Recognition (NER) . . . . . . . . . . . . . 9
1.2 Definition: Biographische Relationen . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Pers¨
onlicheRelationen ........................ 11
1.2.2 ¨
Offentliche Relationen . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3 Zuf¨
alligeRelationen.......................... 12
1.3 Einsch¨
atzungderThematik ......................... 13
1.3.1 Probleme und Chancen . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2 Bew¨
altigung der Aufgabe . . . . . . . . . . . . . . . . . . . . . . . 14
2 Lokale Grammatiken 15
2.1 Was sind lokale Grammatiken? . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Warum werden lokale Grammatiken verwendet? . . . . . . . . . . . . . . 16
2.3 UNITEX – Ein System zur Anwendung lokaler Grammatiken . . . . . . . 18
2.3.1 Textvorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 DELA W¨
orterb¨
ucher......................... 19
2.3.3 Priorit¨
aten bei der Anwendung der Lexika . . . . . . . . . . . . . 22
2.3.4 Mustererkennung und Konkordanzen . . . . . . . . . . . . . . . . 22
3 Zusammenfassung fr¨
uherer Arbeiten 23
3.1 Bootstrapping................................. 23
3.1.1 Bootstrapping bei der Entwicklung lokaler Grammatiken
[Gross,1999] ............................. 23
3.1.2 Bootstrapping zur Erkennung von Nominalphrasen mit FSTs
[Senellart,1998b] ........................... 24
3.2 Lemmatisierung zusammengesetzter Zeiten im Englischen
[Gross,1998-1999]............................... 25
3.3 Erkennung von Personenbezeichnungen . . . . . . . . . . . . . . . . . . . 28
3.3.1 Erkennung von Eigennamen und Berufsbezeichnungen
[Senellart,1998a] ........................... 28
3.3.2 Erkennung von Personennamen in Zeitungstexten
[Friburger,2002] ........................... 34
3.4 Erkennung von Organisationsnamen in Wirtschaftsnachrichten
[Mallchok,2004]................................ 37
3
Inhaltsverzeichnis
4 Beschr¨
ankungen im System 41
4.1 Sprachgebundenheit.............................. 42
4.2 Schwerpunkt Wirtschaftsnachrichten . . . . . . . . . . . . . . . . . . . . 42
4.3 Priorisierung von Entit¨
aten ......................... 43
5 Ressourcen: Grundlagen des Systems 45
5.1 Korpora .................................... 45
5.1.1 FinancialTimes............................ 45
5.1.2 Biography.com ............................ 46
5.2 W¨
orterbuchressourcen ............................ 47
5.2.1 Lexikon der Vornamen . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.2 Lexikon der Nachnamen . . . . . . . . . . . . . . . . . . . . . . . 48
5.2.3 Lexika der Personennamen . . . . . . . . . . . . . . . . . . . . . . 49
5.2.4 Lexika der Personentitel . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.5 Lexika der allgemeinen Menschenbezeichner . . . . . . . . . . . . 53
5.2.6 Lexikon der personenbezogenen Pr¨
adikate ............. 56
5.2.7 Lexika der Branchen . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.8 Lexika der Organisationsnamen . . . . . . . . . . . . . . . . . . . 58
5.2.9 Lexika der geographischen Begriffe . . . . . . . . . . . . . . . . . 61
5.2.10 Lexika der Temporalia . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2.11 WeitereLexika ............................ 66
5.3 Verifikationsm¨
oglichkeiten bei Google . . . . . . . . . . . . . . . . . . . . 67
6 Grammatik der Menschenbezeichner 69
6.1 Analyse von Personennamen . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.1.1 Syntaktische Variabilit¨
at bei Personennamen . . . . . . . . . . . . 69
6.1.2 Disambiguierung von Scheinnamen . . . . . . . . . . . . . . . . 72
6.1.3 Vervollst¨
andigung des Personennamenlexikons . . . . . . . . . . . 73
6.2 Allgemeine Menschenbezeichner . . . . . . . . . . . . . . . . . . . . . . . 74
6.3 Au߬
osenvonAnaphern............................ 77
7 Grammatik der Organisationsnamen 79
7.1 Syntaktische Variabilit¨
at bei Organisationsnamen . . . . . . . . . . . . . 79
7.2 Abgrenzung von unechten Organisationsnamen . . . . . . . . . . . . . . . 81
7.3 Vervollst¨
andigung des Organisationsnamenlexikons . . . . . . . . . . . . 83
8 Grammatik der Ortsangaben 85
8.1 Biographische Relationen mit Ortsangaben . . . . . . . . . . . . . . . . . 85
8.2 Ortsangaben in ihrer Funktion als Attribute . . . . . . . . . . . . . . . . 86
8.2.1 Toponyme als Attribut einer Berufsbezeichnung . . . . . . . . . . 86
8.2.2 Toponyme als Attribut eines Organisationsnamens . . . . . . . . . 86
9 Grammatik der Datumsangaben 89
4
Inhaltsverzeichnis
10 Grammatik pers¨
onlicher Relationen 97
10.1 Die Geburt: tobeborn........................... 98
10.2 Die Kindheit: toberaised(up)“ ...................... 100
10.3 Der Schulabschluss: tograduate“...................... 102
10.4 Die Heirat: tobemarried“ ......................... 105
10.5 Die Scheidung: tobedivorced....................... 108
10.6 Der Tod: todie ...............................111
11 Grammatik beruflicher Relationen 115
11.1 Der Beginn eines Besch¨
aftigungsverh¨
altnisses................ 116
11.1.1 Die Ernennung: to be appointed as“ . . . . . . . . . . . . . . . . 116
11.1.2 Die Einstellung: toemployso.“...................122
11.1.3 Der Firmeneintritt: tojoin“.....................124
11.2 Die Aus¨
ubungdesBerufes .......................... 124
11.2.1 Das Besch¨
aftigungsverh¨
altnis: to be employed . . . . . . . . . . 124
11.2.2 Die Bezahlung: tobepaidas“ ...................125
11.2.3 Die T¨
atigkeit: toworkas“ ..................... 126
11.3 Das Ende eines Arbeitsverh¨
altnisses.....................129
11.3.1 Die Entlassung: to dismiss so.“ bzw. to be dismissed“ . . . . . . 129
11.3.2 Die Nachfolge: to be replaced as“ . . . . . . . . . . . . . . . . . . 131
11.3.3 Die Abdankung: toresignas....................132
11.3.4 Die Pensionierung: to retire so.“ bzw. to be retired“ . . . . . . . 132
12 Auswertung der Ergebnisse 135
12.1 Evaluationsmaße [Wikipedia, 2005/2006] . . . . . . . . . . . . . . . . . . 135
12.1.1 Precision bzw. Genauigkeit . . . . . . . . . . . . . . . . . . . . . . 135
12.1.2 Recall bzw. Vollst¨
andigkeit......................135
12.1.3 Fall-Out ................................ 135
12.2 Qualit¨
atdesSystems .............................136
13 Anwendungen 137
13.1 Extraktion von Relationen zwischen Personen und Organisationen . . . . 137
13.2 Extraktion von Relationen zwischen mindestens zwei Personen . . . . . . 138
13.3 Extraktion von Relationen zwischen Personen und ihren Berufen . . . . . 139
14 Zusammenfassung und Ausblick 141
A¨
Ubersicht aller Kategorien in den W¨
orterb¨
uchern 143
A.1 Semantische Kategorien . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
A.2 Grammatikalische Kategorien . . . . . . . . . . . . . . . . . . . . . . . . 144
B Syntaktische Variabilit¨
at am Beispiel von Bill Gates 145
Literaturverzeichnis 147
Index 154
5
Inhaltsverzeichnis
6
Vorwort
Wer muss heute noch eine Biographie oder einen Lebenslauf ver¨
offentlichen, wenn er oder
sie eine in der ¨
Offentlichkeit pr¨
asente Person ist? – Eigentlich betrifft das niemand dieser
Leute, denn Ausschnitte ihres Lebens werden in den Printmedien von verschiedensten
Blickwinkeln beleuchtet. Nat¨
urlich ver¨
offentlichen die wenigsten Zeitungen oder Maga-
zine l¨
uckenlose Lebensl¨
aufe prominenter Menschen.
Liest man nur einen Artikel zu der betreffenden Person, so erf¨
ahrt man nur wenig ¨
uber
sie und bekommt auch recht einseitige Informationen. Doch l¨
asst man Google nach diesen
bekannten Leuten suchen, so bekommt man eine Vielzahl von Artikelreferenzen, welche
die unterschiedlichsten Facetten und Bereiche ihres ¨
offentlichen und privaten Lebens
beleuchten. Kurz und pr¨
agnant werden einem Informationen ¨
uber den Familienstand,
die Familienverh¨
altnisse, den sozialen Status, das gesch¨
atzte oder bekannte Jahresein-
kommen, sowie Vorlieben, Freizeitaktivit¨
aten und noch vieles mehr auf dem silbernen
Tablett serviert. Die F¨
ulle an Informationen, die Google ihren Kunden bietet, ¨
ubersteigt
oft ihre anf¨
anglichen Erwartungen. Manchmal erf¨
ahrt man sogar Details aus dem Leben
der Reichen und Sch¨
onen, welche derjenige selbst wohl nie so ver¨
offentlicht h¨
atte.
Wie CNET News.com [Mills, 2005]am 14. Juli 2005 berichtete, erging es dem Google
CEO Eric Schmidt nicht anders. Obwohl er selbst auf seiner Homepage wenig ¨
uber seine
Person preisgibt, findet Google nach k¨
urzester Zeit alle wichtigen Daten, die seine Per-
son betreffen.
Google CEO Eric Schmidt doesn’t reveal much about himself on
his home page.
But spending 30 minutes on the Google search engine lets one discover that
Schmidt, 50, was worth an estimated $1.5 billion last year. Earlier this year,
he pulled in almost $90 million from sales of Google stock and made at least
another $50 million selling shares in the past two months as the stock leaped
to more than $300 a share.
He and his wife Wendy live in the affluent town of Atherton, Calif., where,
at a $10,000-a-plate political fund-raiser five years ago, presidential candidate
Al Gore and his wife Tipper danced as Elton John belted out “Bennie and
the Jets”.
Schmidt has also roamed the desert at the Burning Man art festival in Ne-
vada, and is an avid amateur pilot. 1
1Ausschnitt aus dem Artikel Google balances privacy, reach von Elinor Mills [Mills, 2005]
7
Vorwort
Aber warum sollte man 30 Minuten bei der Suche nach Google CEO Eric Schmidt da-
mit verbringen, die einzelnen Treffer nach der biographisch relevanten Information zu
durchsuchen? W¨
are es nicht sinnvoller, wenn bei der Suche nach Personen auch ein Fo-
kus auf die verschiedenen Beziehungen gelegt wird, in denen ein Mensch mit anderen
Menschen, mit einer Firma, mit Wohn- und Arbeitsorten oder zeitlichen Begebenhei-
ten in Verbindung steht? W¨
urde es eine personenbezogene Suche nicht enorm erleich-
tern, wenn einer der allerersten Treffer Aufschluss ¨
uber das Alter bzw. das Geburtsda-
tum, dann eventuell ¨
uber den Familienstand, gefolgt vom Beruf oder dem momentanen
Besch¨
aftigungsverh¨
altnis geben w¨
urde?
Damit will ich andeuten, dass eine Staffelung nach Wichtigkeit der biographischen
Daten und das Ausfiltern von biographisch irrelevanter Information die Zufriedenheit
des Benutzers bei der Suche deutlich erh¨
ohen kann.
Doch bevor man eine Skala f¨
ur die Relevanz von biographischen Relationen festle-
gen kann, muss man sich ein Bild davon machen, welche Pr¨
adikate ¨
uberhaupt daf¨
ur in
Frage kommen. Denn einerseits sollten es u.a. Verbrelationen sein, die sehr h¨
aufig in
Biographien auftauchen, und andererseits m¨
ussen sie auch interessant f¨
ur den Informa-
tionssuchenden sein.
Deshalb m¨
ochte ich im Rahmen dieser Magisterarbeit versuchen, eine umfassende De-
finition von Pr¨
adikaten zu geben, welche in biographischen Kontexten auftreten k¨
onnen
und essentielle Informationen ¨
uber die betreffende Person geben. Dabei verstehe ich un-
ter einer Definition von Pr¨
adikaten“ nicht nur eine reine Auflistung dieser, sondern
vielmehr die Erstellung einer Grammatik – eines Regelwerkes – welche analysiert und
gleichzeitig vorgibt, wie sich ein bestimmtes Verb innerhalb eines Satzgef¨
uges verh¨
alt,
d.h. welche Argumente das Verb zwingend oder optional hat, oder ob es oft im Zusam-
menhang mit Lokativa oder Temporalia auftritt. Nat¨
urlich ist diese syntaktische, aber
auch semantische, Betrachtungsweise von personenbezogenen S¨
atzen sprachabh¨
angig.
Aufgrund der Vielzahl an m¨
oglichen Pr¨
adikaten, werde ich mich in meiner Arbeit aus-
schließlich auf eine einzige Sprache, n¨
amlich das Englische, beschr¨
anken.
Dabei ist mir besonders wichtig, dass der Schwerpunkt dieser Arbeit nicht das Ranking
von biographischen Relationen oder eine Fallstudie ist, wie eine gute, automatisch ge-
nerierte Textzusammenfassung einer Biographie auszusehen h¨
atte, sondern vielmehr
m¨
ochte ich das Augenmerk auf die Analyse von biographisch relevanten S¨
atzen richten.
Es wird nicht bei einer reinen syntaktischen Studie von Satzgef¨
ugen bleiben, da die
nat¨
urliche Sprache sehr viele Paraphrasierungsm¨
oglichkeiten bietet. Das macht u.a. ein
semantisches Clustering von Relationstypen – die Bildung von Synonymklassen auf der
Ebene der Pr¨
adikate – aber auch eine Typisierung von Satzteilen notwendig. Letzteres
macht bereits der Titel dieser Magisterarbeit deutlich, denn Menschenbezeichner“ sind
bereits eine eigene Klasse, worunter u.a. Eigennamen f¨
ur Personen, wie z.B. Bill Clin-
ton, Berufsbezeichnungen, wie z.B. software engineer, oder Bezeichnungen f¨
ur Ver-
wandtschaftsverh¨
altnisse, wie z.B. mother, aunt, grandfather, fallen.
Aber bevor ich in Details gehe, sollte das als kleiner Vorgeschmack auf diese Arbeit
ausreichend sein und nat¨
urlich hoffe ich, dass ich Ihr Interesse daf¨
ur geweckt habe.
Michaela Geierhos
M¨
unchen, den 27. M¨
arz 2006
8
1 NER innerhalb biographischer
Relationen in Wirtschaftsnachrichten
1.1 Begriffskl¨
arung: Named Entity Recognition (NER)
F¨
ur die Computerlinguistik hat sich die Named Entity Recognition inzwischen zu einem
der wichtigsten Forschungsgebiete entwickelt. Wer schon einmal den Begriff Named
Entity Recognition“ geh¨
ort hat, weiß dass er im Bereich der Informationsextraktion
(IE) anzusiedeln ist. Im deutschen Sprachraum ist die NER auch unter dem Schlagwort
Eigennamenerkennung“ bekannt.
Doch ist die Erkennung von Eigennamen nicht die einzige Aufgabe der Informations-
extraktion, bei der versucht wird, aus Texten nicht-ambige Daten, die ein festgelegtes
Format haben, zu extrahieren [Roth, 2002]. Die Eigennamenerkennung ist nur ei-
ne von verschiedenen Teilaufgaben der IE, wobei sie eigenst¨
andig auftreten kann, oder
wiederum Teil einer anderen computerlinguistischen Anwendung sein kann. Oft sind
Information-Retrieval-Systeme und Systeme zur Antwort-Extraktion, Textzusammen-
fassung oder maschinelle ¨
Ubersetzung, sowie Textmining-Programme und Suchmaschi-
nen auf die Dienste der Named Entity Recognition (NER) angewiesen [Roth, 2002].
Leider gehen die Meinungen, was man genau unter Named Entity Recognition zu ver-
stehen hat, auseinander. Der Streitpunkt bei der Definitionsfindung bezieht sich hierbei
auf die Kl¨
arung des Begriffs der benannten Entit¨
at (Named Entity).
Ohne sich darauf festzulegen, was unter einer benannten Entit¨
at verstanden werden soll,
l¨
asst sich zun¨
achst folgende Definition geben:
Named Entity Recognition bezeichnet die automatische Erkennung von Instanzen
und Einheiten bestimmter Klassen in Texten. Nat¨
urlich gibt diese Begriffserkl¨
arung
keinerlei Aufschluss dar¨
uber, welche Klassen“ von Entit¨
aten nun bei der NER erkannt
werden sollen.
Bei [Ciaramita und Altun, 2005]ist der Begriff der Named Entity recht eng gefasst,
indem sie nur Personen, Organisationen und Orte ber¨
ucksichtigen, definieren sie:
Named entity recognition (NER) is the task of tagging words with labels such as
person, organization, and location.
Jedoch werden meist weitere Entit¨
aten, wie Datums-, Zeit-, Prozent- und W¨
ahrungs-
angaben mit in die Erkennung von Eigennamen einbezogen.
Named entity recognition (NER) (...) seeks to locate and classify atomic elements
in text into predefined categories such as the names of persons, organizations, locations,
expressions of times, quantities, monetary values, percentages, etc. 2
2http://en.wikipedia.org/wiki/Named_entity_recognition
9
Kapitel 1. NER innerhalb biographischer Relationen in Nachrichten
Weiterhin bleibt fragw¨
urdig, ob Datums-, Zeit-, Prozent- und W¨
ahrungsangaben wirklich
in die Kategorie der benannten Entit¨
atenfallen, oder zwar Entit¨
aten, aber keine
Eigennamen sind.
Zur Kl¨
arung dieser Frage tr¨
agt wohl die auf der MUC-73festgelegte Definition zur
Erkennung von Named Entities bei.
The Named Entity task consists of three subtasks (entity names, temporal expressions,
number expressions). The expressions to be annotated are ’unique identifiers’ of entities
(organizations, persons, locations), times (dates, times), and quantities (monetary va-
lues, percentages).4
Auf ein ¨
ahnliches Ergebnis kommt man, wenn man vom deutschen Begriff f¨
ur Named
Entity – dem Eigennamen“ – ausgeht.
Denn Eigennamen k¨
onnen danach kategorisiert werden, welche Art von Objekt sie
bezeichnen: 5
Die h¨
aufigsten Namenstr¨
ager sind Personen. Bei Personennamen kann man Vor-
namen und Familiennamen unterscheiden.
Eine weitere große Gruppe bilden die Ortsnamen (Toponyme). Diese k¨
onnen weiter
untergliedert werden in St¨
adtenamen, L¨
andernamen, Flussnamen, Flurnamen usw.
Institutionen sind typischerweise Tr¨
ager von Eigennamen.
Eine weitere große Gruppe bilden die Produktnamen.
Als Eigennamen werden also Bezeichner f¨
ur Personen, Orte, Organisationen und Pro-
dukte betrachtet. Datums-, Zeit-, Prozent- und W¨
ahrungsangaben gelten zwar als Enti-
t¨
aten, aber nicht als Named Entities – und somit deren Bezeichner auch nicht als Eigen-
namen [Roth, 2002].
Im Grunde gibt es zwei Arten von NER-Systemen: Die eine Gruppe verwendet linguis-
tische Methoden und die andere baut auf statistischen Modellen auf.
F¨
ur den hier vorgestellten Ansatz der automatischen Erkennung von Menschenbe-
zeichnern innerhalb biographischer Relationen in Wirtschaftsnachrichten soll nur die
sprachbasierte Named Entity Recognition von Interesse sein.
Hierbei stellen die Personen die wichtigste Entit¨
atsart bei der Eigennamenerkennung
dar. Weitere Entit¨
aten, die typischerweise in Wirtschaftstexten auftreten, wie Organisa-
tionen, Orte und Zeitangaben werden mit in die Suche einbezogen.
3Unter der MUC-7 versteht man die im Jahre 1998 zum 7. Mal durchgef¨
uhrte Message Understanding
Conference.
4MUC-7 Named Entity Task Definition [Roth, 2002]
5vgl. http://de.wikipedia.org/wiki/Eigenname
10
Kapitel 1. NER innerhalb biographischer Relationen in Nachrichten
1.2 Definition: Biographische Relationen
Bis jetzt wurde die Aufgabenstellung der automatischen Erkennung von Menschen-
bezeichnern innerhalb biographischer Kontexte in Wirtschaftsnachrichten nur in dem
Punkt erl¨
autert, welche Entit¨
at in den Texten gefunden werden soll.
Inzwischen ist deutlich geworden, dass sich dieser Ansatz auf die Lokalisierung von
Eigennamen, insbesondere von Personennamen als Named Entity“, konzentriert. Den-
noch werden nicht nur Namen f¨
ur Personen betrachtet, sondern auch andere Men-
schenbezeichnungen, die sich auf den Beruf, die soziale Stellung oder Verwandtschafts-
verh¨
altnisse beziehen.
Nun bleibt nur noch zu kl¨
aren, was unter biographischen Relationen“ verstanden wer-
den soll. Biographische Relationen sind in der Regel Pr¨
adikatrelationen von Verben,
die vornehmlich in biographischen Kontexten auftreten. Da in biographischen Kontexten
die Lebensgeschichte von Personen beschrieben wird, betrifft es Verben, die das Ereignis
der Geburt, den schulischen und beruflichen Werdegang, sowie Beziehungen zu anderen
Menschen usw. beschreiben.
Diese Pr¨
adikate lassen sich aufgrund ihrer Relevanz f¨
ur die ¨
Offentlichkeit in verschie-
dene Kategorien unterteilen. Einerseits gibt es eine Gruppe von Verben, die in fast jeder
Biographie genannt werden, und andererseits gibt es Verben bzw. Relationen, die nur in
Autobiographien zur Sprache kommen. Dies erm¨
oglicht eine Aufspaltung der biographi-
schen Relationen in die drei Unterkategorien der pers¨
onlichen, der ¨
offentlichen und der
zuf¨
alligen Relationen.
1.2.1 Pers¨
onliche Relationen
Laut Duden ist eine Biographie nichts anderes als die Niederschrift einer Lebensge-
schichte. Somit ist es nicht verwunderlich, wenn manche Leute vieles aus ihrem Leben
zu erz¨
ahlen haben. Dabei werden oft Details aus dem Gef¨
uhlsleben preisgegeben, und
es wird aus dem N¨
ahk¨
astchen geplaudert“, wie es in bestimmten Autobiographien der
Fall ist. In der Regel werden in diesem Zusammenhang sehr intime Dinge ¨
uber Personen
erz¨
ahlt, welche f¨
ur die ¨
Offentlichkeit eigentlich nicht bestimmt sein sollten.
In pers¨
onlichen Relationen sind besonders solche Verben anzutreffen, die Gef¨
uhls-
regungen ausdr¨
ucken und Informationen aus dem Privatleben der Leute liefern. Doch
sind es meist Relationen, die jemanden pers¨
onlich betreffen.
Nat¨
urlich stellt sich bei diesen Pr¨
adikatrelationen nun die Frage, inwiefern sie noch bio-
graphische Relevanz haben. An dieser Stelle muss man wohl einr¨
aumen, dass pers¨
onliche
Relationen in ihrer ersten Bedeutung zwar die sch¨
onsten Klatschgeschichten aus dem
Leben berichten, und somit sicher als biographische Relation gez¨
ahlt werden k¨
onnen,
aber in Wirtschaftsnachrichten kaum Beachtung finden. Deshalb sind sie f¨
ur den hier
vorgestellten Ansatz nahezu irrelevant.
Dennoch ist die Grenze zwischen pers¨
onlichen und ¨
offentlichen Relationen manchmal
fließend. Ein solcher Grenzg¨
angerist meiner Meinung nach das englische Pr¨
adikat
to be married with. Diese Beziehung zwischen zwei Leuten wird in den meisten Biogra-
phien ver¨
offentlicht. Oft wird noch hinzugef¨
ugt, ob es eine gl¨
uckliche Ehe ist oder war,
und wie lange sie schon andauert oder gedauert hat. Die meisten Menschen w¨
urden sa-
11
Kapitel 1. NER innerhalb biographischer Relationen in Nachrichten
gen, dass eine Eheschließung ein rechtlicher Akt ist und aufgrund dessen keine Einw¨
ande
bestehen d¨
urften, dies Außenstehenden mitzuteilen. Doch betrifft eine Ehe immer zwei
Personen und ist somit etwas sehr Pers¨
onliches. Damit soll nur klar gestellt sein, dass
es auch Pr¨
adikatrelationen gibt, welche sehr wohl in Lebensl¨
aufen ¨
offentlich bekannt
gegeben werden d¨
urfen, die dennoch eine starke Br¨
ucke zum Privatleben der jeweiligen
Personen schlagen.
Im Zuge dieser Arbeit werden nur pers¨
onliche Relationen in ihrer zweiten Bedeutung
betrachtet. Somit werden nur Pr¨
adikatrelationen untersucht, die jemanden pers¨
onlich
betreffen, wie z.B. He was born as son of a blacksmith in 1955..
1.2.2 ¨
Offentliche Relationen
Des Weiteren gibt es eine große Anzahl an Pr¨
adikaten, welche in die Kategorie der
¨
offentlichen Relationen fallen. Wie der Name ¨
offentliche Relation schon verr¨
at,
handelt es sich hierbei um Verben, die haupts¨
achlich in offiziellen Lebensl¨
aufen genannt
werden und sachliche Informationen aus dem Leben dieser Personen bekannt geben.
In der Regel handelt es sich hierbei um Pr¨
adikatrelationen, die biographische Fakten
beschreiben, welche beispielsweise f¨
ur die Leser von Wirtschaftsnachrichten von Interesse
sein d¨
urften. Hierunter fallen Relationen, welche eventuell Aufschluss dar¨
uber geben,
welchen Beruf die Person aus¨
ubt, oder bei welchem Unternehmen sie gerade besch¨
aftigt
ist. Zudem enthalten ¨
offentliche Relationen Details aus dem Leben der jeweiligen Person,
bei denen abgekl¨
art wurde, ob die betreffende Person mit der Ver¨
offentlichung dieser
Daten einverstanden war. Manchmal ist dies auch nicht der Fall, wie der Artikel Google
balances privacy, reach von [Mills, 2005](siehe Vorwort) gezeigt hat. Doch die Miss-
achtung der Privatsph¨
are bei der Informationssuche ist ein anderes Thema und macht
die gefundenen Fakten nicht weniger offiziell.
Da die Aufgabe der Erkennung von Menschenbezeichnern innerhalb biographischer Re-
lationen sich auf die Dom¨
ane der englischsprachigen Wirtschaftsnachrichten beschr¨
anken
wird, werden ¨
offentliche Relationen im Zentrum dieser Untersuchung stehen.
1.2.3 Zuf¨
allige Relationen
Vollst¨
andigkeitshalber sollten auch die zuf¨
alligen Relationenangesprochen werden.
Denn im Leben der Menschen gibt es enorm viele zuf¨
allige Begebenheiten. Auch ¨
uber sie
lassen sich zahlreiche Geschichten erz¨
ahlen. Oft k¨
onnen zuf¨
allige Ereignisse zusammen
mit pers¨
onlichen Gef¨
uhlen auftreten und dann vermischen sich wieder pers¨
onliche mit
zuf¨
alligen Relationen. Leider sind zuf¨
allige Pr¨
adikatrelationen am uninteressantesten f¨
ur
das Auffinden von Personen in biographischen Kontexten, da sie kaum vorhersehbar sind
und in einer solchen Vielfalt vorkommen, dass sie schwer aufzuz¨
ahlen sind. Außerdem
wird einem Beinbruch, einer Verliebtheit oder einem Streit in der Familie meist wenig
Beachtung von Außenstehenden geschenkt.
Biographien schreibt das Leben –
welche Art von Information bzw. Relation sie enthalten, h¨
angt allein vom Autor ab.
12
Kapitel 1. NER innerhalb biographischer Relationen in Nachrichten
1.3 Einsch¨
atzung der Thematik
1.3.1 Probleme und Chancen
Die Aufgabe der automatischen Erkennung von Menschenbezeichnern innerhalb biogra-
phischer Relationen in englischsprachigen Wirtschaftsnachrichten wird sicher kein leich-
tes Unterfangen werden. Doch ist es eine Herausforderung, der man sich ohne Weiteres
stellen kann, indem man sich zun¨
achst ein Bild von der Ausgangssituation macht und
sich danach die m¨
oglichen Schwierigkeiten vor Augen f¨
uhrt.
Einerseits ist es wichtig, vorab abzukl¨
aren, welche Entit¨
aten, Bezeichnungen oder andere
Angaben in biographischen Kontexten vorkommen.
So kann ein Personenname beispielsweise aus einem Titel oder einer Anrede gefolgt
von einem Nachnamen bestehen. Des Weiteren werden in biographischen Texten h¨
aufig
Besch¨
aftigungsverh¨
altnisse beschrieben, und in diesem Zusammenhang werden sicherlich
Organisationsnamen bzw. Firmennamen auftreten. Auch eine Liste der Branchen, Fach-
bereiche und Industriesektoren kann von Vorteil sein, wenn nur die Arbeitsdom¨
ane einer
Person genannt wird. Zudem kommen in diesen Kontexten h¨
aufig Ortsbestimmungen
und Besch¨
aftigungszeitr¨
aume vor.
Weiterhin w¨
are es sinnvoll, W¨
orterb¨
ucher f¨
ur Titel und Anredem¨
oglichkeiten zu er-
stellen, sowie Vor- und Nachnamen aufzulisten, aber auch vollst¨
andige Personennamen
zu archivieren. Außerdem lassen sich weitere benannte Entit¨
aten wie Toponyme und
Organisationen ebenfalls mit der Hilfe von Lexika in den Griff bekommen. Mit ande-
ren Kategorien von Bezeichnern kann ¨
ahnlich verfahren werden, so dass Hyperonymie-
relationen in Form von W¨
orterb¨
uchern kodiert und somit semantische Klassen gebildet
werden.
Andere linguistische Ph¨
anomene lassen sich dagegen schlecht mittels Lexika beschreiben,
daf¨
ur k¨
onnen sie gut ¨
uber lokale Grammatiken dargestellt werden.
Darunter f¨
allt z.B. die syntaktische Variabilit¨
at. Gerade wenn man an die Be-
schreibung von Datumsangaben oder Personennamen denkt, gibt es eine Reihe an
syntaktischen M¨
oglichkeiten, wie diese ausgedr¨
uckt werden k¨
onnen.
on February 20, 2004
on 3 June 1994
on Tuesday 6th April 2005
12-Feb-2006
in March 1960
Bill Gates
Mr. Gates
William Henry Gates III
William Gates
Ein weiteres klassisches Problem ist die Unterscheidung zwischen einer Firma,
ihrer Marke und ihrem Produkt. Daf¨
ur w¨
are Appleein Paradebeispiel, denn
13
Kapitel 1. NER innerhalb biographischer Relationen in Nachrichten
allein der Kontext, in dem dieser Begriff f¨
allt, k¨
onnte f¨
ur die Au߬
osung dieser
Ambiguit¨
at, sorgen. Solche Disambiguierungen k¨
onnen mit der Hilfe von lokalen
Grammatiken relativ leicht und zugleich recht anschaulich vorgenommen werden.
Zudem tragen sie nicht nur zur Bedeutungsunterscheidung innerhalb von Named
Entities bei, sondern auch zwischen Eigennamen und allgemeinen Bezeichnungen.
Beispielsweise gibt es einige Nachnamen, welche gleichzeitig auch in ihrer Funktion
als Nomen eine Pflanze wie Bush, eine Berufsbezeichnung wie Miller“ oder eine
Farbe wie Blue“ sein k¨
onnen. Nur eine detaillierte Beschreibung des Kontextes
durch eine lokale Grammatik kann verhindern, dass z.B. The Burning Bushkeine
Person bezeichnet, aber Bush jr.auf jeden Fall einen Menschen benennt.
1.3.2 Bew¨
altigung der Aufgabe
Wie aus dem letzten Abschnitt hervorgeht, gibt es einiges zu bedenken, wenn man sich
an die Aufgabe heranwagt, eine Grammatik f¨
ur Menschenbezeichner in biographischen
Kontexten zu entwickeln.
Aufgrund dessen werden die folgenden Kapitel einen Einblick in die Herangehensweise
an dieses Thema geben und dabei die entsprechenden L¨
osungsans¨
atze pr¨
asentieren.
Zun¨
achst werden Begrifflichkeiten, Bedeutung und Funktionalit¨
at von lokalen Gram-
matiken in Kapitel 2 erl¨
autert. Im Anschluss daran wird noch im selben Kapitel auf die
Arbeitsweise mit dem System UNITEX eingegangen, um deutlich zu machen, wie mit
lokalen Grammatiken gearbeitet werden kann.
Nachdem die Grundlagen zu Grammatiken gelegt wurden, k¨
onnen in Kapitel 3 inte-
ressante Ans¨
atze weiterer Linguisten vorgestellt werden, die große Fortschritte auf dem
Gebiet der automatischen Erkennung von Eigennamen mittels lokaler Grammatiken er-
zielt haben und deren Arbeiten meinen Ansatz zur Erkennung von Menschenbezeichnern
in biographischen Kontexten gepr¨
agt haben.
In Kapitel 4 werden alle gewollten Beschr¨
ankungen f¨
ur meinen Ansatz zur Erken-
nung von Menschenbezeichnern in biographischen Kontexten beschrieben. Es werden
Erkl¨
arungen gegeben, warum man sich auf die Korpusdom¨
ane der Wirtschaftsnachrich-
ten festgelegt hat, und wieso die Personen gegen¨
uber anderer Entit¨
aten im Vordergrund
stehen.
Daraufhin werden Einzelheiten zu den im System verwendeten Ressourcen preisge-
geben. Dabei werden in Kapitel 5 die verschiedenen Korpora und alle selbst erstellten
Lexika angesprochen, mit deren Hilfe dieser Ansatz zur Erkennung von Eigennamen
umgesetzt wurde.
Die folgenden Kapitel stellen die entwickelten lokalen Grammatiken f¨
ur Entit¨
aten –
wie Personen, Organisationen, Toponyme und Datumsangaben – vor und geben Einblick
in die Grammatiken der pers¨
onlichen, sowie beruflichen Relationen.
Zuletzt wird die Qualit¨
at des Systems gemessen, indem die Ergebnisse der lokalen
Grammatiken auf einem Testkorpus evaluiert werden. Außerdem wird aufgezeigt, wie
pers¨
onliche und berufliche Relationen aus dem Text extrahiert werden k¨
onnen, um die
syntaktische und semantische Vielfalt dieser Pr¨
adikatrelationen zu veranschaulichen.
14
2 Lokale Grammatiken
2.1 Was sind lokale Grammatiken?
Lokale Grammatiken kann man als Landkarten der Sprache bezeichnen [Mallchok,
2004], die einerseits Sequenzen von W¨
ortern, welche semantische Einheiten bilden, und
andererseits syntaktische Strukturen beschreiben.
¨
Uberdies geben sie noch Aufschluss ¨
uber die morphosyntaktischen Eigenschaften, der
darin beschriebenen Elemente, welche syntaktisch [Fairon, 2000]oder semantisch [Con-
stant, 2000]gepr¨
agt sein k¨
onnen.
Des Weiteren k¨
onnen sie in den verschiedensten Varianten f¨
ur automatische Sprach-
verarbeitung auf Textkorpora n¨
utzlich sein. Besonders auf dem Gebiet der lexikalischen
Disambiguierung werden lokale Grammatiken verst¨
arkt eingesetzt [Blanc und Dister,
2004].
Da Wortformen isoliert gesehen oft ambig sind, kann ein Teil von ihnen aber durch
die Analyse des Kontextes disambiguiert werden. Der f¨
ur die Disambiguierung relevante
Kontext wird durch eine lokale Grammatik [Gross, 1997]beschrieben, die durch einen
endlichen Automaten bzw. einen Transduktor repr¨
asentiert wird. Lokale Grammatiken
werden nicht nur f¨
ur die Disambiguierung, sondern auch f¨
ur andere Aufgaben genutzt,
wie die Erkennung von Mehrwortlexemen und Komposita, die Repr¨
asentation orthogra-
phischer Varianten im Lexikon, sowie die ¨
Uberpr¨
ufung der Kongruenz oder Identifikation
von Zeitangaben und anderen Entit¨
aten [Blank, 1997].
Endliche Automaten bzw. Transduktoren beschreiben komplexe linguistische Struktu-
ren, die so nicht in einer Lexikongrammatik oder in elektronischen W¨
orterb¨
uchern forma-
lisiert werden k¨
onnten. Eigentlich sind Transduktoren endliche Automaten, die zus¨
atzlich
eine Ausgabe erzeugen, wenn die in der Definition des Automaten spezifizierte(n) Se-
quenz(en) erkannt wurde(n). Der Eingabeteil des Transduktors dient dazu, spezifische
Sequenzen im Text zu erkennen. Der Ausgabeteil“ f¨
uhrt einerseits Substitutionen im
Text aus, versieht andererseits identifizierte Sequenzen mit zus¨
atzlichen Informationen
(z.B. einer Wortklasse) oder f¨
ugt linguistische Markierungen (z.B. die Annotation von
Phrasen) in den Text ein [Blank, 1997].
In der Regel werden lokale Grammatiken in Form von Graphen [Silberztein, 1993]visuali-
siert. Die Kombination von parametrisierten Graphen mit einer Lexikongrammatik kann
beispielsweise ¨
außerst effektiv bei der syntaktischen Analyse einfacher S¨
atze sein [Pau-
mier, 2001; Laporte, 2005].
15
Kapitel 2. Lokale Grammatiken
Graphen sind sehr geeignete Repr¨
asentationen f¨
ur lokale Grammatiken, denn es gibt
diverse Grafikprogramme, mit denen sich diese Graphen leicht erstellen, erweitern oder
ab¨
andern lassen. Die beiden Systeme INTEX und UNITEX bieten u.a. solche Zeichen-
programme f¨
ur Automaten an.
Jeder Graph besteht aus einem Anfangszustand, der durch einen Rechtspfeil symbo-
lisiert wird. Dieser Rechtspfeil geht von keinem Zustand aus, sondern f¨
uhrt lediglich zu
einem der n¨
achsten Zust¨
ande im Graphen. Außerdem enth¨
alt jeder endliche Graph einen
Endzustand, welcher meist durch einen doppelt umrandeten Kreis dargestellt wird. Die
Graphen werden von links nach rechts interpretiert und so werden die m¨
oglichen Pfade
abgelaufen“ und ihre Muster im Text gesucht. Bei den Systemen INTEX und UNITEX
steht jeder Zustand bzw. jeder Knoten f¨
ur W¨
orter (mit oder ohne ihrer morphologi-
schen Informationen) oder f¨
ur Klassen aller Flexionsformen von W¨
ortern, wenn diese
in spitzen Klammern notiert wurden. Somit werden die Eingabesequenzen des Trans-
duktors nicht an den ¨
Uberg¨
angen zu den Zust¨
anden genannt, sondern in den Zust¨
anden
selbst. Nat¨
urlich sind auch wie bei endlichen Automaten -Transitionen erlaubt. Alle
Transitionen werden durch Verbindungslinien zwischen den einzelnen Zust¨
anden darge-
stellt. Das leere Wort wird als <E> in den Knoten angegeben. Es wird sogar gestattet
Subgraphen innerhalb eines Automaten aufzurufen, was die ¨
Ubersichtlichkeit der Gra-
phen erh¨
oht. Diese Subgraphen werden grau unterlegt, so dass eine Unterscheidung zwi-
schen einem einfachen Zustand und einem Zustand, der einen weiteren Graphen aufruft,
m¨
oglich wird.
Die eben beschriebenen Graphen sind auch als gerichtete azyklische Graphen bekannt,
da sie keinerlei Zyklen enthalten. Im englischen Sprachraum werden sie als Directed
Acyclic Graphsbezeichnet und werden deshalb im deutschen Sprachraum h¨
aufig nur
DAGs genannt. Mathematisch gesehen repr¨
asentiert ein DAG eine Halbordnung.
2.2 Warum werden lokale Grammatiken verwendet?
Die meisten Versuche linguistische Theorien oder Grammatiken zu entwickeln, welche
umfassend und stark verallgemeinert beschreiben wollen, wie eine Sprache aufgebaut
ist, und wie Syntax, Morphologie und Semantik zusammenwirken, waren wenig befrie-
digend. Denn Ziel solch einer Grammatik sollte es immer sein, alle S¨
atze, die in einer
Sprache m¨
oglich sind, abzudecken, und kein Satz, der mit dieser Grammatik gebildet
werden konnte, durfte grammatikalisch oder semantisch unstimmig sein.
Anfangs ging man an dieses Problem so heran, dass jede explizite Komponente im Satz
durch ihre jeweilige grammatikalische Kategorie ersetzt wurde. Noam Chomsky fasste
1957 diese Grammatiken unter dem Begriff Kontextfreie Grammatik zusammen, muss-
te aber einr¨
aumen, dass es immer noch einige Unzul¨
anglichkeiten in Bezug auf die for-
male Repr¨
asentation nat¨
urlicher Sprache gab. Diese Grammatiken beschrieben in der
Regel nur einfache S¨
atze und gingen kaum auf die Abh¨
angigkeiten der einzelnen Satz-
teile untereinander ein [Gross, 1997].
Dagegen waren die sp¨
ateren Ans¨
atze von Zellig Sabbetai Harris und Noam Chomsky
schon spezieller, da sie inzwischen Bildungsregeln f¨
ur die einfachen S¨
atze definierten und
16
Kapitel 2. Lokale Grammatiken
diese dann untereinander kombiniert wurden, so dass komplexe S¨
atze geformt werden
konnten. Im Grunde war es damals schon ein kleiner Schritt in Richtung Diskursanalyse,
den die beiden vollzogen. Denn sie legten Regeln fest, welche die Satzstellung innerhalb
der einfachen S¨
atze variierten und einfache S¨
atze zu komplexen Satzgef¨
ugen verbanden.
Irgendwann stellte sich dann heraus, dass diese theoretische Sichtweise der nat¨
urlichen
Sprache, die immer komplexer werdenden Beschreibungsformalismen und die vielen Aus-
nahmen, welche sich in die Bildungsregeln eingeschlichen hatten, nicht mehr zu hand-
haben waren. Daraufhin besonnen sich viele Linguisten darauf das Ph¨
anomen Spra-
che“ anders zu erforschen. In ihrer Herangehensweise verhielten sie sich ¨
ahnlich wie
Naturwissenschaftler. Man muss keine S¨
atze erfinden, denn es gibt sie schon, und man
muss das Vorhandene zuerst untersuchen, bevor Neues automatisch generiert werden
kann. Laut Maurice Gross findet man eine Grammatik im Text und muss sich nicht erst
eine ausdenken.
Deshalb sollte man als Linguist keine Theorie in die Welt setzen, bevor man nicht Kor-
pusmaterial gesammelt und seinen Ansatz auf realem Text verifiziert hat. Denn indem
Satzkorpora gebildet werden, deren syntaktische und semantische Struktur analysiert
wird, entstehen indirekt schon Regeln zur Beschreibung der Sprache.
Des Weiteren war Zellig S. Harris davon ¨
uberzeugt, dass die Untersuchung von Subspra-
chen in Verbindung mit lokalen Grammatiken besonders vielversprechend sein d¨
urfte,
weil Subsprachen
thematisch begrenzt sind,
lexikalischen, syntaktischen und semantischen Restriktionen unterliegen,
in ihren grammatikalischen Eigenschaften nicht der Allgemeinsprache gleichen,
gewisse lexikalische Strukturen relativ h¨
aufig wiederholen
in sich strukturiert sind und
eine gewisse Symbolik verwenden.
So k¨
onnen Elemente der Sprache, die in lokalen Grammatiken erfasst werden, als kleine,
aber aussagekr¨
aftige Subsprachen gesehen werden, und Beschreibungsversuche von Sub-
sprachen w¨
urden in ihrer Repr¨
asentation erweiterten lokalen Grammatiken entsprechen.
Die Einschr¨
ankung der Sprache auf eine bestimmte Bezugsdom¨
ane – wie z.B. auf Wirt-
schaftsnachrichten – und die damit verbundene Verwendung von themenspezifischen
Fachvokabular rechtfertigen gewiss den Einsatz von lokalen Grammatiken. Aufgrund
dessen sind lokale Grammatiken zur syntaktischen und semantischen Analyse von Men-
schenbezeichnern innerhalb biographischer Relationen sicherlich die richtige Entschei-
dung.
17
Kapitel 2. Lokale Grammatiken
2.3 UNITEX – Ein System zur Anwendung lokaler
Grammatiken
UNITEX ist ein Korpusverarbeitungssystem, welches es erm¨
oglicht, mit elektronischen
Ressourcen wie z.B. elektronischen Lexika umzugehen und lokale Grammatiken zu ent-
wickeln und anzuwenden. Dabei wird auf drei Ebenen der Sprache – der Morphologie,
dem Lexikon und der Syntax – gearbeitet.
Die Hauptfunktionen von UNITEX sind u.a
das Erzeugen, sowie die Anwendung und Verarbeitung elektronischer W¨
orterb¨
ucher,
die Benutzung von regul¨
aren Ausdr¨
ucken zum Pattern Matching,
die Interpretation rekursiver Transitionsnetze zum Pattern Matching,
die Anwendung von lokalen Grammatiken und Lexikongrammatiken und
die Au߬
osung von Ambiguit¨
aten ¨
uber den Text-Automaten.
Das Konzept f¨
ur das System UNITEX wurde am LADL (Laboratoire d’Automatique Do-
cumentaire und Linguistique) unter der Leitung von Prof. Maurice Gross entwickelt, und
das dazugeh¨
orige Programm wurde am Institut Gaspard-Monge (IGM) der Universit´e
de Marne-la-Vall´ee von S´ebastien Paumier implementiert.
Derzeit werden f¨
ur UNITEX Lexika in 14 verschiedene Sprachen (Deutsch, Englisch,
Finnisch, Franz¨
osisch, Griechisch, Italienisch, Koreanisch, Norwegisch, Polnisch, Portu-
giesisch, Brasilianisches Portugiesisch, Russisch, Spanisch und Thai) angeboten.
Da UNITEX im Gegensatz zu INTEX frei verf¨
ugbar ist und unter der GNU GPL
(GNU General Public License) steht, kann es im Grunde jeder benutzen. Außerdem
stellt es ganz ¨
ahnliche Funktionen wie INTEX zur Verf¨
ugung und ist auf allen g¨
angigen
Betriebssystemen (Windows, Linux, MacOS) lauff¨
ahig.6
Vorallem bietet UNITEX eine komfortable und intuitiv bedienbare Ober߬
ache zur
Entwicklung von Grammatiken. Dabei handelt es sich um eine Java-Ober߬
ache, von der
aus diverse C++-Programme gesteuert werden.
2.3.1 Textvorverarbeitung
UNITEX arbeitet mit der Kodierung UTF-16 Little Endian“ und unterst¨
utzt somit
den Unicode 3.0 Standard. Dadurch wird selbst die Verarbeitung asiatischer Sprachen
erm¨
oglicht. Zur Konvertierung der Texte empfiehlt sich das Programm Convert von
UNITEX. Nachdem UNITEX mit der gew¨
ahlten Sprache gestartet worden ist, kann
man einen Text mit der Kodierung UTF-16 LE ¨
offnen. Dabei wird gefragt, wie der Text
vorverarbeitet werden soll. Die Textvorverarbeitung von UNITEX setzt sich aus den
Schritten Normalisierung, Satzenderkennung, Au߬
osung von Kontraktionen, Tokenisie-
rung und lexikalische Analyse des Korpus zusammen.
6http://www-igm.univ-mlv.fr/~unitex/download.html
18
Kapitel 2. Lokale Grammatiken
Normalisierung
Es ist Aufgabe des Programms Normalize die Normalisierung des Textes vorzunehmen,
indem Folgen von Leerzeichen bzw. Zeilenumbr¨
uchen durch ein Zeichen ersetzt wer-
den. Gleichzeitig wird die interne Syntax von eventuell lexikalisch annotierten Token
¨
uberpr¨
uft.
Satzenderkennung und Au߬
osung von Kontraktionen
UNITEX bietet eine sprachspezifische Satzenderkennung mittels lokaler Grammatiken
in Form von Graphen an. Des Weiteren werden Kontraktionen wie z.B. I’mzu I am
oder you’rezu you areaufgel¨
ost und verschiedene Arten von Anf¨
uhrungszeichen
vereinheitlicht.
Tokenisierung
Hierf¨
ur ist das Programm Tokenize von UNITEX zust¨
andig. Die Tokenisierung wird
aufgrund des Alphabets der jeweiligen Sprache vorgenommen. Die daraus resultierende
Tokenliste wird f¨
ur sp¨
atere Zwecke im Arbeitsverzeichnis des aktuellen Textes gespei-
chert.
Lexikalische Analyse
Bei der lexikalischen Analyse werden alle Standardw¨
orterb¨
ucher der jeweiligen Spra-
che und eventuell noch eigene Lexika auf die Tokenliste angewendet. Dabei kommt das
Programm Dico zum Einsatz, welches alle Token mit der entsprechenden grammatikali-
schen oder semantischen Information aus den Lexika versieht. Alle Lexika, welche vom
System UNITEX verwendet werden sollen, m¨
ussen formal dem Standard der DELA
W¨
orterb¨
ucher entsprechen.
2.3.2 DELA W¨
orterb¨
ucher [Geierhos, 2005]
Das klassische W¨
orterbuch ist eine Sammlung von W¨
ortern oder einer Kategorie von
W¨
ortern einer Sprache, die in der Regel in alphabetischer Ordnung mit Erl¨
auterungen in
derselben Sprache oder einer ¨
Ubersetzung derer in eine andere Sprache aufgelistet sind
(Lexis, 1975). Dagegen ist das elektronische W¨
orterbuch eine formale Repr¨
asentation
eines Lexikons, welche jeder Flexionsform ihr Lemma, genauso wie die entsprechen-
de grammatikalische, Flexions- und eventuelle semantische Information zuweist (nach
ebastien Paumier)7.
¨
Uberdies hinaus wird von einem elektronischen W¨
orterbuch gefordert, dass es formal
und vollst¨
andig ist, so dass es sich maschinell verarbeiten l¨
asst und es von Programmen
automatisch ver¨
andert werden kann. Theoretisch m¨
usste es 100% des Lexikons abdecken,
was allerdings kaum realisierbar ist.
7¨
Ubersetzung aus dem Franz¨
osischen
http://wwwigm.univmlv.fr/~paumier/DEA/Cours%206%20%20Dictionnaires%20electroniques.pdf
19
Kapitel 2. Lokale Grammatiken
DELA ist ein elektronisches W¨
orterbuchsystem und steht f¨
ur Dictionnaires ´electroniques
du LADL8. In den 60er Jahren wurde es von Prof. Maurice Gross ins Leben gerufen,
und war zun¨
achst unter dem Namen Lexikon Grammatik“ bekannt. Das DELA ist eine
formale Repr¨
asentation der jeweiligen Sprache; das heißt, Spracheigenschaften werden
strukturiert abgespeichert, wobei sowohl Vokabular als auch Morphologie ber¨
ucksichtigt
werden.
Die DELA-W¨
orterbuchfamilie gliedert sich in folgende Teillexika:
DELAS mots simples: W¨
orterbuch f¨
ur die einfachen W¨
orter
DELAC mots compos´es“: W¨
orterbuch f¨
ur die komplexen W¨
orter
DELAF formes fl´echies: W¨
orterbuch der einfachen W¨
orter, deren Flexionsmerk-
male kodiert sind.
DELACF mots compos´es avec les formes fl´echies: W¨
orterbuch der komplexen
W¨
orter, deren Flexionsmerkmale kodiert sind.
Dabei werden als einfache W¨
orter (mots simples) Sequenzen zusammenh¨
angender
Buchstaben eines Alphabets einer bestimmten Sprache verstanden, wie z.B. angry,.A
oder acually,.ADV oder bodies,body.N:p.
Dagegen sind komplexe W¨
orter (mots compos´es) Sequenzen zusammengesetzter lexi-
kalischer Einheiten wie einfache W¨
orter, Trennzeichen oder Ziffern.
Beispiele aus dem Franz¨
osischen w¨
aren hierf¨
ur coup de chance,.N+NDN:ms (Gl¨
uckstreffer)
oder coup de pied,.N+NDN:ms (Fußtritt) oder das ambige coup de foudre,.N+NDN:ms
(Liebe auf den ersten Blick /Blitzschlag).
Die eben genannten Beispiele deuteten bereits an, dass hinter einem Eintrag im DELAF
eine gewisse Symbolik steht.
So besteht ein Lexikoneintrag im DELAF aus 5 verschiedenen Feldern [Courtois, 2004]:
1. Flektierte Form des Wortes
2. Lemma des Wortes (Kanonische Form)
3. Charakteristische Informationen zur Lemmaform
4. Grammatikalische Eigenschaften der flektierten Form
5. Optionale Erg¨
anzungen f¨
ur den menschlichen Betrachter
Analog dazu wird ein Eintrag im DELACF gebildet. Dabei sollte man noch anmerken,
dass das zweite Feld (die Lemmaform) immer dann leer ist, wenn sie mit der flektierten
Form identisch ist. Daf¨
ur wird das vierte Feld (die grammatikalische Information f¨
ur
die flektierte Form) nicht belegt, wenn das Wort eindeutig ist, und es nicht variiert
8LADL = Laboratoire d’Automatique Documentaire et Linguistique
20
Kapitel 2. Lokale Grammatiken
werden kann. Außerdem wird das f¨
unfte und letzte Feld (die Zusatzinformation) nur
besetzt, wenn die flektierte Form – das Ausgangswort – ein Kompositum ist. Genau die
gleichen Regeln gelten f¨
ur Lexikoneintr¨
age im DELAS und DELAC, nur dass hier die
Flexionsinformation entf¨
allt.
An einem konkreten Beispiel w¨
urde dies nun folgendes bedeuten:
bodies,body.N:p
bodies : flektierte Form
body : Lemmaform
N : grammatikalische Information (Nomen)
p : grammatikalische Eigenschaft der flektierten Form (Plural)
Bei der Erstellung eigener Lexika sollte darauf geachtet werden, dass Mehrwortlexe-
me direkt im Lexikon kodiert werden, weil sonst Fehler bei der Tokenisierung gemacht
werden. Wenn man nur ein Teilformenlexikon verwenden w¨
urde, k¨
onnte beispielswei-
se grand-m`erenicht als ein Wort erkannt werden. Oft besteht auch die M¨
oglichkeit
Mehrwortlexeme wie grand-m`ere(Großmutter) anstatt des Bindestrichs mit einem
Leerzeichen dazwischen zu schreiben. Daf¨
ur w¨
are dann grand=m`eres,grand=m`ere.N:fp
der entsprechende Lexikoneintrag, denn das ’=’ ist ein Metazeichen, was f¨
ur einen Bin-
destrich ’-’ und f¨
ur ein Leerzeichen steht.
Je nachdem wie ausf¨
uhrlich die Kodierung eines Lexikons mit diversen grammatikali-
schen oder semantischen Angaben vorgenommen wurde, spricht man von 3 Stufen der
Lexikonkodierung:
DELAF-S (short): Es werden minimale Angaben zur grammatikalischen Ana-
lyse der einzelnen Formen gemacht. Das heißt, dass lediglich Informationen zur
jeweiligen Wortart und zur Flexion kodiert werden. Hier wird ausschließlich auf
die Grammatik Bezug genommen.
DELAF-M (medium): Die Lexikoneintr¨
age werden um semantische Informa-
tionen zu den Nomina erweitert. Dabei wird spezifiziert, welche Eigenschaften das
Nomen hat, z.B. ob es ein Menschenbezeichner Hum, ein Konkreta Conc oder ein
Tier Anl etc. ist. Außerdem werden Determinativa DET und Pronomina PRO durch
weitere Unterkategorien versehen. Auf diese Weise wird die Semantik miteinbezo-
gen.
DELAF-L (large): Hierbei werden die W¨
orterbucheintr¨
age um die Lexikon-
grammatik der LADL erg¨
anzt, so dass die syntaktischen Eigenschaften der Verben
im Franz¨
osischen markiert werden (Ber¨
ucksichtigung der Syntax).
Wie ausf¨
uhrlich nun ein Lexikoneintrag erstellt wird, h¨
angt ganz von seiner sp¨
ateren
Funktion ab und ¨
uber welche Art von Informationen er sp¨
ater angesprochen werden
soll. Das heißt nichts anderes, als dass beispielsweise Nomina, welche die semantische
Funktion eines Menschenbezeichners haben, auch als solche markiert werden sollten.
Legt man allerdings nachher Wert auf Kongruenzeigenschaften, so sollte man auf keinen
Fall die grammatikalische Information außer Acht lassen.
21
Kapitel 2. Lokale Grammatiken
2.3.3 Priorit¨
aten bei der Anwendung der Lexika
UNITEX unterscheidet drei Priorit¨
aten bei der Anwendung der Lexika, falls der Da-
teiname eines Lexikons (ohne die Endung .bin) auf ’-’ bzw. ’+’ endet:
1. *-.bin (h¨
ochste Priorit¨
at – diese Lexika werden vorrangig behandelt)
2. *.bin (durchschnittliche Priorit¨
at – diese Lexika werden zweitrangig behandelt)
3. *+.bin (niedrigste Priorit¨
at – diese Lexika werden zuletzt auf den Text angewen-
det)
Token, die einem der Lexika einer Priorit¨
atsebene gefunden wurden, werden in kei-
nem Lexikon mit untergeordneter Priorit¨
at mehr nachgeschlagen. So lassen sich z.B.
bestimmte Lesarten f¨
ur ein Token erzwingen, da das h¨
oher priorisierte Lexikon wie ein
Filter andere Bedeutungen aussiebt. Innerhalb einer Priorit¨
atsebene werden alle Lexika
gleichrangig behandelt, d.h. verschiedene Lesarten eines Tokens aus unterschiedlichen
Lexika werden ins Textlexikon geschrieben.9
2.3.4 Mustererkennung und Konkordanzen
Wie bereits erw¨
ahnt, werden lokale Grammatiken im System UNITEX als Graphen
(DAGs) repr¨
asentiert. M¨
ochte man nun eine lokale Grammatik auf einem Korpus testen,
so w¨
ahlt man den entsprechenden Graphen aus, und das Programm Locate wendet diesen
Graphen auf den Text an und erstellt den Index f¨
ur eine Konkordanz. Dabei bietet Locate
dem Benutzer verschiedene Arten der Textsuche an, bei der
die k¨
urzesten Treffer,
die l¨
angsten Treffer oder
alle Treffer
ausgegeben werden.
Außerdem l¨
asst sich das Verhalten des Graphen steuern, falls es sich um einen Trans-
duktor handelt. Es gibt folgende M¨
oglichkeiten:
Die Ausgabe des Transduktors bleibt unber¨
ucksichtigt.
Die Ausgabe des Transduktors wird links vom Treffer eingef¨
ugt.
Die gefundene Sequenz wird durch die Ausgabe des Transduktors ersetzt.
F¨
ur das Anfertigen einer Konkordanz ist das Programm Concord zust¨
andig. Es gibt
einerseits die Konkordanz in verschiedenen Formaten aus (HTML, Text), und anderer-
seits l¨
asst sich die L¨
ange des Kontextes und die Sortierweise der Treffer spezifizieren.
9vgl. http://www.cis.uni-muenchen.de/~wastl/lg/introUnitex.pdf
22
3 Zusammenfassung fr¨
uherer Arbeiten
In diesem Kapitel werden einige f¨
ur diesen Ansatz relevante Arbeiten vorgestellt, welche
interessante Methoden bei der automatischen Erkennung von Eigennamen, aber auch
allgemeine praktische Hinweise im Umgang mit lokalen Grammatiken beschreiben.
3.1 Bootstrapping
3.1.1 Bootstrapping bei der Entwicklung lokaler Grammatiken
[Gross, 1999]
Bereits in Kapitel 2 wurden einzelne Aufs¨
atze von Maurice Gross, welche das Konzept
hinter den lokalen Grammatiken erl¨
autern, zitiert. Dabei wurde ein weiterer Artikel, der
besonders f¨
ur die praktische Arbeit mit lokalen Grammatiken wichtig ist, außer Acht
gelassen. A Bootstrap Method for Constructing Local Grammars[Gross, 1999]sollte
deshalb in diesem Zusammenhang nicht ungenannt bleiben.
Maurice Gross stellt hierbei einen Ansatz vor, lokale Grammatiken oder elektronische
Lexika um ein Wort oder Mehrwortlexem herum zu entwickeln.
Dabei wird zun¨
achst vom vorhandenen Lexikoninventar ausgegangen und jeder Ein-
trag als solch ein Schl¨
usselbegriff gesehen. Mithilfe einer Suchfunktion kann dann der
jeweilige Kontext zu den Ausgangsbegriffen auf einem Beispieltext ermittelt werden. Zu
jedem neuen Vorkommen im Korpus wird der Kontext entsprechend seiner lexikalischen
Funktion manuell ausgewertet. So k¨
onnen relativ schnell und auf einfache Art Mehr-
wortlexeme gefunden werden, die das Schl¨
usselwort in irgendeiner Form enthalten. Als
n¨
achstes empfiehlt es sich, die unmittelbaren Kontexte des Ausgangswortes zu schema-
tisieren, um sp¨
ater gezielt alle m¨
oglichen ¨
Außerungen, welche diesen Begriff enthalten,
abzudecken.
Im konkreten Fall heißt das, dass beispielsweise das Wort healthder Schl¨
usselbegriff
war, und in der Konkordanz l¨
asst sich das Muster health and <N> identifizieren.
Nat¨
urlich werden noch viele andere linguistische Schemata erkennbar sein, doch geht
man jedes einzeln durch. Ausgehend von diesem regul¨
aren Ausdruck kann man eine
Grammatik in Form eines Finite-State-Graphen entwerfen, mit der alle Nomina gefunden
werden, welche in diesem speziellen Kontext von health“ auftreten.
Daraus ergibt sich dann der Graph aus Abbildung 3.1. Dieser l¨
asst sich erneut in
einen anderen Graphen einbinden, welcher den linken Kontext von healthspezifiziert.
Diese Methode kann nun beliebig oft wiederholt werden, bis alle m¨
oglichen Kontexte des
Ausgangswortes ermittelt und beschrieben wurden.
23
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Abbildung 3.1: HealthAndN.grf aus [Gross, 1999]
Diese Methode zur Entwicklung lokaler Grammatiken wird als Bootstrapping bezeich-
net und liefert systematisch und schnell gute Ergebnisse bei der Grammatikerstellung.
3.1.2 Bootstrapping zur Erkennung von Nominalphrasen mit FSTs
[Senellart, 1998b]
Jean Senellart stellt in seinem Aufsatz Tools for locating noun phrases with finite state
transducers[Senellart, 1998b]verschiedene praxisnahe Verfahren (Tools) vor, wie man
relativ schnell eine große Datenbasis endlicher Automaten (FSTs10) aufbauen kann, wel-
che Eigennamen und Berufsbezeichner in Nominalphrasen lokalisieren.
Die Vorgehensweise
Anfangs wird nur ein Wort ausgew¨
ahlt, zu dem die Konkordanz ¨
uber den Text erstellt
wird. In diesem Fall war es das Wort officer, welches als Ausgangspunkt f¨
ur die Gra-
phenkonstruktion diente. Mithilfe der Konkordanzen konnte man unter anderem fest-
stellen, welche milit¨
arischen R¨
ange im Korpus zusammen mit officer vorkamen und so
Subgraphen erstellen, welche dies abdeckten. Des Weiteren traten auch Adjektive und
Nomen im Kontext von officer auf, welche Staatszugeh¨
origkeiten ausdr¨
ucken. Um diese
Erg¨
anzungsm¨
oglichkeiten bzw. Spezifikationen nicht zu verlieren, entschied man sich
sie in Form von W¨
orterb¨
uchern zu kodieren. Auf diese Weise k¨
onnen die gewonnenen
Erkenntnisse vielschichtig eingesetzt werden und sind nicht nur an diesen Kontext ge-
bunden. Gleiches gilt f¨
ur die gesammelten Kontexte von officer, denn auch diese konnten
bei anderen Berufsbezeichnungen mit Erfolg angewendet werden.
Nachdem man Graphen zu einem bestimmten Schl¨
usselwort erstellt hat, ist es auch
m¨
oglich diese Graphen zu verwenden, um neue Begriffe zu finden, die den gleichen Kon-
text wie das Schl¨
usselwort aufweisen. Daf¨
ur muss lediglich der urspr¨
ungliche Schl¨
ussel-
begriff durch eine Variable ersetzt werden. Der neue Graph liefert dann beim Matching
10FSTs = Finite-State-Transducers. Sie k¨
onnen sowohl als Transduktoren, aber auch als endliche Au-
tomaten fungieren. Ob eine Ausgabesequenz erzeugt werden soll, h¨
angt allein vom Benutzer ab.
24
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
alle Ergebnisse, die der alte Graph gefunden hat, und neue Treffer, die nun an der Stel-
le von officer andere Berufsbezeichner aufweisen. Mit dieser Methode lassen sich leicht
Synonyme, Hyponyme oder andere semantisch ¨
ahnliche W¨
orter zum Ausgangsbegriff
finden.
Mithilfe dieser neuen Kandidaten k¨
onnen nun die beiden eben genannten Schritte
wiederholt werden, und so entsteht eine Dynamik in der Grammatikentwicklung, bei der
aus alten Ergebnissen immer neuere, bessere und ausbauf¨
ahigere Resultate entstehen.
Genau diesen dynamischen Entstehungsprozess versteht man hier als Bootstrapping.
Das Ergebnis
Insgesamt hat Jean Senellart mehr als 200 verschiedene Graphen konstruiert, um so
viele Berufsbezeichnungen wie m¨
oglich abzudecken, und seine Lexika zu Nachnamen
und St¨
adten enthielten jedes f¨
ur sich einige tausend Eintr¨
age. Seiner Meinung nach
war das auch ein praktischer Beweis daf¨
ur, dass die Entwicklung lokaler Grammatiken
sehr effizient sein kann, wenn diese nahe am Text verl¨
auft. Doch diese Effizienz wurde
auch durch die entsprechende Software gef¨
ordert, denn ein Graphen-Editor, ein Index
basierter Parsing-Algorithmus, sowie ein Konkordanzprogramm und diverse Debugging-
M¨
oglichkeiten sind Tools, die bei der Konstruktion von FSTs sehr hilfreich sein k¨
onnen.
3.2 Lemmatisierung zusammengesetzter Zeiten im
Englischen [Gross, 1998-1999]
F¨
ur die Erkennung von Menschenbezeichnern in biographischen Kontexten, kann es
durchaus hilfreich sein, alle Verbkonstruktionen zu lokalisieren, da diese h¨
aufig die Se-
mantik des biographischen Ereignisses tragen. Auf diese Weise k¨
onnen Verbkonstruk-
tionen innerhalb der zu untersuchenden S¨
atze von den potentiellen Entit¨
aten (z.B. Per-
sonennamen) in Subjekt- oder Objektposition abgegrenzt werden.
Zu diesem Zweck hat Maurice Gross in den Jahren 1998/1999 ein sehr umfangreiches
Graphenpaket zur Lemmatisierung zusammengesetzter Zeiten im Englischen entwickelt,
welches er in seinem Aufsatz Lemmatization of compound tenses in English[Gross,
1998–1999]ausf¨
uhrlich beschreibt.
Seine Graphen sollen sp¨
ater zur Erkennung personenbezogener Pr¨
adikate in dem hier
vorgestellten Ansatz eingesetzt werden. Da sie mit wenigen Ausnahmen alle Verben des
Englischen in verschiedenen Zeitformen finden k¨
onnen, sind sie eine Bereicherung f¨
ur
jede Arbeit.
Die Abbildungen 3.2 und 3.3 auf Seite 26/27 visualisieren das Zusammenspiel der
einzelnen Graphen. Dabei wird deutlich, welche Grammatik welche Grammatik aufruft,
und es wird somit gezeigt, wie diese voneinander abh¨
angen. Der Ausgangspunkt ist der
Graph VAUX, der sozusagen alle F¨
aden bei der Erkennung der Verben in der Hand
h¨
alt. Wie jeder dieser 80 Automaten genau aufgebaut ist, soll hierbei nicht von Inter-
esse sein, da sp¨
ater (in Abschnitt 5.2.6) nur mit den von ihnen generierten Ergebnissen
weitergearbeitet wird.
25
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Abbildung 3.2: ¨
Ubersicht der Lemmatisierungsgraphen aus [Gross, 1998-1999] (Teil 1)
26
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Abbildung 3.3: ¨
Ubersicht der Lemmatisierungsgraphen aus [Gross, 1998-1999] (Teil 2)
27
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Abbildung 3.4: VModToV.grf aus [Gross, 1998-1999]
Abbildung 3.5: Insert.grf aus [Gross, 1998-1999]
Stellvertretend f¨
ur alle Graphen veranschaulicht der Graph aus Abbildung 3.4 die Struk-
tur einer m¨
oglichen Verbalphrase des Englischen und ber¨
ucksichtigt dabei auch m¨
ogliche
Satzeinsch¨
ube (siehe Abbildung 3.5).
3.3 Erkennung von Personenbezeichnungen
3.3.1 Erkennung von Eigennamen und Berufsbezeichnungen
[Senellart, 1998a]
In seiner Arbeit Locating noun phrases with finite state transducers[Senellart, 1998a]
beschreibt Jean Senellart einen w¨
orterbuchgest¨
utzten Ansatz zur Erkennung von Eigen-
namen mittels endlichen Transduktoren.11 Daf¨
ur hatte er sich zum Ziel gesetzt eine loka-
le Grammatik zu entwickeln, die Nominalphrasen bestehend aus Eigennamen und/oder
Berufsbezeichnungen beschreibt. Jedoch sollte sich die Erkennung von Eigennamen –
besonders von Personennamen – bzw. Berufsbezeichnern auf die Dom¨
ane der Zeitungs-
nachrichten beschr¨
anken.
Dabei m¨
ussen aber auch semantische Relationen, wie Synonymie und Hyperonymie
ber¨
ucksichtigt werden, so dass Anfragen vom Typ Find all newspaper articles in a
general corpus mentioning the French prime minister.[Senellart, 1998a]oder How
is Mr. X referred to in the corpus; what have been his different occupations through
out the period over which our corpus extends?“ [Senellart, 1998a]verarbeitet werden
konnten. Denn Antworten auf die erste Frage, werden wohl kaum Schl¨
usselworte aus der
11Endliche Transduktoren werden im Englischen als Finite-State-Transducers (FSTs) bezeichnet.
28
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Query enthalten, sondern eher dazu passende Synonyme oder Eigennamen, die auf die
Umschreibung franz¨
osischer Premierminister“ zutreffen.
Vergleich mit anderen Information Retrieval Methoden
Der eben beschriebene Ansatz weicht stark von anderen g¨
angigen Ans¨
atzen der Informa-
tionsbeschaffung aus unstrukturierten Texten ab. Weitere Konzepte zur automatischen
Informationsgewinnung sind u.a.
Algorithmen, die mit Schl¨
usselbegriffen arbeiten (Key-Word-Algorithms).
Algorithmen, die nach Mustern exakt suchen (Exact-Pattern-Algorithms).
Algorithmen, welche die Statistik zu Hilfe nehmen (Statistical Algorithms).
Key-Word-Algorithms werden gerne von Suchmaschinen, wie z.B. Yahoo!, verwen-
det. Sie suchen nach Schl¨
usselbegriffen aus der Anfrage, die zusammen in einem Text
auftreten. In der Regel werden noch leichte Abwandlungen in der Rechtschreibung, sowie
verschiedene grammatikalische Endungen und Rechtschreibfehler akzeptiert und bei der
Suche miteinbezogen.
Exact-Pattern-Algorithms bzw. Exact-String-Matching-Algorithms verwenden
regul¨
are Ausdr¨
ucke aus Buchstaben, welche exakt auf dem Dokument suchen. Mit dieser
Methode arbeitet u.a. das Oxford English Dictionary (OED). Bei der Eingabe des Such-
strings sind jedoch auch Wildcards wie das Fragezeichen ? und der Asterisk erlaubt,
wobei das Fragezeichen f¨
ur einen beliebigen Buchstaben steht und der Asterisk eine be-
liebige Sequenz von Buchstaben repr¨
asentiert. Des Weiteren beeinflusst die Groß- oder
Kleinschreibung nicht das Auffinden von Eintr¨
agen, da case-insentive gesucht wird. Im
Gegensatz zu den Key-Word-Algorithms muss jeder Term aus der Anfrage in der gege-
benen Reihenfolge ber¨
ucksichtigt werden.
Statistical Algorithms bieten dem Benutzer nur solche Dokumente als Ergebnis an,
die sowohl Schl¨
usselw¨
orter aus der Anfrage enthalten, aber auch statistisch gesehen
semantisch nahe an den Anfragetermen liegen.
Am einfachsten zu implementieren sind wohl Algorithmen, die mit Schl¨
usselbegriffen
aus der Anfrage arbeiten. Der Nachteil daran ist leider nur, dass die Ergebnisse sehr
st¨
oranf¨
allig sind, was nichts anderes heißt, als dass Homographen12 der Anfrageterme
im Text auftauchen k¨
onnen, oder dass Begriffe im Text gefunden werden, die sehr ¨
ahnlich
zu den Anfragetermen sind.
Dagegen liefern Algorithmen, die mit Mustern bzw. regul¨
aren Ausdr¨
ucken arbeiten,
ausgezeichnete Ergebnisse zur¨
uck. Jedoch sind die Muster hierbei so komplex, dass sich
sogar Pattern spezifizieren lassen, mit denen man Synonyme der Anfrageterme finden
kann. Außerdem lassen sich die verschiedenen grammatikalischen Endungen sehr pr¨
azise
beschreiben. Nur wird es immer schwieriger die Muster zu konstruieren und zu verar-
beiten, je komplexer die morphologischen Ph¨
anomene werden, welche es zu beschreiben
gilt.
12Ein Homograph ist ein Wort, das die gleiche Schreibweise wie ein oder mehrere andere W¨
orter hat,
aber von unterschiedlicher Bedeutung ist und meist auch unterschiedlich ausgesprochen wird.
29
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Ein Algorithmus, der auf statistischen Methoden basiert, kann lediglich f¨
ur einfache
Anfragen gute Resultate liefern, und man braucht große Dokumentmengen, um stati-
stisch repr¨
asentative Ergebnisse zu bekommen. Doch dabei werden Terme mit niedriger
Frequenz im Text meist ignoriert.
Welcher Ansatz w¨
are nun zur Erkennung von Eigennamen am idealsten?13
Der erste Ansatz w¨
urde funktionieren, wenn man entweder nur einen Vornamen oder
einen Nachnamen in der Anfrage angeben w¨
urde, welcher auf keinen Fall ambig sein darf.
D.h. dass beispielsweise Nachnamen wie Majornicht in der Query vorkommen d¨
urfen,
da sonst nicht nur ein Teil des Namens wie z.B. John Major, sondern auch Major
Tom Stuart erkannt w¨
urde. Auch k¨
onnte dieser Algorithmus im Falle von mehreren
Suchbegriffen, wie z.B. John Major, alle Artikel finden, in denen jemand erw¨
ahnt wird,
der Johnheißt und alle Texte, in denen das Wort Major“ (als Eigenname oder als
milit¨
arischer Rang) auftritt. Nat¨
urlich sollten auch Artikel gefunden werden, in denen
beide Begriffe auftauchen, doch m¨
ussten sie nicht direkt nebeneinander im Text stehen,
aber sie k¨
onnten es theoretisch. Die Implementierung des Algorithmus schreibt nicht vor,
dass im Text zuerst Johngefolgt von Majorauftreten muss, was die Ergebnismenge
f¨
ur diese Zwecke unn¨
otig vergr¨
oßert und die Pr¨
azision der Treffer deutlich verschlechtert.
Jedoch k¨
onnte wom¨
oglich der dritte Ansatz, welcher die Statistik miteinbezieht, rela-
tiv gute Antworten liefern, wenn man noch zus¨
atzlich die Begriffe prime und minister
mit in die Anfrage aufnehmen und auf sehr langen Dokumenten arbeiten w¨
urde. Da-
bei k¨
onnte man beispielsweise Nominalphrasen von der Art wie the prime minister,
John Major oder the French prime ministerextrahieren. Das sind ¨
außerst zufrie-
denstellende Ergebnisse, wenn man an das anf¨
anglich gesteckte Ziel – die Erkennung
von Eigennamen – denkt. Somit ist der statistische Ansatz, der auf keinerlei grammati-
kalischen Beschreibungsmethoden basiert, nicht zu verachten.
Deshalb hat Jean Senellart zusammen mit Maurice Gross versucht, eine neue Metho-
de zu entwickeln, die den statistischen Ansatz verbessert. In dem 1998 ver¨
offentlichen
Artikel Nouvelles bases pour une approche statistique.[Gross und Senellart, 1998]be-
schreiben sie die M¨
oglichkeit einen Vorverarbeitungsschritt vor das statistische Matching
zu schalten. Bei dieser Vorverarbeitung soll der Text zun¨
achst nach Mehrwortlexemen
– also mehreren W¨
ortern, die zusammen eine lexikalische Bedeutungseinheit bilden –
durchsucht werden, so dass ungef¨
ahr 50% des Textes schon semantisch annotiert wurde.
So kann es sp¨
ater beim statistischen Suchen auf dem Text nicht mehr m¨
oglich sein, dass
z.B. die Wortgruppe prime minister“ oder energy minister bei der alleinigen Suche
nach ministergetrennt wird.
Obwohl diese erfolgreiche Zusammenarbeit von linguistischen mit statistischen Metho-
den einen sehr vielversprechenden Eindruck vermittelt, entschied sich Senellart bei sei-
nem Vorhaben ganz auf die Dienste der Statistik zu verzichten und einen reinen grammatik-
und w¨
orterbuchgest¨
utzten Ansatz zur Erkennung von Eigennamen und Berufsbezeich-
nungen in Nominalphrasen zu w¨
ahlen.
Auf der Basis großer Lexika mit Eigennamen und Berufsbezeichnungen und unter Ver-
wendung von Transduktoren sollten Grammatiken f¨
ur die englische Sprache entstehen,
13vgl. [Senellart, 1998a]
30
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
welche Satzteile mit Personennamen oder Berufsbezeichnern formal und vollst¨
andig be-
schreiben.
Funktionsweise des Algorithmus
Der Algorithmus l¨
asst sich in drei große Verarbeitungsschritte unterteilen.
1. Zun¨
achst werden die W¨
orterb¨
ucher f¨
ur die Eigennamen, sowie die lokalen Gram-
matiken, welche die Berufsbezeichungen beschreiben, auf das Korpus angewendet.
Dabei werden semantische Relationen wie Synonymie und Hyponymie und die Zeit-
linie der Textsammlung formal definiert. Damit man die Ergebnisse dieses Schrittes
in Echtzeit zur¨
uckgeliefert bekommt, wird auf einem zuvor konstruierten Index der
Datensammlung gearbeitet.
2. In dieser Phase werden die erkannten Eigennamen im Transduktor durch Varia-
blen ersetzt und die gefundenen Eigennamen werden zur Lokalisierung anderer
Eigennamen verwendet, die dann dem Benutzer als neue W¨
orterbucheintr¨
age an-
geboten werden. Dadurch kann das Erstellen von weiteren Transduktoren und die
Erg¨
anzung der Lexikoneintr¨
age ¨
uberwiegend automatisiert werden.
3. Zum Schluss werden die erkannten Nominalphrasen automatisch in andere (nat¨
ur-
liche) Sprachen ¨
ubersetzt, indem entsprechende Transduktoren f¨
ur die jeweilige
Sprache generiert werden.
Einblick in die formalen Beschreibungsmethoden
Abbildung 3.6 zeigt eine lokale Grammatik in Form eines Finite-State-Graphen (FSG)14 .
Ein FSG ist im Grunde nur die graphische Repr¨
asentation eines Finite-State-Transducers
(FST). Jeder einzelne Knoten stellt die jeweilige Eingabesequenz dar, die der Automat
an dieser Transition akzeptiert. Unterhalb mancher Knoten befinden sich Markierun-
gen, welche die Ausgabesequenzen f¨
ur den entsprechenden Input im Knoten dar¨
uber
illustrieren. Der Startzustand des Transduktors wird durch einen Linkspfeil markiert,
wohingegen der Endzustand als doppeltes Quadrat angedeutet wird. Hat ein Knoten
einen leicht grauen Hintergrund, so heißt das, dass er einen Subtransduktor aufruft – ei-
ne Schreibweise, die es erm¨
oglicht, die ¨
Ubersichtlichkeit der Automaten zu gew¨
ahrleisten.
Nat¨
urlich ist es auch m¨
oglich, dass ein Subgraph einen Output hat, der dann in die Aus-
gabe des Haupttransduktors miteinbezogen wird. Ein Knoten, der ein <E> beinhaltet,
symbolisiert die leere Transition.
Mithilfe dieser Darstellungsformalismen lassen sich linguistische Konstrukte recht ein-
fach darstellen, da z.B. das System UNITEX auch einen Graphen-Editor bietet, mit dem
sich solche Grammatiken leicht erstellen lassen. Außerdem sind diese FSTs besser als
gew¨
ohnliche FSTs, da die Subgraphen sich auf den Hauptgraphen – also auf den Kon-
text davor oder danach – beziehen k¨
onnen, so dass man mit ihnen auch kontextsensitive
W¨
orter15 des Typs anbnerkennen kann.
14vgl. [Senellart, 1998a]
15siehe [Hopcroft et al., 2002]
31
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Abbildung 3.6: MinisterOccupation.grf aus [Senellart, 1998a]
An diesem konkreten Beispiel aus Abbildung 3.6 soll die Problematik der formalen Be-
schreibung von Nominalphrasen, welche sich auf das Wort ministerbeziehen, behan-
delt werden. Dieser Graph erkennt beispielsweise die Sequenz minister for European
affairs, aber er w¨
urde nicht French minister for agriculture“ matchen. Somit w¨
are
dieser Graph sicher noch ausbauf¨
ahig.
Abbildung 3.7: FullName.grf aus [Senellart, 1998a]
Der Graph aus Abbildung 3.7 illustriert die Erkennung von Personennamen, wobei er
sich W¨
orterbuch-Look-Ups zunutze macht.
32
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
An Knoten, welche <PN:FirstName> oder <PN:SurName> enthalten, gleicht der Trans-
duktor alle potentiellen Vornamen oder Nachnamen aus den Lexika mit dem Text ab.
Deshalb ist die Ausgabe dieses Automaten ein Nachname, vielleicht noch ein Vorname,
und wenn vorhanden moder ff¨
ur das ermittelte Geschlecht der Person, wobei das
Geschlecht ¨
uber die Anrede Mr,Sir,mister,Mrs“ ermittelt wird.
Abbildung 3.8: NounPhrases.grf aus [Senellart, 1998a]
Der NounPhrases-Graph in Abbildung 3.8 vereinigt die Subgraphen Occupation.grf und
FullName.grf und stellt somit die syntaktische Beziehung zwischen diesen beiden seman-
tischen Klassen der Eigennamen und Berufsbezeichnungen her. Dabei ist anzumerken,
dass <A> stellvertretend f¨
ur alle Adjektive steht, die dem Standardw¨
orterbuch bekannt
sind. Somit w¨
urde dieser Automat u.a. Phrasen wie software engineer Tom Mitchell“
oder Harry Smith the fantastic cook“ erkennen.
Schw¨
achen des Ansatzes
Nat¨
urlich beschreibt das komplette Graphenpaket nicht alle syntaktischen M¨
oglichkeiten,
wie Personennamen zusammen mit Berufsbezeichnungen auftreten k¨
onnen. Dennoch
versucht es nahezu alle einfachen Konstruktionen abzudecken. Beispielsweise w¨
urde der
NounPhrases-Graph aus Abbildung 3.8 nicht auf dem Satz Mr. Smith, who is since
1978, the chairman of ... matchen, da der Nebensatz im Graphen nicht ber¨
ucksichtigt
wird. Auch andere Einsch¨
ube dieser Art sind kompliziert zu erfassen und werden in
diesem Automaten außer Acht gelassen.
Eine andere Schwierigkeit besteht darin, dass eine Person mehrere Berufe aus¨
uben
kann, und somit besteht keine M¨
oglichkeit, eine eindeutige Zuordnung zwischen Person
und Beruf zu machen. Denn sie wird eventuell an einer Stelle im Text mit einer Be-
rufsbezeichnung und an einer anderen Position im Dokument mit einem anderen Beruf
referenziert. Dadurch kann das System nicht gew¨
ahrleisten, dass bei folgender Zuord-
nung
SurName=Mitchell, FirstName=Tom, Gender=m, Occupation=cook
SurName=Mitchell, FirstName=Tom, Gender=m, Occupation=hotel manager
Tom Mitchell“ ein und dieselbe Person ist.
Auch sind Adverbiale, die an fast jeder Stelle im Satz auftreten k¨
onnen, schwer ei-
ner Berufsbezeichnung als deren Erg¨
anzung zuzuordnen. So ist es selbst im Beispiel
In China, the first minister has ... f¨
ur den menschlichen Betrachter schwierig, die
Ortserg¨
anzung In China der Berufsbezeichung first minister zuzuordnen.
33
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
3.3.2 Erkennung von Personennamen in Zeitungstexten
[Friburger, 2002]
Nathalie Friburger hat sich im Zuge ihrer Dissertation der Erkennung von Eigennamen
in Nachrichtentexten gewidmet. ¨
Ahnlich wie Jean Senellart [Senellart, 1998a; Senellart,
1998b]w¨
ahlt sie einen w¨
orterbuchgest¨
utzten Ansatz zur Erkennung von Eigennamen
mittels Transduktoren. Um einen kurzen ¨
Uberblick zu geben, wie sie an dieses Thema
herangeht, soll nun die Arbeit von ihr und Denis Maurel Elaboration d’une cascade
de transducteurs pour l’extraction des noms personnes dans les textes16 [Friburger und
Maurel, 2001]und ihre Doktorarbeit Reconnaissance automatique des nomes propres –
Application `a la classification automatique de textes journalistiques17 [Friburger, 2002]
vorgestellt werden.
Kaskadierung18 von Transduktoren zur Extraktion von Eigennamen
[Friburger und Maurel, 2001]
Hierbei handelt es sich um ein Programm, welches Personennamen in franz¨
osischen Zei-
tungsberichten erkennt.
Transduktoren sind im Grunde auch nur endliche Automaten, welche allerdings ein
Eingabe- und ein Ausgabealphabet haben. In diesem Fall besteht das Eingabealphabet
aus Mustern, die im Korpus gefunden wurden, und das Ausgabealphabet f¨
ugt den mit
den Pattern erkannten Passagen die passende XML-Information hinzu. In der Regel sind
die gefundenen und XML annotierten Sequenzen Personennamen und ihre jeweiligen
Kontexte, was folgendes Beispiel illustriert.
Le Juge Renaud Van Ruymbeke
<profession> judge <\profession>
<person> <prenom> Renaud <\prenom> <nom> Van Ruymbeke <\nom><\person>19
Doch bevor man die Transduktoren nacheinander auf das Korpus anwenden kann, sind
einige Vorverarbeitungschritte notwendig, welche vom System INTEX [Silberztein, 1993]
¨
ubernommen werden.20 Zu den wichtigsten Phasen z¨
ahlt u.a. die Satzenderkennung, wel-
che auf dem ganzen Text durchgef¨
uhrt wird. Im gleichen Schritt werden auch die Satzend-
markierungen in den Originaltext eingef¨
ugt. Sp¨
ater erfolgt die Anwendung s¨
amtlicher
W¨
orterb¨
ucher auf das Korpus, wobei jedes Wort mit allen Formen, die in einem der Le-
xika auftreten, markiert wird. An dieser Stelle wird noch keine Disambiguierung durch-
gef¨
uhrt. Jedoch besitzen die annotierten W¨
orter nun s¨
amtliche grammatikalischen und
semantischen Informationen, die in den Lexika kodiert sind.
16englische ¨
Ubersetzung des Titels: Finite-state transducer cascades to extract named entities in texts“.
17englische ¨
Ubersetzung des Titels: Automatic Recognition of Proper Names – An Application in
Automatic Clustering of Journalistic Texts.
18In diesem Fall bedeutet Kaskadierung das Zusammenschalten von verschiedenen Transduktoren
(Reihenschaltung von Transduktoren).
19aus [Friburger und Maurel, 2001]
20Das System UNITEX [Paumier, 2004]bietet ¨
ahnliche Funktionen zur Korpusbearbeitung.
34
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Dabei kamen die W¨
orterb¨
ucher
DELAS – ein Lexikon, welches die gesamte grammatikalische Information
f¨
ur einfache W¨
orter21 festh¨
alt,
Prolintex, ein Toponymlexikon22,
Prenom-prolex, ein W¨
orterbuch f¨
ur Vornamen,
und ein Lexikon f¨
ur Berufsbezeichnungen, das von C´edrick Fairon an der
Universit¨
at Marne-la-Vall´ee erstellt wurde.
zum Einsatz.
Das Prinzip der Kaskadierung von Transduktoren ist im Grunde recht einfach zu er-
kl¨
aren. Die Transduktoren m¨
ussen in einer aufeinander abgestimmten Reihenfolge nach-
einander auf den Text angewendet werden. Denn oft ist der Output eines Transduktors,
der Input – das zu Suchende – f¨
ur den darauffolgenden Transduktor. Jede gefundene
Sequenz wird markiert (siehe Beispiel Seite 34) und kann durch diese Markierung ¨
uber
den Index gefunden werden. Auch muss jedes erkannte Muster aus dem Text gel¨
oscht
werden, da sonst die Gefahr besteht, dass ein sp¨
ater geschalteter Transduktor es noch-
mal erkennt. So wird vermieden, dass Passagen mehrfach erkannt werden, und dass das
System ineffizient arbeitet.
Eine Voraussetzung muss noch erf¨
ullt werden, bevor die Transduktoren in Reihe ge-
schaltet werden k¨
onnen. Es ist auch wichtig, sich eine Sammlung an linken und rechten
Kontexten der Personennamen, die in dem Zeitungskorpus vorkommen, aufzubauen.
Denn das Matchen ¨
uber die Kontexte von Personennamen stellte sich bei franz¨
osischen
Texten als ¨
außerst hilfreich heraus, weil ungef¨
ahr 90% aller Personennamen in Nachrich-
tentexten ¨
uber ihren linken Kontext erkannt werden k¨
onnen. Ein Grund daf¨
ur k¨
onnte
sein, dass gewisse Stilkonventionen zur Behandlung von Personennamen in Printmedien
bestehen, so dass eindeutige, fast standardisierte Muster erkennbar waren.
Mithilfe eines annotierten Korpus der franz¨
osischen Zeitung Le Monde, der ungef¨
ahr
165000 W¨
orter umfasste (Ouest France enthielt 67000 W¨
orter) war es m¨
oglich, die
h¨
aufigsten Kontexte von Personennamen im Text zu kategorisieren.
In 25,9% (17,1% f¨
ur Ouest France) der F¨
alle ging dem Personennamen ein Titel
oder eine Berufsbezeichnung gefolgt von einem Vornamen und/oder einer Staats-
angeh¨
origkeit voran. (Fall 1)
In 19,1% (16,3% f¨
ur Ouest France) der F¨
alle ging dem Nachnamen ein Berufs-
bezeichner oder ein Titel zusammen mit einer Bezeichnung f¨
ur eine Staatsan-
geh¨
origkeit oder ein dem W¨
orterbuch unbekannter Vorname zusammen mit einer
Nationalit¨
at voran. (Fall 2)
21
simple words“ - im Gegensatz zu compound words (Mehrwortlexemen), welche das DELAC auf-
listet.
22Ein Toponym bezeichnet einen Ortsnamen im allgemeinen Sinne. Hierunter versteht man
also insbesondere die Bezeichnungen bestimmter Gebiete, Verwaltungseinheiten, Siedlun-
gen, Verkehrswege, Gew¨
asser und alle ¨
ubrigen topographischen Objekte mit Eigennamen.
[vgl. http://de.wikipedia.org/wiki/Toponym]
35
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Am h¨
aufigsten mit 43,4% (59,0% f¨
ur Ouest France) hat der Kontext eher eine be-
schreibende Funktion zum jeweiligen Personennamen, d.h. er wird meist attributiv
eingesetzt und der Personenname besteht in der Regel aus einem dem Lexikon be-
kannten Vor- und Nachnamen. (Fall 3)
Setzt man den Kontext zur Erkennung der Eigennamen ein, so helfen Berufsbe-
zeichnungen oder Verben der ¨
Außerung, wie z.B. sagenoder erkl¨
arenda-
bei, 5,2% (2,2% f¨
ur Ouest France) aller Personen im Text zu erkennen. Nat¨
urlich
k¨
onnen Verben der ¨
Außerung auch ohne ein menschliches Subjekt im Satz auftre-
ten, d.h. diese Kontexte sind mit Vorsicht zu genießen. (Fall 4)
Die ¨
ubrigen 6,4% (5,4% f¨
ur Ouest France) der Personennamen weisen keinerlei
hilfreiche Kontexte auf, so dass diese nutzlos bei der Suche sind. Diese Personen
sind in der Regel so ber¨
uhmt, dass der jeweilige Autor es wahrscheinlich nicht f¨
ur
n¨
otig gehalten hat, die Pers¨
onlichkeit vorzustellen, oder ein paar einleitende Worte
zu ihr zu schreiben. Doch ca. die H¨
alfte dieser anscheinend nicht im Text zu finden-
den Leute, werden an anderen Stellen im Korpus nochmal namentlich erw¨
ahnt, so
dass im Endeffekt nur noch 3,3% der urspr¨
unglich 6,4% Personennamen unerkannt
bleiben. Eventuell k¨
onnte ein Lexikon aller ber¨
uhmten Personennamen diesen Pro-
zentsatz weiter verringern. (Fall 5)
Dass die Trefferquoten im ersten und im zweiten Fall f¨
ur Ouest France kleiner als f¨
ur Le
Monde ausfallen, liegt wohl an strikteren Schreibkonventionen, die f¨
ur die Journalisten
von Le Monde bestehen. Somit k¨
onnen die vordefinierten Muster erfolgreicher auf Le
Monde als auf Ouest France suchen.
Um die gute Trefferquote ihres Ansatzes der Kaskadierung von Transduktoren nach-
zuweisen, wandte Nathalie Friburger 14 Transduktoren in Reihe geschaltet nacheinander
auf ein Teilkorpus von Le Monde an, das etwa 80.000 W¨
orter umfasste.
Dabei ergaben sich je nach Fall (siehe oben) folgende Ergebnisse:
Fall 1 Fall 2 Fall 3 Fall 4 Fall 5 Gesamt
Tats¨
achliche Anzahl der
Personennamen im Text
253 187 424 50 64 977
Anzahl der gefundenen
Personennamen im Text
245 187 413 32 32 909
Anzahl der korrekt gefundenen
Personennamen im Text
242 186 410 30 31 899
Recall 95,7% 99,5% 96,7% 60,0% 48,4% 91,9%
Precision 98,8% 99,5% 99,3% 93,8% 96,9% 98,7%
Mit den Resultaten in den ersten der drei F¨
alle kann man sehr zufrieden sein. Doch leider
weist Fall 4 einen schlechten Recall auf, was wohl mit der problematischen Erkennung
von Eigennamen in ambigen Kontexten zu tun hat. Fall 5 behandelt nur Namen, die ohne
einen spezifischen Kontext im Korpus auftreten, und die nur durch die Gesamtbedeutung
des Satzes oder durch das Wissen eines menschlichen Lesers identifiziert werden k¨
onnen.
36
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Da einige dieser Personen schon in anderen Textpassagen vorkamen, ist es ¨
uberhaupt
m¨
oglich einen Recall von 48,4% zu erreichen.
Abschließend kann man sagen, dass das Prinzip der Kaskadierung von Transduktoren
recht einfach und effektiv bei der Suche nach Personennamen sein kann. Dagegen gehen
Nathalie Friburger und Denis Maurel davon aus, dass die Extraktion von anderen Eigen-
namen, wie Orts- und Organisationsnamen wesentlich schwieriger ist, weil ihre jeweiligen
Kontexte im Korpus nicht so schematisch wie die von Personennamen sind.
Eigennamen bei der Klassifikation von Nachrichtentexten
Nathalie Friburger hat die Idee der Reihenschaltung von FSTs auch f¨
ur ihre Disserta-
tion eingesetzt. Vollst¨
andigkeitshalber soll noch kurz die Thematik ihrer Doktorarbeit
angesprochen werden, bei der das System casSys zum Einsatz kam, welches die Kas-
kadierung von Transduktoren implementiert. Das Ziel ihrer Arbeit war nicht nur die
automatische Extraktion von Eigennamen, sondern auch die automatische Klassifika-
tion von Zeitungstexten anhand der darin auftretenden Namen. Das daf¨
ur eingesetzte
Programm extractNP, welches casSys verwendet, erm¨
oglicht es Ambiguit¨
aten aufzul¨
osen,
sowie Eigennamen zu segmentieren und kategorisieren. Das System lieferte hervorragen-
de Ergebnisse, so dass eine Pr¨
azision von 94% und ein Recall von 93% erzielt wurde. Des
Weiteren entwickelte sie eine Anwendung, welche sich die verschiedenen Vorkommen von
Personennamen zunutze macht, um Zeitungsnachrichten nach Thematiken zu kategori-
sieren. Dabei stellte sich heraus, dass dieser Ansatz ein qualitativ gutes Clustering von
Zeitungstexten erm¨
oglichte.
3.4 Erkennung von Organisationsnamen in
Wirtschaftsnachrichten [Mallchok, 2004]
In ihrer Doktorarbeit Automatic Recognition of Organization Names in English Busi-
ness News23 hatte sich Friederike Mallchok zum Ziel gesetzt, nachzuweisen, dass sich
die Genauigkeit und Performanz der Eigennamenerkennung wesentlich verbessern l¨
asst,
wenn man einen sprachspezifischen Ansatz daf¨
ur w¨
ahlt. Unter einem sprachspezifischen
Ansatz versteht man einerseits die Beschr¨
ankung der Trainingskorpora auf eine bestimm-
te Dom¨
ane, wie z.B. den Bereich der Wirtschaftsnachrichten, und andererseits aber auch
eine Einschr¨
ankung bei der Named Entity Recognition (NER). Wenn man eine Named
Entity (benannte Entit¨
at), wie hier die Organisationsnamen, in den Vordergrund r¨
uckt,
und dann ausgehend von dieser bestimmten Klasse der Eigennamen ihre Kontexte un-
tersucht, finden sich weitere Eigennamen und noch weitere wertvolle Informationen in
ihrem Umfeld. Um die Kontexte der Organisationsnamen syntaktisch und semantisch be-
schreiben zu k¨
onnen, w¨
ahlte Friederike Mallchok die formale Repr¨
asentation der lokalen
Grammatiken. Dabei verzichtet sie vollst¨
andig auf statistische Methoden zur Extraktion
von Eigennamen und verl¨
asst sich ganz auf die Identifikation von Organisationsnamen
durch ihre jeweiligen Kontexte und das in W¨
orterb¨
uchern kodierte Zusatzwissen.
23Automatische Erkennung von Organisationsnamen in Englischsprachigen Wirtschaftsnachrichten
37
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
Einsatz von Ressourcen: Korpora und Lexika
Da Friederike Mallchok sich dazu entschlossen hatte, die f¨
ur Wirtschaftsnachrichten typi-
sche Subsprache24 zu untersuchen, fiel ihre erste Wahl auf das frei verf¨
ugbare Reuters
Korpus25. Das Reuters Korpus enth¨
alt alle Nachrichtentexte (ca. 810.000), welche die
Nachrichtenagentur Reuters Ltd. vom 20. August 1996 bis einschließlich 19. August 1997
ver¨
offentlicht hatte.
Nachdem dieses Korpus f¨
ur Wirtschaftsnachrichten nicht mehr auf dem neuesten
Stand war, erg¨
anzte sie ihre Textsammlung durch Online-Ausgaben der Financial Ti-
mes, des Wall Street Jounals, von Newsday, der New York Times und durch
aktuelle Artikel der Reuters News. Denn gerade f¨
ur die Erkennung von Firmennamen
ist es wichtig, aktuelle Informationen ¨
uber die Unternehmen vorliegen zu haben. Bei-
spielsweise k¨
onnen einerseits dem Lexikon bekannte Firmen, welche nach 1997 gegr¨
undet
wurden, nicht im Reuters Korpus gefunden werden, und andererseits werden nur Na-
men von Organisationen in diesem Text lokalisiert, welche in dieser Zeitspanne in den
Nachrichten pr¨
asent waren. Unter Hinzunahme der eben angesprochenen elektronischen
Nachrichtenausgaben konnten auch junge, aufstrebende oder immer noch bedeutende
Unternehmen in den aktuellen Texten erkannt werden.
Wie eben kurz erw¨
ahnt, wurden mehrere semantische Lexika unterst¨
utzend zur Erken-
nung der Organisationsnamen in den Korpora eingesetzt. Mittels dieser W¨
orterb¨
ucher
sollte das Auffinden von Firmennamen im Text wesentlich erleichtert werden.
Mithilfe diverser Internetressourcen konnte Friederike Mallchok ein beachtliches Begriffs-
inventar f¨
ur ihr Organisationsnamenlexikon (ONL) und f¨
ur ihr Organisationsbeschrei-
bungslexikon (ODL) zusammenstellen. Die jeweiligen Namen der Lexika lassen nat¨
urlich
schon auf ihren Inhalt schließen: Das ONL enth¨
alt ausschließlich Firmennamen, und das
ODL f¨
uhrt eine Reihe an Beschreibungen f¨
ur Unternehmen auf, welche oft in Wirt-
schaftstexten den Organisationsnamen einleiten.
Zudem ließen sich im Kontext von Organisationsnamen relativ oft Berufsbezeichner
finden, welche in einem Berufsbezeichnerlexikon (HPL) archiviert wurden. Des Weiteren
konnten Ortsbezeichnungen wie L¨
ander, St¨
adte und Staaten, sowie Zeitangaben in den
entsprechenden Lexika gespeichert werden. Auch allgemeine Kontexte der Firmennamen
extrahierte Friederike Mallchok aus den Korpora und bewahrte sie in W¨
orterb¨
uchern
auf. Dabei wurden nur die textuellen Umgebungen von Organisationsnamen ins Lexikon
¨
ubernommen, welche besonders h¨
aufig in den Korpora vorkamen.
Entwicklung lokaler Grammatiken
Basierend auf den eben genannten Lexika entwickelte sie lokale Grammatiken, welche
einerseits die interne Struktur von Organisationsnamen repr¨
asentierten und andererseits
auf ihre Funktion im Satz eingehen bzw. ihr syntaktisches Verhalten in Wirtschafts-
nachrichten wiederspiegeln. Die verschiedenen Grammatiken sollten so viele syntaktische
Variationen wie m¨
oglich abdecken, in denen Unternehmen vorkommen k¨
onnen. Somit
24Einschr¨
ankung der Sprache auf eine bestimmte Bezugsdom¨
ane wie z.B. Wirtschaftsnachrichten, sowie
Dominanz von Fachvokabular.
25http://about.reuters.com/researchandstandards/corpus/
38
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
werden in diesen lokalen Grammatiken M¨
oglichkeiten ber¨
ucksichtigt, Organisationsbe-
schreibungen den Firmennamen voran- oder nachzustellen, sowie Berufsbezeichner –
eventuell in Verbindung mit einem Personennamen – im linken oder rechten Kontext der
Organisationsnamen zu nennen. Den Schwerpunkt ihrer Studien legte sie auf die Wirt-
schaftereignisse joint venture,mergerund partnership“, f¨
ur die sie zeigen wollte,
dass eine erweiterte Indexierung durch lokale Grammatiken, welche diese Ph¨
anomene
beschreiben, durchaus m¨
oglich ist und sp¨
ater f¨
ur eine intelligente und effektive Suche
eingesetzt werden kann.26
Bootstrapping und Akronymbildung
Wie bereits Maurice Gross (siehe Abschnitt 3.1.1) und Jean Senellart (siehe Abschnitt
3.1.2) sich des Bootstrappings bei der Entwicklung von Transduktoren (Finite-State-
Transducern) bzw. lokaler Grammatiken mit dem System UNITEX [Paumier, 2004]be-
dient haben, verwendet auch Friederike Mallchok diese Methode zur Verbesserung ihrer
Ergebnisse. Auf diese Weise stellte sich in mehreren Nachbearbeitungsschritten schnell
heraus, welche Fehlerquellen noch in den Grammatiken vorlagen, und wie diese minimiert
werden konnten. Zus¨
atzlich generierte sie aus den Organisationnamen, die aus mehreren
W¨
ortern zusammengesetzt waren, m¨
ogliche Akronymvarianten, welche sp¨
ater im Kor-
pus verifiziert wurden. Außerdem wurden noch weitere Abk¨
urzungsm¨
oglichkeiten f¨
ur die
entsprechenden Firmennamen ber¨
ucksichtigt und ihre Existenz auf dem Text ¨
uberpr¨
uft.
Bei der erfolgreichen Validierung wurden die Varianten der Organisationsnamen in das
Lexikon aufgenommen und im Korpus annotiert.
Fazit der Arbeit
Mit dem entwickelten System ist es Friederike Mallchok gelungen, Organisationsnamen
mit einer hohen Genauigkeit und guten Performanz in englischsprachigen Wirtschafts-
nachrichten zu erkennen. Dabei war es ihr m¨
oglich zu zeigen, dass das Ergebnis der Eigen-
namenerkennung signifikant verbessert werden kann, wenn jede Sprache, jede Dom¨
ane
und jede Art von Entit¨
at getrennt behandelt wird. Außerdem widerlegte sie die Annah-
me von vergleichbaren NER27-Systemen, dass die Verwendung von Kontextinformatio-
nen nur zur Lokalisierung von Entit¨
aten sinnvoll ist. Ihr Ansatz bewies, dass durch den
Einsatz von lokalen Grammatiken weitere Informationen ¨
uber die entsprechenden En-
tit¨
aten aus den Korpora gewonnen werden k¨
onnen. So dienen beispielsweise semantisch
kategorisierte Organisationsbeschreibungen dazu, die Entit¨
aten, die sie beschreiben oder
sogar die Texte oder Textabschnitte, in denen diese vorkommen, zu klassifizieren.
Ihre Bem¨
uhungen auf dem Gebiet der automatischen Erkennung von Organisationsna-
men in Wirtschaftsnachrichten brachten sie letztendlich zu dem Schluss, dass eine Wei-
terentwicklung dieser lokalen Grammatiken auf jeden Fall sinnvoll ist. Dadurch k¨
onnte
sp¨
ater eine breitere Abdeckung auf der Dom¨
ane der Wirtschaftnachrichten erreicht wer-
den.
26vgl. http://www.cis.uni-muenchen.de/~schmidt/lg/Deutsche_Zusammenfassung.pdf
27Named Entity Recognition
39
Kapitel 3. Zusammenfassung fr¨
uherer Arbeiten
40
4 Beschr¨
ankungen im System
Wie bereits Friederike Mallchok so treffend in ihrer Doktorarbeit [Mallchok, 2004]be-
merkt hatte, ist einer der gr¨
oßten Vorteile von lokalen Grammatiken die Modularit¨
at.
Es ist keinenfalls ein Nachteil sich bei der Erstellung lokaler Grammatiken besonders
auf eine bestimmte Entit¨
at zu konzentrieren und deren Kontext m¨
oglichst genau zu
beschreiben.
Der hier vorgestellte Ansatz fokussiert zwar die Erkennung von Menschenbezeichnern
und beschr¨
ankt sich auf biographische Relationen (siehe Abschnitt 1.2), doch wird sich
bei der Entstehung des Systems zeigen, dass auch andere Entit¨
aten in der Umgebung
von Personen auftreten und somit ber¨
ucksichtigt werden m¨
ussen. Daf¨
ur wurden loka-
le Grammatiken entwickelt, die Personen n¨
aher spezifizieren, aber auch Organisationen
und Toponymen eine gewisse Beachtung schenken. ¨
Uberdies werden auch Verbrelatio-
nen in Form von lokalen Grammatiken beschrieben, welche die verschiedenen Entit¨
aten
miteinander logisch und syntaktisch verbinden.
So kann jede Grammatik separat erweitert und auch die darin verwendeten seman-
tischen Hyperonymklassen k¨
onnen jederzeit durch weitere W¨
orterbucheintr¨
age erg¨
anzt
werden. Des Weiteren lassen sich die entstandenen Grammatiken problemlos in andere
NER-Systeme integrieren. Auch zur Erkennung anderer Entit¨
aten sollten die Informa-
tionen aus diesen lokalen Grammatiken herangezogen werden, so dass man auf diesem
Wissen aufbauen und zugleich das System erweitern k¨
onnte.
Außerdem sollte die Entscheidung, sich bei der Erkennung von Personen innerhalb
biographischer Kontexte auf die Dom¨
ane der Wirtschaftsnachrichten zu beschr¨
anken,
kein Hindernis daf¨
ur sein, sp¨
ater die f¨
ur diesen speziellen Bereich entwickelten Gramma-
tiken f¨
ur andere Themengebiete auszuweiten. Denn wie die Wahl meiner Korpora zeigen
wird, gibt es biographische Relationen, welche ¨
außerst selten in Wirtschaftsnachrichten
auftreten, dagegen aber in einer richtigen Biographie kaum fehlen. Es ist nur nat¨
urlich,
dass nicht jedes personenbezogene Pr¨
adikat in einem Wirtschaftstext eine biographi-
sche Relation verk¨
orpert, und dass nicht jede biographische Relation in den Nachrichten
ver¨
offentlicht wird. Das ist f¨
ur die Entwicklung lokaler Grammatiken nur insofern ein
Problem, wenn Verbrelationen beschrieben werden, welche h¨
ochst selten im Trainings-
korpus vorkommen. Somit ist die Qualit¨
at einer lokalen Grammatik schwer zu messen
und alternative Trainingskorpora werden ben¨
otigt. Man sollte sich dieser Tatsache im-
mer bewusst sein, dass die Entwicklung lokaler Grammatiken stark von der Dom¨
ane des
Korpus abh¨
angt und sein Einfluss auf die Grammatik nicht zu untersch¨
atzen ist. Auch
wenn der hier pr¨
asentierte Ansatz sich haupts¨
achlich auf biographische Relationen kon-
zentriert, die h¨
aufig in Wirtschaftsnachrichten vorkommen, soll das nicht heißen, dass
diese lokalen Grammatiken nicht auf Texten anderer Bereiche gute Ergebnisse erzielen.
Es werden lediglich die Relationen nicht abgedeckt, die kaum oder nie in Wirtschafts-
texten genannt werden, was ein Ansporn w¨
are, das Konzept auszuweiten.
41
Kapitel 4. Beschr¨
ankungen im System
4.1 Sprachgebundenheit
Alle hier vorgestellten lokalen Grammatiken wurden f¨
ur die englische Sprache entwickelt.
Sicherlich ist die Entscheidung, f¨
ur welche Sprache die Erkennung von Personen in
biographischen Kontexten implementiert wird, nicht unbegr¨
undet getroffen worden. So
wurde die Wahl der Sprache sicher durch die große Dominanz des Englischen als Sprache
des Internets beeinflusst. Doch auch die Tatsache, dass f¨
ur das Englische schon sehr viel
im Bereich Named Entity Recognition (NER) erforscht und entwickelt worden ist, wovon
man manches aufgreifen, verbessern oder mit seinem eigenen Ansatz vergleichen kann,
spielte eine beachtliche Rolle bei dieser Entscheidung.
Soweit es das Gebiet der lokalen Grammatiken betrifft, wurde die meiste Vorarbeit
bei der linguistischen Analyse der franz¨
osischen und englischen Sprache geleistet.
Außerdem ist der Bereich der Wirtschaft ein von Anglizismen gepr¨
agtes Feld, was
ebenfalls daf¨
ur sprechen w¨
urde, sich gleich auf die Originalsprache zu konzentrieren.
¨
Uberdies ist die Auswahl an Trainingskorpora wesentlich gr¨
oßer, wenn man sich f¨
ur
die Arbeit mit Englisch entscheidet, und bei der Erstellung von Lexika kann im In-
ternet auf ein großes Spektrum an Ressourcen in Form von themenspezifischen Listen
zur¨
uckgegriffen werden, so dass f¨
ur das Englische in k¨
urzerer Zeit als f¨
ur eine andere
Sprache eine enorme Wissensbasis zusammengestellt werden kann.
Trotz der Beschr¨
ankung auf das Englische bei der Entwicklung lokaler Grammatiken,
k¨
onnen die entstandenen Grammatiken mit relativ wenig Aufwand auf andere Sprachen
¨
ubertragen werden.
4.2 Schwerpunkt Wirtschaftsnachrichten
F¨
ur computerlinguistische Untersuchungen wurden immer schon gern Korpora herange-
zogen, welche aus Wirtschaftstexten zusammengestellt waren. Named Entity Recognition
und Information Retrieval auf Wirtschaftsnachrichten sind in den letzten Jahren immer
beliebter geworden, und wenn man an das frei verf¨
ugbare Reuters Korpus28 denkt, das
f¨
ur Studien dieser Art sogar noch aufbereitet wurde, stellt man fest, dass der Bedarf
an Informationsextraktion aus wirtschaftlich orientierten Texten bei weitem noch nicht
gedeckt ist. Mit der immer st¨
arker werdenden Verflechtung internationaler Wirtschafts-
beziehungen, dem st¨
andig anwachsenden Trend der internationalen Fusionen und der
Globalisierung der Wirtschaft w¨
achst die Nachfrage aus aktuellsten Wirtschaftsartikeln,
kurz und pr¨
agnant interessante Information zu erhalten. Der Kreis der Suchenden be-
schr¨
ankt sich heute l¨
angst nicht mehr nur auf Betriebs- oder Volkswirte, sondern auf
jeden, der in die Wirtschaft investieren m¨
ochte, und sich aufgrunddessen informiert.
All diese Gr¨
unde machen Wirtschaftsnachrichten zu einer lukrativen und begehrten
Dom¨
ane f¨
ur die Informationsgewinnung und heben die Nachfrage nach qualitativ guten
Systemen zur Wissensextraktion auf Nachrichtentexten.
28http://about.reuters.com/researchandstandards/corpus/
42
Kapitel 4. Beschr¨
ankungen im System
4.3 Priorisierung von Entit¨
aten
In Kapitel 3 wurden bereits unterschiedliche Ans¨
atze zur Erkennung benannter Entit¨
aten
(Named Entities) mittels lokaler Grammatiken vorgestellt. All diese Ans¨
atze haben nicht
nur die Gemeinsamkeit, dass sie sprachbasierte statt statistische Methoden zur Lokali-
sierung von Eigennamen oder Verbgef¨
ugen anwenden, sondern auch dass keiner dieser
Linguisten versucht hat, alle Kategorien von Entit¨
aten in einem System zur Named Enti-
ty Recognition zusammenzufassen. Jeder von ihnen hat sich auf eine Entit¨
at konzentriert
– einige auf Personen und andere auf Organisationen. Nat¨
urlich spielten immer wieder
andere Entit¨
aten, wie vorallem Toponyme, eine untergeordnete Rolle bei der Erkennung
von Menschen oder Firmen. Meist waren sie dann nur Mittel zum Zweck, indem sie Teil
des Kontextes der zu suchenden Entit¨
at waren.
Personen werden stets eine der beliebtesten Entit¨
aten f¨
ur die NER sein, auch wenn
die automatische Produktnamenerkennung inzwischen immer mehr in den Vordergrund
r¨
uckt, wie es die Arbeit von Jeannette Roth [Roth, 2002]zeigt. Bis jetzt werden wohl
die syntaktischen und semantischen Aspekte von Produktnamen noch unerforschter sein
als die Eigenschaften von Organisationsnamen. Dennoch bewies auch die Arbeit von
Friederike Mallchok [Mallchok, 2004], wie gut lokale Grammatiken das Problem der
Organisationsnamenerkennung l¨
osen k¨
onnen.
Gerade bei der Suche auf Wirtschaftsnachrichtentexten st¨
oßt man auf eine betr¨
achtliche
Anzahl von Organisationsnamen. Diese Kategorie der verschiedenen Entit¨
aten wird je-
doch in dem hier pr¨
asentierten Ansatz eine untergeordnete Rolle zu den Menschenbe-
zeichnern haben. Da aber Personen in Wirtschaftsartikeln sehr h¨
aufig im Zusammenhang
mit Firmen genannt werden und ihr Verh¨
altnis zu diesen oft explizit beschrieben wird,
sollte nat¨
urlich den Beziehungen zwischen diesen beiden Entit¨
aten besonders viel Beach-
tung geschenkt werden. Obwohl diese beiden Gruppen – Personen und Organisationen
die frequentesten Entit¨
aten in Wirtschaftstexten sein werden, gibt es dort noch viele
weitere personenbezogene Relationen, in deren Kontext wom¨
oglich andere Entit¨
aten wie
Ortsbezeichnungen auftreten k¨
onnen.
F¨
ur alle Entit¨
aten, die keine Menschenbezeichner sind, werden lokale Grammatiken er-
stellt, welche dazu dienen, das Umfeld der Personen zu spezifizieren. Die Grammatiken
entsprechen in ihrem Umfang und in ihrer Ausf¨
uhrlichkeit der Wichtigkeit der Relation,
die zwischen der jeweiligen Entit¨
at und der Personenbezeichnung herrscht. Somit wer-
den die Grammatiken f¨
ur die Organisationsbezeichner umfassender als f¨
ur die Toponyme
sein, da sie eine gr¨
oßere Relevanz in Bezug auf das Korpus haben.
F¨
ur diesen Ansatz gilt, dass die Menschenbezeichner als Entit¨
at priorisiert werden. Doch
w¨
urde es f¨
ur zuk¨
unftige Vorhaben kein Problem darstellen, die Gewichtung der Entit¨
aten
f¨
ur die jeweiligen Zwecke abzu¨
andern.
43
Kapitel 4. Beschr¨
ankungen im System
44
5 Ressourcen: Grundlagen des Systems
5.1 Korpora
Wie bereits mehrfach erw¨
ahnt wurde, sollten Menschenbezeichner innerhalb biographi-
scher Relationen automatisch in Wirtschaftsnachrichten erkannt werden. Diese Vorga-
be schr¨
ankt die Wahl der Texte, auf denen gearbeitet werden kann, zun¨
achst auf die
Wirtschaftsteile vieler englischsprachiger Zeitungen ein. Nur wer begn¨
ugt sich mit dem
Wirtschaftsteil, wenn ganze Wirtschaftsbl¨
atter ihre Artikel online zur Verf¨
ugung stellen?
¨
Ahnlich wie bei Friederike Mallchok [Mallchok, 2004]w¨
are das Reuters Korpus eine
Option gewesen, da es eine Textsammlung aus Wirtschaftsartikeln ist. Doch die Tatsa-
che, dass es f¨
ur Wirtschaftsnachrichten relativ veraltet ist, machte es zu keinem Kandi-
daten f¨
ur ein Testkorpus.
Dagegen war das Angebot vom Centrum f¨
ur Informations- und Sprachverarbeitung
der LMU M¨
unchen, mir eine Jahresausgabe der Financial Times (FT) zur Verf¨
ugung zu
stellen, wesentlich interessanter. Vorallem handelte sich hierbei um die Jahresausgabe
2004 der FT, womit sicher gestellt ist, dass die darin enthaltenen Informationen relativ
aktuell sind.
5.1.1 Financial Times
Die Financial Times29 ist eine Tageszeitung, welche fast t¨
aglich herausgegeben wird. In
ihrem elektronischen Format ist jede Tagesausgabe eine XML-Datei und das Jahr 2004
umfasste 347 Tage, an denen die FT erschienen ist. Somit ergab sich eine Datenmenge
von ungef¨
ahr 5,8 GB.
Um aus dieser Artikelsammlung ein Korpus zu erstellen, wurden zun¨
achst alle Texte
von ihrer XML-Information befreit, was die Gr¨
oße der Daten auf 4,7 GB verminderte.
Im Anschluss wurden die Tagesausgaben monatsweise zusammengef¨
ugt, so dass es f¨
ur
jeden Monat eine Datei der Financial Times gab.
Diese 12 Dateien wurden nun f¨
ur die sp¨
atere Bearbeitung mit dem System UNITEX
[Paumier, 2004]vorbereitet:
Im ersten Schritt wurde die Satzenderkennung mit dem Tokenizer-Programm30
von Sebastian Nagel auf dem gesamten Text vorgenommen.
Ein Programmaufruf folgender Form
cat <korpus> | tokenizer -L en -SE {S} -P -o <korpus.eos>
29http://news.ft.com/home/us
30Eine aktuelle Version des Tokenizer-Programms ist unter http://www.cis.uni-muenchen.de/
~wastl/misc/tokenizer.tgz verf¨
ugbar.
45
Kapitel 5. Ressourcen: Grundlagen des Systems
liefert einen Text mit Satzendmarkierungen, wie ihn das Programm UNITEX for-
dert. Mir wurde dieses Programm in der Version 0.6 ¨
uberlassen, so dass es f¨
ur
die Satzenderkennung im Englischen angepasst werden konnte, da die deutsche
Satzenderkennung ausgereifter als die englische war. Diese Verbesserungen wur-
den anschließend in die Version 0.7 aufgenommen.
Das Programm UNITEX bietet zwar auch eine Satzenderkennung f¨
ur das Engli-
sche an, doch handelt es sich bis jetzt um die franz¨
osische Satzenderkennung, die
nur leicht f¨
ur das Englische abgewandelt wurde und leider immer noch gr¨
oßtenteils
die franz¨
osischen Abk¨
urzungen enth¨
alt. Somit war diese Satzenderkennung keine
Alternative zum Tokenizer-Programm, was wirklich hervorragende Ergebnisse ge-
liefert hat.
Im n¨
achsten Schritt wurde die Normalisierung und Tokenisierung des Textes mit
den entsprechenden Programmen aus dem System UNITEX vorgenommen.
Im letzten Schritt wurde die gesamte grammatikalische und semantische Informa-
tion aus den im n¨
achsten Abschnitt angesprochenen Lexika im Korpus passend
annotiert. Das heißt aber nicht, dass der Originaltext ver¨
andert wurde, sondern
dass diese Zusatzinformationen in Wortlisten erg¨
anzend zum Text gespeichert wer-
den.
Somit ist das FT-Korpus f¨
ur die Entwicklung lokaler Grammatiken mit den System
UNITEX bereit, welche anschließend darauf getestet werden k¨
onnen.
5.1.2 Biography.com
Dennoch ist das FT-Korpus nicht die einzige Textsammlung, welche zur V