Content uploaded by Matej Rojc
Author content
All content in this area was uploaded by Matej Rojc
Content may be subject to copyright.
Jezikovni viri projekta LC-STAR
Darinka Verdonik, Matej Rojc
Fakulteta za elektrotehniko, računalništvo in informatiko
Smetanova ul. 17, 2000 Maribor
darinka.verdonik@uni-mb.si
Povzetek
V članku predstavljamo jezikovne vire, ki se razvijajo v mednarodnem projektu LC-STAR, s podrobnejšo predstavitvijo jezikovnih
virov za slovenščino, ki jih v okviru projekta razvija Fakulteta za elektrotehniko, računalništvo in informatiko Univerze v Mariboru.
Jezikovni viri so v osnovi dveh vrst: veliki slovarji za izboljšanje razpoznave in sinteze govora (113.000 besed) ter poravnani slovarji
fraz in slovarji besed s področja turizma za izboljšanje komponente govorno orientiranega prevajanja. Kakovost razvitih jezikovnih
virov se zagotavlja z natančnimi določili in neodvisno validacijo, ki jo opravljata SPEX in CST. Razviti jezikovni viri naj bi odpravili
pomanjkljivosti na tem področju. Viri bodo na voljo prek ELRE/ELDE.
1. Uvod
Namen mednarodnega projekta LC-STAR (Lexica and
Corpora for Speech to Speech Translation Components)
(www.lc-star.com) je razviti jezikovne vire, ki so potrebni
za izboljšanje komponent strojnega simultanega
prevajanja govora. Te so (Hoege, 2002):
- razpoznava govora z velikim slovarjem
- visoko kvalitetna sinteza govora
- besedilno orientirano strojno prevajanje
V projektu so se združili pomembni industrijski in
akademski partnerji: Siemens AG, IBM, Nokia, NSC
(Natural Speech Communication Ltd.), UPC (Universitat
Politecnica de Catalunya), RWTH University of
technology. Univerza v Mariboru se je projektu pridružila
kot zunanji partner, ki bo zagotovil jezikovne vire po
standardih projekta za slovenski jezik.
Po ugotovitvah v LC-STAR (Hartikainen et al., 2003)
so glede na široko sprejete pristope k razpoznavanju
govora (skriti modeli Markova) in sinteze govora
(konkatenativna sinteza) zahteve glede vsebine jezikovnih
virov dokaj ustaljene in jasne: osrednje načelo je
zagotoviti velike slovarje besed, ki pokrivajo številna
različna področja rabe, in korpuse govorjenih besedil.
Vendar pri obstoječih virih konzorcij LC-STAR ugotavlja
predvsem naslednje pomanjkljivosti:
- premajhno pokritost po različnih aplikacijskih
področjih
- nezadostno prilagojenost za sintezo in razpoznavo
govora
- nezadostno kvaliteto
- pomanjkanje standardov
- slabo pokritost po jezikih
Projekt LC-STAR naj bi odpravil te pomanjkljivosti
jezikovnih virov za komponente strojnega simultanega
prevajanja govora, s tem da bodo razviti visoko kvalitetni
jezikovni viri za številne svetovne jezike po skupnih, v
projektu postavljenih standardih. Jeziki, pokriti v okviru
projekta LC-STAR, so: turški, ruski, italijanski, grški,
španski, katalonski, nemški, klasični arabski, hebrejski,
ameriška angleščina, finski, kitajski, slovenski.
V nadaljevanju članka najprej na kratko pregledamo,
kateri jezikovni viri za razvoj komponent sistemov
strojnega simultanega prevajanja govora so razviti za
slovenščino, nato pa natančneje predstavljamo jezikovne
vire, ki se razvijajo v okviru projekta LC-STAR, s
poudarkom na slovenskih jezikovnih virih, ki nastajajo v
okviru projekta na Univerzi v Mariboru.
2. Slovenski jezikovni viri, uporabni za
razvoj komponent strojnega simultanega
prevajanja govora
Jezikovni viri, potrebni za razvoj komponent strojnega
simultanega prevajanja govora, so v splošnem dvoji:
oblikoslovni in glasoslovni slovarji ter različni korpusi
govorjenih besedil. Zaradi časovne in finančne zahtevnosti
pridobivanja in urejanja korpusov govorjenih besedil se
sicer velikokrat uporabljajo kar korpusi pisnih besedil,
čeprav zaradi razlik med govorjenim in pisanim besedilom
to ni najustreznejša rešitev za razvoj kvalitetnih sistemov
strojnega simultanega prevajanja govora.
Od dostopnih slovarjev za slovenski jezik imamo tako
slovar lastnih imen Onomastica (Kačič, 1997), ki ga
distribuira ELRA/ELDA. Ta organizacija ponuja tudi
govorno bazo posnetkov SpeechDat (II) (Kaiser, Kačič,
1998) za slovenski jezik, ki je prvi jezikovni vir za
slovenski jezik, preverjen v mednarodnem centru za
validacijo SPEX. Žal je oba jezikovna vira treba plačati.
Od prosto dostopnih govornih baz je na voljo MobiLuz,
govorna baza poizvedovanj o letalskih informacijah, ki
vključuje tudi fonetični prepis in oblikoslovne oznake
(Gros et al., 2000), v raziskovalne namene je mogoče
dobiti tudi oblikoslovni slovar slovenskega jezika, ki je
nastal v okviru projekta Multext-East (nl.ijs.si/ME), ta
obsega 15.000 lem. Ostali jezikovni viri, ki se lahko
uporabijo za razvoj sistemov strojnega simultanega
prevajanja slovenskega govora, so bolj ali manj narejeni
za lastno uporabo v organizacijah, ki so sodelovale pri
njihovem nastajanju, so različno obsežni, vsebujejo
različne podatke in so različno kvalitetni. Govorne baze za
slovenski jezik so tako še Snabi (Kačič, 2002), Polidat
(Zoegling Markuš, Kačič, Horvat, 2000), Luz (Gros,
1996), Gopolis (Dobrišek et al., 1998), govorna zbirka
vremenskih napovedi (Žibret, Mihelič, 2000). Od
slovarjev je za slovenski jezik narejen še en večji
oblikoslovni slovar, SImlex (Verdonik et al., 2002; Rojc,
Kačič, 2003) z 20.000 lemami, od večjih glasoslovnih
slovarjev pa SIflex, ki vsebuje fonetični prepis vseh besed
iz SImlexa (ibid.). Drugih večjih oblikoslovnih ali
glasoslovnih slovarjih ni zaslediti, obstaja pa še nekaj
manjših za potrebe sintetizatorjev govora oz. za študije
samodejnega napovedovanja naglasnega mesta (Šef,
2002). Večjega, referenčnega korpusa govorjenih besedil
(eno-, dvo- ali večjezičnega) za slovenski jezik nimamo,
lahko pa zasledimo objavo, ki napoveduje njegovo
gradnjo (Stabej, Vitez, 2000). Boljše je stanje pri pisnih
korpusih (enojezična FIDA (www.fida.net), Nova Beseda
(bos.zrc-sazu.si/s_beseda), paralelni korpus ELAN
(nl.ijs.si/elan/) in drugi), vendar so ti, kot rečeno, lahko
samo izhod v sili, kadar govorimo o razvoju komponent
strojnega simultanega prevajanja govora. Zaradi razlik
med govorjenim in pisnim besedilom je strojno simultano
prevajanje govora drugačna naloga kot strojno prevajanje
(pisanega) besedila.
Navedeno kaže, da podobne pomanjkljivosti, kot jih
ugotavljajo v LC-STAR za jezikovne vire nasploh, veljajo
tudi za slovenske jezikovne vire, potrebne za razvoj
komponent strojnega simultanega prevajanja govora.
3. Jezikovni viri, razviti v okviru projekta
LC-STAR
Projekt LC-STAR poteka vzporedno v dveh smereh.
1. del:
• zgraditi seznam besed, ki bo pokrival številna
različna področja rabe,
• določiti standarde in zgraditi slovarje za
razpoznavanje govora z velikim slovarjem in
visoko kvalitetno sintezo govora; slovarji bodo
vsebovali oblikoslovne oznake besed in fonetični
prepis.
2. del:
• raziskati govorno orientirano prevajanje, pri tem je
poudarek na preučitvi potrebnih jezikovnih virov,
• izgradnja demonstracijskega sistema strojnega
simultanega prevajanja govora za španščino in
angleščino,
• specifikacija in izgradnja jezikovnih virov,
potrebnih za govorno orientirano prevajanje. Ti viri
bodo:
o 3-jezični vzporedni korpus pogovorov s
področja turizma z vsaj 500.000 besedami,
o vzporedni slovarji 10.000 fraz s področja
turizma,
o oblikoslovni in glasoslovni slovarji besed iz
vzporednih slovarjev fraz za 9 jezikov.
Univerza v Mariboru je kot zunanja partnerica,
odgovorna za izgradnjo jezikovnih virov za slovenski
jezik, udeležena predvsem v prvem delu projekta, v
katerem bodo za 13 jezikov zgrajeni oblikoslovni in
glasoslovni slovarji z vsaj 100.000 enotami, od tega slaba
polovica lastnih imen, pa tudi v drugem delu projekta pri
priprav vzporednih slovarjev fraz in leksikonov besed iz
teh fraz.
V nadaljevanju podrobneje opisujemo najprej velike
slovarje besed za sintezo in razpoznavanje govora ter
zatem slovarje za govorno orientirano prevajanje za
slovenski jezik.
3.1. Slovarji za izboljšanje razpoznave in sinteze
govora za slovenski jezik
Slovarji za izboljšanje razpoznave in sinteze govora
oz. t.i. veliki slovarji so zgrajeni iz treh enot: občnih
besed, lastnih imen in aplikacijskih besed, tj. besed,
potrebnih za delovanje govorno vodenih aplikacij s šestih
semantičnih področij (splošno, finance, potovanja,
posredovanje informacij, upravljanje in storitve,
telekomunikacije). Dodatno so bile k občnim besedam v
celoti zbrane besedne vrste, ki imajo končno število besed
(predlogi, vezniki, zaimki...) - t.i. zaprti nabori.
Natančnejši prikaz velikosti posameznih enot slovarja je v
tabeli 1.
ENOTA SLOVARJA VELIKOST
občne besede 65.096
zaprti nabor 1.146
lastna imena 45.027
aplikacijske besede 6.040
Tabela 1: Velikost posameznih enot velikega slovarja LC-
STAR za slovenski jezik.
3.1.1. Občne besede
Občne besede so bile izbrane iz 12-milijonskega
korpusa, v katerem so bila zbrana besedila iz 6 večjih
področij: šport, novice, kultura in zabava, gospodarstvo in
finance, potrošniške informacije, osebne komunikacije.
Glavna vira za korpus sta bila časopisa Večer in Delo, za
potrošniške informacije so bila dodana besedila iz
nekaterih prilog k tema časopisoma, nekaj besedil revije
Gea, poljudnoznanstvena besedila s portala Svarog in
nekateri priročniki z interneta. Natančna struktura korpusa
je prikazana v tabeli 2.
Področje Viri Leto
objave
Šport Večer, rubrike: Šport, Prosti
strel 1997-2002
Novice Večer, rubrike: Prva stran,
Črna kronika, Kronika,
Maribor, Maribor okolica,
Zadnja stran, Zunanja politika,
Doma in po svetu, Slovenska
kronika, V žarišču
1997-2002
Finance/
gospodarstvo Večer, rubrike: Gospodarstvo,
Finance 1997-2002
Kultura/
zabava Večer, rubrike: Kultura,
Čitalnica, Film, Borštnikovo,
Lent, Reportaže zanimivosti,
Reportaža, Potovanja
1997-2002
Potrošniške
informacije Večer, rubrike: Zdravje,
Zdravstvo, Univerza znanost,
Računalništvo, Arhitekturna
beseda, priloge Raziskovalec,
Zdravje, priloga Dela Znanost,
revija Gea, novice iz Svaroga,
priročniki z interneta
1997-2003
Osebne
komunikacije Večer, rubrike: Pisma bralcev,
Pisma, Vaši odmevi, Vaša
mnenja odmevi
1997-2002
Tabela 2: Viri za korpus občnih imen in leto publikacije.
Korpus je bil tokeniziran, odstranila so se ločila, cifre,
najpogostejši znaki ($, &, % itd.). Nato so bila avtomatsko
odstranjena lastna imena, okrajšave in vsi singletoni
(besede, ki se pojavijo samo enkrat), nato pa preostala
lastna imena in okrajšave še ročno. Tako urejen korpus je
štel za t.i. čisti korpus. Velikost takega korpusa za
slovenski jezik je prikazana v tabeli 3.
Področje Velikost
Različne
besede
Šport 1.888.753 42.029
Novice 2.178.834 63.912
Finance/gospodarstvo 3.411.268 62.837
Kultura/zabava 2.716.028 82.305
Potrošniške informacije 1.146.009 48.326
Osebne komunikacije 950.179 40.500
Skupaj 12.291.071 139.645
Tabela 3: Velikost čistega korpusa.
Iz tega korpusa je bil izločen seznam besed za nadaljnjo
obdelavo tako, da je bila dosežena pokritost izvornega
korpusa najmanj 95 %. Zaradi varovala smo izbrali
nekoliko višji odstotek. Natančni podatki o velikosti
seznama občnih besed so v tabeli 4.
Področje Različne besede
Št. besed Pokritost
Šport 17.256 96%
Novice 31.479 96%
Finance/gospodarstvo 24.469 96%
Kultura/zabava 40.847 96%
Potrošniške informacije 28.418 96%
Osebne komunikacije 23.923 96%
Skupaj 65.096
98,11%
Tabela 4: Velikost seznama občnih besed po številu besed
ter pokritost izvornega korpusa po posameznih področjih
in skupaj.
3.1.2. Zaprti nabori
Ker se zlasti funkcijske besede pogosto uporabljene na
različnih področjih, s korpusom pa niso zajete vse, je bil
dodatno k seznamu občnih besed ročno zbran seznam
funkcijskih besed, ki jih je končno število. Naj poudarimo,
namen tega zbiranja je bil samo izpopolniti seznam občnih
besed, pridobljen iz korpusa, s funkcijskimi besedami, ki
se pogosto uporabljajo. Te besede so bile zbrane v 13
skupinah glede na kasnejše oblikoslovno označevanje in
so naslednje:
• predlogi
• vezniki
• členki pritrjevanja in zanikanja
• kazalni zaimki
• nedoločni, nikalni, poljubnostni, mnogostni,
totalni, drugostni, istostni, celostni zaimki
• vprašalni zaimki
• osebni zaimki
• osebni svojilni zaimki
• osebni in svojilni povratni zaimki
• oziralni in oziralno poljubnostni zaimki
• pomožni glagol biti v vseh oblikah
• naklonski glagoli
• fleksijske končnice (ta nabor ni del slovarja,
zbran je bil samo informativno)
Tako je bilo skupaj zbranih nekaj več kot 1000 besed, od
teh jih je bilo nekaj več kot 700 že zbranih s korpusom.
Na ta način je bilo torej dejansko dodanih nekaj več kot
300 besed h končnemu slovarju.
3.1.3. Lastna imena
V projektu LC-STAR je veliko pozornosti namenjene
tudi lastnim imenom, saj so pogosto uporabljena v
različnih aplikacijah, njihovo izgovorjavo pa je težko
pravilno določiti, zlasti pri tujih lastnih imenih. Ker pa je
zanesljiva razpoznava in sinteza zelo pomembna za
prihodnje govorne aplikacije, je nabor lastnih imen v
projektu velik (Ziegenhain et al., 2004).
Nabor slovenskih lastnih imen šteje 45.027 imen in je
v skladu s specifikacijami projekta razdeljen na tri večje
enote: osebna imena, krajevna imena, imena organizacij.
Tabela 5 prikazuje natančnejšo strukturo enot in velikost
slovenskega slovarja lastnih imen.
Področje Velikost
% Podpodročje
Osebna
imena 22.469
49,2
mesta
gore, reke in druge
zemljep. enote
glavna mesta
velika in pomembna
mesta
pomembni turistični
in drugi kulturni
spomeniki
ulice
Zemljepisna
imena 11.828
25,9
države
pridobitne in
nepridobitne
organizacije,
podjetja
Organizacije 11.357
24,9
trgovske znamke
Skupaj št.
vnosov 45.654
100
Skupaj št.
razl. vnosov 45.027
Tabela 5: Lastna imena: razdelitev po področjih in po
velikosti.
Večbesedna lastna imena, kot so Stari_trg, Novo_mesto,
štejejo kot en vnos. Nekatera lastna imena so lahko hkrati
razvrščena v več področij (npr. Jelka je lahko ime trgovine
ali osebno ime), takih vnosov je v slovarju čez 600.
Zbrana lastna imena so takšna, kot so v rabi v slovenskem
prostoru. Pri zemljepisnih lastnih imenih se pojavi precej
tujih imen predvsem za kraje, za katere nimamo
poslovenjenega imena, tuja imena vključena tudi z imeni
večjih tujih korporacij in trgovskih znamk, veliko besed
tujega izvora pa je tudi v imenih sicer slovenskih podjetij.
Viri, iz katerih so bile pridobljene besede, in vrsta virov
so opisani v tabeli 6.
Področje Viri Vrsta vira
Osebna
imena Onomastica CD
Zemljepisna
imena Krajevni leksikon
Slovenije CD
Veliki družinski atlas ročno
Atlas Slovenije ročno
Geografski atlas sveta za
šole ročno
Slovenija: turistični
vodnik ročno
Interaktivni atlas
Slovenije internet
Onomastica CD
Organizacije
Telefonski imenik
Slovenije: Pomlad 2002 CD
Onomastica CD
internet, trgovine internet,
ročno
Tabela 6: Viri in vrsta virov za pridobivanje seznama
lastnih imen.
3.1.4. Aplikacijske besede
Seznam aplikacijskih besed je dvojega izvora:
• števila, črke in okrajšave iz korpusa občnih
besed;
• referenčni seznam 5700 besed v ameriški
angleščini, preveden v slovenščino, ki pokriva
6 večjih aplikacijskih področij: globalna
področja (mere, znaki, okrajšave...), finančne
storitve, potovanja, posredovanje informacij,
kontrola, telekomunikacije. Seznam je
zagotovil konzorcij LC-STAR.
Skupaj je bilo tako zbranih 6040 besed, od teh jih je
bilo 3510 že zbranih s korpusom občnih imen. S
seznamom aplikacijskih besed je bilo torej dodanih 2530
besed k skupnemu končnemu naboru.
Skupaj - občne besede, zaprti nabori, lastna imena in
aplikacijske besede - je bilo tako zbranih okoli 113.000
besed, ki predstavljajo vnose za veliki slovar, namenjen za
izboljšanje razpoznave in sinteze govora.
3.1.5. Oblikoslovno označevanje in fonetični prepis
Po zgoraj opisanih postopkih zbrane besede se
oblikoslovno označijo in fonetično prepišejo v skladu s
standardi, določenimi v projektu (Hartikainen et al.,
2003).
Za fonetični prepis je uporabljena fonetična abeceda
Sampa (Zemljak et al., 2002). Besede so zlogovane; znak
za zlog je vezaj (-). Pri večbesednih vnosih je premor med
besedami označena z višajem (#). Naglas je določen za
celoten zlog, označen je z narekovajem pred zlogom (").
Vsi fonemi in znaki za zlog, premor in naglasno mesto so
ločeni med seboj s presledkom. Fonetični prepisi so bili
narejeni polavtomatsko ter ročno pregledani in
popravljeni.
Oblikoslovne oznake so natančneje predstavljene že v
(Verdonik et al., 2004), tukaj predstavljamo le glavne
značilnosti.
Osrednje kategorije besed so: samostalnik, pridevnik,
števnik, zaimek, glagol, pomožni glagol, prislov, veznik,
predlog, členek, medmet. Za vse sklonljive kategorije
(samostalnik, pridevnik, števnik, zaimek) so določeni
atributi sklon, spol, število, za glagol in pomožni glagol pa
poleg spola in števila tudi oseba, naklon (povedni,
pogojni, velelni, nedoločnik, deležnik), čas, način in vid.
Lastna imena so kategorizirana kot samostalnik, sledi
atribut za oznako vrste lastnega imena (osebno,
zemljepisno, država, mesto, ulica, organizacija, trgovska
znamka, turistični spomeniki). Oznak za spol, sklon ali
število pri lastnih imenih ni, tudi ko so enobesedna.
Samostalnikom moškega spola je v 4. sklonu pripisana
oznaka za živost ali neživost, pri pridevnikih in prislovih
je označen atribut o stopnji, števniki so dodatno označeni
kot glavni, vrstilni, množilni in ločilni, zaimki so
razdeljeni na osebne, kazalne, oziralne, nedoločne,
vprašalne, povratne in svojilne, prislovi pa na prislove
časa, kraja in načina.
Tako urejen slovar je zakodiran v jeziku XML.
Struktura slovarja je razvidna iz sledečega izseka:
<ENTRYGROUP orthography="Abramičeva_ulica">
<ENTRY>
<NOM class="STR" />
<LEMMA>Abramičeva_ulica</LEMMA>
<PHONETIC>a - " b r a: - m i - tS E - v a # " u: - l i - ts a
</PHONETIC>
</ENTRY>
</ENTRYGROUP>
<ENTRYGROUP orthography="agenciji">
<ENTRY>
<NOM class="common" number="dual" gender="feminine"
case="nominative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>
</ENTRY>
<ENTRY>
<NOM class="common" number="singular" gender="feminine"
case="dative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>
</ENTRY>
<ENTRY>
<NOM class="common" number="dual" gender="feminine"
case="accusative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>
</ENTRY>
<ENTRY>
<NOM class="common" number="singular" gender="feminine"
case="locative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - " g e: n - ts i - j i </PHONETIC>
</ENTRY>
<ENTRY>
<NOM class="common" number="dual" gender="feminine"
case="nominative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>
</ENTRY>
<ENTRY>
<NOM class="common" number="singular" gender="feminine"
case="dative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>
</ENTRY>
<ENTRY>
<NOM class="common" number="dual" gender="feminine"
case="accusative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>
</ENTRY>
<ENTRY>
<NOM class="common" number="singular" gender="feminine"
case="locative" />
<LEMMA>agencija</LEMMA>
<PHONETIC>a - g E n - " ts i: - j i </PHONETIC>
</ENTRY>
</ENTRYGROUP>
<ENTRYGROUP orthography="aretirajo">
<ENTRY>
<VER number="plural" gender="not_specified" person="3"
mood="indicative" tense="present" voice="active"
polarity="not_specified" aspect="perfect" />
<LEMMA>aretirati</LEMMA>
<PHONETIC>a - r E - " t i: - r a - j O </PHONETIC>
</ENTRY>
<ENTRY>
<VER number="plural" gender="not_specified" person="3"
mood="indicative" tense="present" voice="active"
polarity="not_specified" aspect="imperfect" />
<LEMMA>aretirati</LEMMA>
<PHONETIC>a - r E - " t i: - r a - j O </PHONETIC>
</ENTRY>
</ENTRYGROUP>
3.2. Slovarji za govorno orientirano prevajanje
za slovenski jezik
Drugi del projekta LC-STAR je orientiran v proučitev
in izgradnjo jezikovnih virov, ki bi izboljšali govorno
orientirano prevajanje. V skladu s tem so bili v projektu
proučeni različni pristopi k strojnemu prevajanju govora
in rezultati kažejo, da je mogoče razviti robustno strojno
simultano prevajanje govora za majhno do srednje veliko
semantično področje. Največji problemi strojnega
simultanega prevajanja govora so glede na raziskave
naslednji:
• pridobivanje podatkov, ki so specifični za
posamezna področja, eno- ali dvojezičnih
• robustnost komponent strojnega simultanega
prevajanja govora na napake pri razpoznavanju
in značilnosti govorjenega jezika
• razvoj učinkovite enote za razpoznavo govora in
govorno orientirano prevajanje (Moreno et al.,
2004)
Trenutno najbolj obetaven pristop k strojnemu
prevajanju govora je statistični. Obstoječi sistemi, ki te
temeljijo na statističnem strojnem prevajanju, uporabljajo
velike dvojezične poravnane korpuse za učenje sistemov.
Novejše raziskave (Koehn et al., 2003; Vogel et al., 2003)
pa kažejo, da so lahko uporabni tudi kratki dvojezični
poravnani izseki iz stavkov, značilnih za neko semantično
področje. Na področju pogovorov v turizmu, na katero je
orientiran projekt LC-STAR, so pogoste t.i. fraze, kot so
"kje je...", "rad bi...", "mi lahko pomagate...". Tudi
eksperimenti v okviru projekta (Ueffing, Ney, 2003) so
pokazali, da bi seznam takih fraz pomagal izboljšati
sisteme govorno orientiranega prevajanja, prav tako
uspešnost izboljša, če so besede v takem dvojezičnem
slovarju fraz označene glede na pripadnost besedni vrsti in
lematizirane.
Zaradi zgoraj navedenih rezultatov se v projektu
pripravljata dve vrsti virov, namenjenih za izboljšanje
komponente govorno orientiranega prevajanja za področje
turizma:
• poravnani slovar 10.000 fraz v 9 jezikih (tudi
slovenskem), ki se pogosto uporabljajo v
turizmu; besedam so dodane oznake o besedni
vrsti v skladu s shemo, določeno v prvem delu
projekta, in lema;
• enojezične slovarje polnopomenskih besed, ki se
pojavijo v teh frazah, urejene enako kot veliki
slovarji za izboljšanje razpoznave in sinteze
govora.
Vir za poravnani slovar fraz je bil referenčni seznam
fraz v ameriški angleščini, ki je bil preveden v ostale
jezike, tudi slovenščino. Referenčni seznam je zagotovil
konzorcij LC-STAR.
4. Zagotavljanje kakovosti jezikovnih virov
LC-STAR
Pomanjkanje kakovosti jezikovnih virov je bilo
ugotovljeno kot ena od glavnih pomanjkljivosti obstoječih
jezikovnih virov, zato je eden od namenov projekta to
preseči. Poleg natančnih določil in skupnih standardov, po
katerih so razviti vsi jezikovni viri v okviru projekta,
konzorcij LC-STAR zagotavlja kakovost tudi z neodvisno
validacijo. To opravljata nizozemski SPEX (Speech
Processing EXpertise centre), validacijski center ELRE, in
danski CST (Center for Sprogteknologi). S tem je
zagotovljeno, da vsi partnerji v projektu dosegajo enako
kvaliteto razvitih jezikovnih virov.
Validacija je delno avtomatska in delno ročna. SPEX
je razvil programska orodja za avtomatsko validacijo, s
katerimi se preverja ustrezna formalna struktura slovarjev.
Programska orodja so na voljo partnerjem, da lahko sami
preverjajo ustreznost jezikovih virov, formalno pa preveri
rezultate tudi SPEX. CST zagotavlja ročno validacijo, v
kateri preverja jezikoslovno ustreznost jezikovnih virov
(pravilnost pripisanih oblikoslovnih oznak, ortografskega
zapisa, fonetičnega prepisa, ustreznost prevodov).
Validacijo opravljajo neodvisni strokovnjaki, naravni
govorci posameznih jezikov.
5. Zaključek
V članku smo predstavili jezikovne vire, ki se razvijajo
v okviru mednarodnega projekta LC-STAR, s podrobnejšo
predstavitvijo slovenskih jezikovnih virov, ki jih za
projekt razvija Fakulteta za elektrotehniko, računalništvo
in informatiko Univerze v Mariboru.
Za slovenščino lahko podobno kot za druge jezike
ugotovimo pri večini obstoječih jezikovnih virih, ki so
uporabni za sisteme strojnega simultanega prevajanja
govora, pomanjkanje kakovosti, premalo široko pokritost,
pomanjkljivo primernost za razvoj sinteze in razpoznave
govora ter pomanjkanje standardov. Sodelovanje v
projektu LC-STAR je prispevek k izboljšanju tega stanja.
Razviti slovarji bodo predstavljali dobro osnovo za razvoj
in izpopolnjevanje komponent strojnega simultanega
prevajanja govora.
6. Viri in literatura
Dobrišek, S., Gros, J., Ipšić, I., Pepelnjak, K., Mihelič, F.,
Pavešić, N. (1998). Gopolis: slovenska podatkovna
zbirka govorjenih poizvedovanj. V: Informacijska
družba IS'1998: Jezikovne tehnologije za slovenski
jezik. 105-108.
Domača spletna stran LC-STAR: http://www.lc-star.com/.
Domača spletna stran Multext-East: http://nl.ijs.si/ME/.
Hartikainen, E., Maltese, G., Moreno, A. Shammas, S.,
Tiegenhain, U. (2003). Large Lexica for Speech-to-
Speech Translation: From Specification to Creation. In
Proceedings of the Eurospeech (pp. 1529--1532).
Geneva.
Hoege, H. (2002): Project Proposal TC-STAR - Make
Speech to Speech Translation Real. V: Third
International Conference on Language Resources and
Evaluation. 136-140.
Gros, J., F. Mihelič, S. Dobrišek, T. Erjavec, M. Žganec
(2000). A phonetically and prosodically annotated
Slovene speech corpus. V: IS'2000: Jezikovne
tehnologije. 27-30.
Gros, J., I. Ipšić, F. Mihelič, N. Pavešić (1996).
Segmentation and labelling of Slovenian diphone
inventories. COLING096. 298-303.
Kaiser, J., Kačič, Z. (1998). Development of Slovenian
SpeehDat Database. In the Proceedings of First
International Conference on Language Resources &
Evaluation. Granda, Spain.
Kačič, Z. (1997). Copernicus Onomastica project COP 58:
Final report. FERI.
Kačič, Z. (2002). Pomen združevanja raziskovalnih
potencialov pri preseganju jezikovnih pregrad v okviru
jezikovnih tehnologij naslednjih generacij. V:
Informacijska družba IS'2002: Jezikovne tehnologije.
111-115.
Koehn, P., Knight, K. (2003). Feature-Rich Statistical
Translation of Noun Phrases. 41st Annual Meeting of
the ACL, Sapporo, Japan.
Moreno, A., Conejero, D., Castell, N., Gimenez, J. (2004).
Language independent specification of LR for
translation. LC-STAR Project IST-2001- 32216
Deliverable D5.5.
Rojc, M., Kačič, Z. (2003). Efficient Development of
Lexical Language Resources and their Representation.
International Journal of Speech Technology 3/6. 259-
275.
Stabej, M., Vitez, P. (2000). KGB (korpus govorjenih
besedil) v slovenščini. IS'2000: Jezikovne tehnologije.
79-81.
Šef, T. (2002). Naglaševanje nepoznanih besed pri sintezi
slovenskega govora. V: Informacijska družba IS'2002:
Jezikovne tehnologije. 149-152.
Ueffing, N., Ney, H. (2003). First experimental results on
baseline speech-to-speech translation systems. LC-
STAR Project IST-2001- 32216 Deliverable D4.4.
Verdonik, D., Rojc, M., Kačič, Z., Horvat, B. (2002).
Zasnova in izgradnja oblikoslovnega in glasoslovnega
slovarja za slovenski knjižni jezik. In Proceedings of
Jezikovne tehnologije/Information Society Multi-
Conference (pp. 44--48). Ljubljana, Slovenia.
Verdonik, D., Rojc, M., Kačič, Z. (2004). Creating
Slovenian Language Resources for Development of
Speech-to-Speech Translation Components. In
Proceedings of the LREC'04 (pp.1399--1402). Lisbon.
Vogel, S., Zhang, Y., Huang, F., Tribble, A., Venugopal,
A., Zhao, B., Waibel, A. (2003). “The CMU
Statistical Machine Translation System”.MT-Summit,
New Orleans, USA.
Zemljak, M., Kačič, Z., Dobrišek, S., Gros, J., Weiss, P.
(2002). Računalniški simbolni fonetični zapis
slovenskega govora. Slavistična revija, 50(2), 159--
169.
Ziegenhain, U. et al. (2004). Specification of corpora and
word lists in 12 languages. LC-STAR Project IST-
2001- 32216 Deliverable D1.1.
Zoegling Markuš, A., Kačič, Z., Horvat, B. (2000). Razvoj
slovenske baze izgovorjav "POLIDAT". IS'2000:
Jezikovne tehnologije. 95-98.
Žibert, J., Mihelič, F. (2000). Govorna zbirka vremenskih
napovedi. IS'2000: Jezikovne tehnologije. 108-111.