ChapterPDF Available

Anotace chybových textů v českém žákovském korpusu

Authors:
Anotace chybových textů v českém žákovském korpusu1
Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič,
Alexandr Rosen, Barbora Štindlová
1. Úvod
Tento příspěvek se zabývá anotací žákovského korpusu CzeSL. Anotace je tu míněna v širším
smyslu: jako celý proces zpracování vstupního ručně psaného textu až do jeho výstupní
emendované a lingvisticky anotované (značkované) podoby. Mimo vlastní lingvistickou anotaci,
tj. lexikální, morfologickou a syntaktickou emendaci a značkování chyb v trojrovinném
anotačním systému, popíšeme tedy i věci související: přepis vstupních textů, správu a organizaci
anotace i příslušné softwarové nástroje.
Smyslem tvorby emendovaného a lingvisticky anotovaného korpusu obecně je umožnit
učitelům češtiny jako cizího jazyka rychle a efektivně zjišťovat, jakých typů chyb a v jaké míře
se dopouštějí studenti češtiny, pro něž čeština není mateřským jazykem. Korpus navíc poskytuje
reprezentativní data, která umožní systematický výzkum češtiny jakožto cizího jazyka. Na
základě statistik a rešerší v nashromážděných korpusových datech si tak učitelé mohou učinit
objektivní představu o chybách studentů a adekvátně zaměřit svou výuku a přípravu výukových
materiálů. To přispěje k nápravě stavu, kdy systematická příprava učitelů na výuku češtiny jako
cizího jazyka je v počátcích a výuka probíhá často intuitivně podle individuálních zkušeností
vyučujícího.
2. Koncepce anotace a anotační schéma
2.1 Anotační schéma jako kompromis
Chybově anotovaný žákovský korpus češtiny je mimo slovinský korpus PiKUST (Stritar, 2009)
jediným žákovským korpusem slovanského jazyka; na rozdíl od něho jsme se však rozhodli jej
anotovat se zřetelem ke specifickým vlastnostem češtiny. Ve srovnání s češtinou mají jazyky,
pro něž existují anotované žákovské korpusy, jednodušší flexi a/nebo méně volný slovosled.
V koncepci naší chybové taxonomie se tedy musely odrazit specifické vlastnosti češtiny jako
jazyka s bohatým flektivním podsystémem a volným slovosledem, a bylo tedy třeba řešit zcela
nové problémy, aby chybová anotace žákovského korpusu CzeSL umožňovala podrobné
statistické zpracování relevantních jazykových dat. Vytvoření anotačního schématu a efektivní
chybové taxonomie je však z uvedených důvodů – flektivní povaha češtiny a volný slovosled –
náročný úkol. Anotační schéma musí navíc vyhovovat následujícím požadavkům:
1 Tento příspěvek částečně vychází z článku Škodová et al. (2011) s poděkováním Jirkovi Hanovi a Svatavě
Škodové. Jim a také Haně Skoumalové a Karlu Šebestovi jsou autoři vděčni také za inspiraci, spolupráci při
vývoji chybové anotace a za jejich podíl na práci na projektu vůbec.
schéma musí být zvladatelné pro anotátory
taxonomie nemůže být příliš rozsáhlá, ale zároveň musí být dostatečně informativní, tj.
musí umožňovat dostatečně podrobné zachycení chyb
taxonomie by měla umožňovat budoucí rozšiřování
Dále jsme se při tvorbě anotačního schématu museli vyrovnat s některými problémy
souvisejícími se stanovením cílové hypotézy, tedy s opravami textu podle předpokládané intence
autora: interferencí, interpretací, problematikou slovosledu a stylu.
2.1.1 Interference
Jelikož anotátoři nejsou odborníky na osvojování druhého jazyka a nelze u nich předpokládat ani
znalosti všech relevantních cizích jazyků, nejsou s to zachytit případy jazykové interference
z mateřštiny autora anotovaného textu nebo nějakého jiného jazyka, který autor zná. Není tedy
možné od anotátorů požadovat, aby zachycovali interferenční chyby. Tak například věta Tokio je
pěkný hrad je gramaticky správná, ale její autor, rodilý mluvčí ruštiny, zde chybně užil slovo
hrad, které ve vztahu ruštiny a češtiny patří mezi tzv. falešné přátele, neboť jeho formální
ekvivalent v ruštině, gorod, neznamená hrad, nýbrž město. Podobně je tomu s větou „Je tam
hodně sklepů,“ která je sice sama o sobě gramaticky správná, ale v daném kontextu nepřípadná.
Aby ji však anotátor mohl správně emendovat, musí vědět, že sklep znamená v ruštině hrobka a
v polštině obchod.
2.1.2 Interpretace
U některých typů chyb spočívá problém ve stanovení interpretačních mezí. Věta kdyby citila na
tebe zlobna je sice gramaticky chybná, ale dá se jí víceméně rozumět: znamená patrně „kdyby se
na tebe zlobila.“ V takových případech má anotátor spíše za úkol význam věty interpretovat než
větu opravovat. Větu lze tedy přeformulovat jako kdyby se na tebe cítila rozzlobená nebo kdyby
se na tebe zlobila, přičemž první formulace není tak přirozená jako druhá, zato je blíže původní
větě. V takových případech je nesnadné poskytnout anotátorům jednoznačné směrnice, jak
postupovat.
2.1.3 Slovosled
Jiným typem chyb specifickým pro češtinu jsou nedostatky slovosledné. Ty třeba nerespektují
náležité aktuální členění, které český slovosled vyjadřuje. Často bývá obtížné stanovit – a to i
v daném kontextu – zda jde o chybu. Například věta Rádio je taky na skříni naznačuje, že
v místnosti jsou alespoň dvě rádia, z nichž jedno je umístěno na skříni, třebaže s větší
pravděpodobností lze větu interpretovat tak, že mezi věcmi nacházejícími se na skříni je také
rádio. Tato interpretace ovšem vyžaduje odlišný slovosled, a tedy slovoslednou úpravu: Na skříni
je taky rádio. Podobně obtížná mohou být rozhodnutí týkající se chyb lexikálních a chyb
v modalitě.
2.1.4 Styl
Další problematickou oblast představuje pro anotátory dichotomie mezi spisovnou a obecnou
češtinou, tedy diglosie: spisovná čeština se dost liší od češtiny obecné, zejména v oblasti
flektivní morfologie, a pak vyvstává problém, jak anotovat obecněčeské tvary, jichž autor textu
užil. Autoři textů, tj. studenti češtiny, si totiž nemusí dobře uvědomovat jejich postavení
v jazykovém systému češtiny a náležitý kontext, v němž by jich měli užívat. Ačkoli takové
výrazy jsou třebas gramaticky správné, v korpusu CzeSL se nahrazují svými standardními
protějšky a vždy se značkují jako stylově příznakové, neboť se předpokládá, že student ve
skutečnosti chtěl užít nepříznakové formy.
Výsledné schéma a typologie chyb, jež je jeho podkladem, představuje tedy jistý
kompromis mezi omezeními, které z praktického hlediska klade proces anotace, a výzkumnými
požadavky kladenými na žákovský korpus. Korpus se může využívat k porovnávání variet
žákovské češtiny, resp. verzí mezijazyka různých nerodilých mluvčích, s ohledem na vymezený
standard cílového jazyka (tj. češtiny). Mezijazyk konkrétního mluvčího lze kromě jiných kritérií
charakterizovat podle jeho prvního jazyka nebo etnické příslušnosti, tedy např. jako mezijazyk
ruský, vietnamský, romský apod.
2.2 Anotace na více rovinách
O chybové anotaci nelze předem stanovit, jaká by měla být její ideální podoba. Do značné míry
záleží na cílech a možnostech projektu, a samozřejmě i na typu jazyka. Jednoúrovňové anotač
schéma by stačilo pro úzce definovaný účel, např. ke zkoumání morfologických zvláštností
jazyka studentů. Mohlo by zachycovat i více aspektů, pokud by se příslušné údaje daly připojit
k původním formám. Pro naše účely však s sebou jednoúrovňová anotace přináší řadu problémů.
Především je korpus CzeSL z hlediska budoucího využití koncipován velmi široce, takže se nelze
omezit na úzký okruh jazykových jevů nebo určitou rovinu popisu. Z toho vyplývá nutnost
zaznamenávat postupné opravy a udržovat vazby mezi původní a opravenou formou i u změn ve
slovosledu, změn v hranicích mezi slovy, případně i u vypuštěných a přidaných slov. Dalším
důvodem je pak potřeba anotovat chyby, které se týkají více forem najednou, často
v nekontaktním postavení.
V ideálním případě by anotátor měl mít k dispozici právě tolik rovin, kolik je třeba
k provedení anotace, která může být i postupná. To lze zajistit buď volbou z většího počtu
lingvisticky motivovaných rovin, nebo možností vytvářet roviny anotace podle aktuální potřeby
oprav dané formy. Vzhledem k tomu, že anotátor by neměl být příliš zatěžován teoretickými
dilematy a že výsledná anotace by měla být jednotná, zdá se velký nebo proměnlivý počet rovin
pro naše účely málo vhodný. Proto jsme přijali kompromisní řešení – anotátor má pro anotaci
k dispozici dvě roviny, třetí rovinou je rovina obsahující původní, nezpracovaný text.
Rozhodnutí, na jaké rovině se daná forma opravuje, je dáno do značné míry formálními kritérii,
ale rozdíly mezi oběma rovinami přitom mají lingvistické opodstatnění.
Rovina R0 obsahuje původní text, přepsaný z rukopisu se zachováním některých
rukopisných charakteristik (varianty, nečitelné řetězce). Na rovině R1 se emendují izolované
formy bez ohledu na kontext – typicky jde o překlepy a chyby v pravopisu a morfologii.
Výsledkem je řetězec správných českých tvarů, i když věta z nich složená správně být nemusí.
Všechny ostatní typy chyb (valence, shoda, slovosled a další) se opravují na rovině R2.
2.3 Formalismus
Anotované žákovské korpusy někdy využívají datových formátů a nástrojů vyvinutých původně
pro anotování mluveného jazyka. Takové prostředí umožňuje arbitrární segmentaci výstupu a
několikaúrovňovou anotaci segmentů (srov. Schmidt, 2009). Obvykle anotátor edituje tabulku se
sloupci korespondujícími se slovy a řádky podle úrovní anotace. Buňky lze rozdělovat a spojovat
tak, aby bylo možné anotovat rozdělená slova nebo posloupnosti slov jako celek, např. při opravě
chyb ve shodě nebo slovosledu (Lüdeling et al., 2005).
Tabulkový formát však není příliš vhodný pro jazyky s volným slovosledem a bohatou
flexí: jeden slovní tvar totiž může být chybný z různých hledisek. V krajních případech může být
problematický typograficky, ortograficky, morfosyntakticky, lexikálně i slovosledně zároveň. Při
slučování a rozdělování buněk tabulky však nelze zaručit, že zůstanou zachovány korespondence
mezi postupně opravovanými formami. Proto jsme přistoupili k vlastnímu návrhu, kde se
korespondence mezi postupně opravovanými formami vyjadřují explicitně.
Naše anotační schéma má podobu grafu složeného ze tří vzájemně propojených
paralelních rovin, které představují původní text studenta (R0) a dvě úrovně anotace (R1 a R2).
Každému slovu vstupního textu včetně interpunkce obvykle odpovídá nějaký uzel na každé ze tří
rovin. Běžně je vztah mezi uzly na sousedních rovinách 1:1, ale slova se mohou také spojovat a
rozdělovat, vypouštět i přidávat. Ve vzájemném vztahu mohou být i potenciálně nespojité
posloupnosti slov, takže obecně může být počet uzlů na sousedních rovinách spjatých jedním
vztahem neomezený.
Kromě tvaru mohou být u každého uzlu uvedeny další informace – lemma,
morfosyntaktické kategorie, syntaktická funkce apod. Pokud byla původní forma (případně více
forem) opravena na jinou, mohou být vztahy mezi uzly na sousedních rovinách opatřeny údaji o
typu chyby. Na obr. 1 níže uvádíme příklad víceúrovňové anotace podle tohoto schématu.
Kromě vztahů mezi sousedními rovinami schéma také umožňuje vyjádřit jednoduché
syntagmatické vztahy související s chybami určitého typu, např. u shody nebo rekce.
Identifikátor chyby na spojnici mezi opravovaným a opraveným výrazem může odkazovat na
jiný výraz, který určuje správnou podobu chybného slovního tvaru, např. v případě chybného
tvaru finitního slovesa na podmět nebo na jiný tvar se stejnými kategoriemi shody (viz oprava
jsme na jsem na obr. 1).
Častým jevem jsou tzv. sekundární chyby, jako třeba v příkladu dívá se na americkém
filmu. Adjektivum americkém se náležitě shoduje s řídícím substantivem, ale po opravě pádu
předmětu na akuzativ je třeba změnit i pád shodného přívlastku. V takových příkladech se
používá více odkazů: od předmětu ke slovesu jako zdůvodnění opravy pádu řídícího substantiva
a od adjektiva k substantivu jako zdůvodnění opravy pádu shodného přívlastku. U přívlastku jde
přitom o opravu, která je vynucena jinou opravou, tzv. opravu sekundární. Při značkování chyb
se tento atribut zaznamenává.
Od počátku jsme si vědomi toho, že – alespoň v netriviálních případech – lze chybu
identifikovat pouze na základě stanovení hypotetické cílové podoby chybného výrazu, přičemž
někdy nemusí být nasnadě podoba jediná. Práce s více cílovými hypotézami zatím existuje jako
teoretická možnost.
3. Chybová taxonomie a její evaluace
Typický student češtiny jako cizího jazyka chybuje na všech lingvisticky motivovaných
rovinách, od grafémiky až po pragmatiku. Navržené anotační schéma se z praktických důvodů
omezuje na konzervativní emendaci, jejímž výsledkem je souvislý a gramaticky správný text, ale
bez nároků na stylistickou vytříbenost. Anotátor by také neměl text příliš volně interpretovat.
Pokud text není dostatečně srozumitelný, mohou být příslušné pasáže takto anotovány, ale
mohou zůstat bez emendace.
Východiskem pro taxonomii chyb jsou lingvistické kategorie ve spojení s formálním
popisem chyby (typem modifikace). Ne všechny typy chyb je nutné určovat manuálně. Pokud je
to možné, určujeme některé chyby automaticky porovnáním původní a opravené podoby tvaru
a/nebo na základě výsledků automatické lemmatizace a morfologické analýzy (viz oddíl 4.5.3).
Emendace zatím probíhá jen ručně, i když se zkoumá možnost využít automatický korektor.
3.1 Chyby na rovině R1
Na rovině R1, kde se opravují chyby zjistitelné bez ohledu na kontext, se kromě chyb
v pravopisu a hranicích slov zachycují také chyby ve flektivní a derivační morfologii i chybné
slovní základy, např. nově vytvořená nebo cizí slova. Tyto nedostatky se s výjimkou chyb
pravopisných určují manuálně. Výsledkem opravy je nejpodobnější správný tvar, který může být
dále na rovině R2 podle kontextu opraven na jiný – důvodem je například porušení
morfosyntaktické shody nebo sémantická nekompatibilita lexému. Seznam chyb anotovaných
manuálně na rovině R1 s příklady uvádí tabulka 1. Poslední tři chyby (stylColl, stylOther a
problem) se používají i na rovině R2.
Typ chyby
Popis
Příklad
incorInfl
nesprávná flexe
spám málo; tři měsícu
incorBase
nesprávný slovní základ
kočka se jmemuje; libila se mi; musíš
to posvětlit
fwFab
neemendovatelné, „vymyšlené“ slovo
je tam hodně jinaků
fwNC
cizí slovo
jím rád eggs; byla v hangu
flex
doplňující příznak u chyb fwFab a fwNC značící
přítomnost flexe
jdu do shopa
wbdPre
prefix oddělený mezerou a předložka bez mezery
Petr při jde; dolesa
wbdComp
neoprávněně rozdělená kompozita
český anglický slovník
wbdOther
jiná chyba týkající se hranice slova
mochezký; atak
stylColl
obecněčeský tvar
dobrej film
stylOther
knižní, nářeční, slangový, hyperkorektní výraz
holka s hnědými očimi
problem
problémová chyba (doplňkový příznak)
Tabulka 1: Chyby na rovině R1
Pravidlo, že na rovině R1 musí být všechny tvary správné, neplatí bez výjimky – chybu nelze
opravit třeba proto, že anotátor nedokáže rozpoznat intenci autora. Na druhé straně se správný
tvar nahrazuje jiným správným tvarem v případech, kdy jde evidentně o pravopisnou nebo
hláskovou chybu, jejímž výsledkem bylo náhodné homonymum s existujícím tvarem.
3.2 Chyby na rovině R2
Opravy na rovině R2 se týkají chyb ve shodě, valenci, analytických tvarech, zájmenném
odkazování, záporové shodě, v užití vidu, času, stupně, lexému a idiomu, a také ve slovosledu. U
chyb ve shodě, valenci, analytických tvarech, zájmenném odkazování a záporové shodě lze při
opravě chybného výrazu obvykle odkázat na jiný správně utvořený nebo již opravený výraz,
který určuje morfologické kategorie nebo jiné vlastnosti výrazu opravovaného. Typy manuálně
určovaných chyb na rovině R2 uvádí tabulka 2. (Mezi automaticky identifikované chyby patří
např. chyby slovosledu nebo podrobnější členění chyby typu vbx.)
Typ chyby
Popis
Příklad
agr
narušení shody
máme hezkých psa; Petr vařím oběd
dep
chyba ve vyjádření syntaktické závislosti
věřím učitelku; káva bez mléko; bojím se jí
zavolám
ref
chyba v zájmenném odkazu
paní, jenž jsem potkal
vbx
chyba v analytickém slovesném tvaru a
složeném přísudku
Jana bude dě; guláš bylo chutná mi; začal
pracuje
rflx
chyba v reflexivním výrazu
smála si; narodila jsem v Petrohradu
neg
chyba v negaci
mám žádný čas; on ne velký
lex
chyba v lexiku a frazeologii
jsem Vietnam; kupuju housenky
use
chyba v užití gramatické kategorie
tričko je nejvíc nejhezčí; celé dopoledne
uvařím oběd; do polévky dáme čočky
sec
sekundární, „zavlečená“ chyba (doplňkový
příznak)
dívá se na americkém filmu
stylColl
obecněčeský tvar
viděli jsme hezký holky
stylOther
knižní, nářeční, slangový výraz
rozbil se mi hadr
stylMark
výplňkové slovo jako „diskursní marker“
no, teda, jo
disr
rozvrácená konstrukce
zkušební důvtip může tě řídit
problem
problémová chyba (doplňkový příznak)
Tabulka 2: Chyby na rovině R2
3.3 Příklad
Anotační schéma použité v autentickém příkladu uvádíme na obr. 1, z prostorových důvodů je
příklad rozdělen na dvě části. Tři paralelní řetězce forem představují původní text a dvě roviny
anotace. Jednotlivé tvary jsou spojeny hranami a většina oprav se zároveň označuje kódem typu
opravy.
V první části věty se na rovině R1 tvar bojal opravil na bál s údajem, že má chybný
slovní základ. Na rovině R2 se jako chyba ve shodě opravil tvar jsme na jsem s odkazem na
nejbližší tvar, který je z hlediska morfologických kategorií důležitých pro shodu správně (bojal).
Chybějící reflexivní částice se vložila s odkazem na významové sloveso. Čárka přibyla bez údaje
o chybě, který se doplní automaticky.
Ve druhé části věty anotátor chybně oddělenou záporovou předponu spojil se slovesem
bude a opravil délku v základu tvaru libila. Kromě toho opravil i malé začáteční písmeno u
vlastního jména Praha (bez identifikace chyby, která se doplní automaticky). Na rovině R2 bylo
nutné opravit pád zájmena ona s odkazem na řídící sloveso, které se z finitního tvaru líbila
změnilo na infinitiv, neboť je součástí opisného futura – proto anotátor odkazuje na finitní tvar
pomocného slovesa nebude. Bylo nutné opravit i pád u vlastního jména Praha, opět s odkazem
na řídící významové sloveso. Tím je ovšem dotčen i původně správný tvar adjektiva slavnou
kód pro chybu ve shodě je zde doplněn údajem, že jde o „sekundární“ chybu. Slovoslednou
úpravu postavení příklonky se není třeba označovat kódem chyby – to se provede automaticky.
Máme-li na výběr z více možností přesunu, které všechny vedou ke stejnému výsledku,
přesouváme přednostně závislé větné členy.
Obr. 1: Příklad anotace jedné věty
Poslední věta vyžadovala na rovině R1 jen jedinou opravu (opět délka ve slovním základu). Zato
bylo na rovině R2 nutné kromě spojky (lexikální oprava) změnit celý analytický slovesný tvar,
což je příklad opravy typu 2:2, a s odkazem na řídící sloveso pak i předložkový pád zájmena na
pád prostý (mi) a výsledek nakonec umístit na patřičné místo.
Oprava výrazu pro mně na tvar mi však opomíjí chybu v pádu zájmena po předložce. Aby
anotátor takovou chybu mohl opravit a označit, potřeboval by další rovinu, na níž by mohl
opravit mně na mě s odkazem na předložku, která pád určuje. Opravou už na rovině R1 by
anotátor porušil pravidlo, že na R1 se opravují jen tvary chybné i bez kontextu. Tento problém
chápeme jako kompromisní řešení, které vyvažuje jednodušší schéma.
3.4 Evaluace
Použitelnost anotačního schématu a taxonomie chyb byla ověřena pomocí míry shody mezi
anotátory na vzorku 67 textů v průměru po 150 slovech, celkem 9373 slov (7995 slov bez
interpunkce). Autory textů byli rodilí mluvčí různých jazyků. Každý text anotovali dva anotátoři,
celkem bylo anotátorů čtrnáct. Jako míra shody mezi anotátory byl použit koeficient kappa
(Carletta 1996), který kromě shody nebo neshody mezi dvěma anotátory při volbě dané značky
bere v úvahu i pravděpodobnost náhodné shody. Blíže o evaluaci viz (Štindlová, 2011, s. 121n.;
Štindlová et al., 2011).
Na škále mezi dokonalou shodou (kappa=1) a shodou náhodnou (kappa=0) dosáhly
hodnoty kappa velmi uspokojivých hodnot např. u značek incorBase (0,75) a incorInfl (0,61),
z roviny 2 pak u značek agr (0,54) a dep (0,47). Obecně se ve srovnatelných případech považují
hodnoty nad 0,4 za přijatelné. Část chybových značek jako např. lex a use však skončila pod
tímto limitem (0,37 a 0,21). Zlepšení (a to i u „úspěšnějších“ typů chyb) může nastat po precizaci
instrukcí v anotačním manuálu, ale některé značky budou i nadále do značné míry závislé na
subjektivním dojmu anotátora a vysokou míru shodu mezi anotátory u nich nelze očekávat.
4. Postup anotace
Jakmile jsou ručně psané texty přepsány do elektronické podoby, uloží se do databáze AMES.2
Od okamžiku uložení přepsaných textů do databáze zajišťuje řízení dalšího zpracování a správu
textů systém Speed3 (viz podrobněji níže). Celé zpracování vstupního textu uloženého v databázi
probíhá zhruba v těchto krocích:
1. Rukou psaný text se pomocí běžného textového editoru přepíše do elektronické podoby ve
formátu HTML, rozšířeném o kódy zachycující studentovy opravy, předtištěný text, text
v jiných abecedách atd.
2. Přepsaný text v elektronické podobě se zkonvertuje do formátu pro anotaci, v němž je
automaticky stanovena rovina R0 a výchozí podoba roviny R1. Obě jsou zakódovány ve
formátu PML (srov. Pajas a Štěpánek, 2006; je to konkretizace XML pro účely strukturní
2 http://ames.ff.cuni.cz
3 http://speed.aspone.cz
lingvistické anotace).
3. Anotátor manuálně opraví chyby v textovém dokumentu a určí jejich typ pomocí anotačního
editoru feat.4
4. V posledním kroku doplní automatické nástroje klasifikaci těch chyb, které lze z ruč
anotace odvodit automaticky.
Všechny podoby zpracovávaného textu se ukládají do databáze. Na obr. 2 jsou pro ilustraci
uvedených kroků zachyceny různé podoby zpracovávané věty: rukopisná podoba, přepsaná
elektronická podoba a emendovaná a označkovaná podoba věty v prostředí trojrovinného
anotačního schématu vytvořeného anotačním editorem feat, který zároveň umožňuje všechny
tyto podoby zobrazit. Jednotlivé kroky objasníme podrobněji v části 4.1 a dále.
Obr. 2. Příklad věty zpracovávané v anotačním editoru feat
4.1 Sběr textů a jejich přepis
Na počátku celého procesu anotace jsou původní (vstupní) texty, které většinou píší studenti a
žáci ve třídě při jazykových kursech nebo při zkouškách. Je tedy nutné sbírat rukopisy. Pracovat
s rukopisy je však rovněž vhodné proto, že zachycují podobu autentického mezijazyka mnohem
věrněji než texty elektronické, jež lze snadno korigovat nebo i vytvářet automatickými nástroji,
což by mohlo podobu autentického mezijazyka výrazně zkreslit. Na obr. 3 je uveden příklad
vstupního textu psaného studentem, jehož mateřským jazykem je arabština a který absolvoval
bakalářské studium bohemistiky v Egyptě a dvoutýdenní kurs češtiny v České republice.
4 Softwarový nástroj feat (Flexible Error Annotation Tool) je prostředí určené k vícerovinné anotaci žákovských
korpusů, srov. Hana et al. (2010). Je volně dostupný na adrese http://purl.org/net/feat.
Obr. 3. Vstupní text napsaný egyptským studentem
Rukopisnou podobu vstupního textu přepisují přepisovači v textovém editoru Microsoft Word
nebo Open Office Writer podle podrobných pokynů v Manuálu pro přepis.5 Přepsané texty se
ukládají ve formátu HTML do databázového systému k dalšímu zpracování. Na obr. 4 je uveden
příklad přepisu vstupního textu zobrazeného na obr. 3.
I když se snažíme o maximální věrnost, někdy se při přepisu rukopisných textů
neobejdeme bez jisté míry interpretace. Přepisovači si musí uvědomovat specifika rukopisu dané
skupiny studentů a někdy i jednotlivců (například stejný glyf je možné interpretovat v písmu
různých studentů jako písmeno l, e, nebo a). Pokud je možné znak nebo i celý úsek textu
interpretovat různě, přepisovač může uvést i více variant. Například velikost počátečních písmen
nebo hranice slov jsou často nejasné. Zvlášť se označují zcela nečitelné úseky i opravy, které
provádějí sami studenti (vsuvky, škrty) a které mohou být pro výzkum akvizice jazyka rovněž
užitečné.
1. dostala jsem volno a chtěla jsem jít na procházku c párku vedle doma,
seděla jsem a vzpomněla mému prvnímu přítelu, jak jsme byli XXX spokojení,
vzpomněla jsem taký když nechal mě a odešel, šla jsem na cigaritu a zapoměla
moji kabilku, A pak mi volal hezký mladý kluk aby mi dál mojmé kabilku,
povídali jsme se dlouh{o|u}, nešla jsem že, už jsem ho zamilovala, teď jsme
spolu sťastní.
Obr. 4. Přepsaná elektronická podoba textu z obr. 3
5 http://utkl.ff.cuni.cz/~rosen/public/transkripce.pdf, http://utkl.ff.cuni.cz/~rosen/public/transkripce_doplnek.pdf
4.2 Konverze a správa textů systém Speed
Od okamžiku uložení přepsaných textů do databáze zajišťuje řízení dalšího zpracování textů
systém Speed pro správu přepsaných, zkonvertovaných a anotovaných textů, vyvinutý v rámci
projektu CzeSL. Nejprve se prověřuje formální správnost textů: tato činnost je svěřena
kontrolorům. Každý přepsaný text je po kontrole zkonvertován do vstupního formátu vhodného
pro vlastní lingvistickou anotaci a rovněž uložen do databáze. Konverzi provádí rovněž
kontrolor, který navíc prověřuje, zda konverze proběhla řádně. Činnost kontrolorů řídí
koordinátoři, kteří přidělují texty kontrolorům ke konverzi a přebírají od nich zkonvertované
texty. Poté, co jsou k dispozici texty zkonvertované pro vlastní lingvistickou anotaci, ujímají se
jich supervizoři, kteří řídí činnost anotátorů provádějících hlavní činnost: emendaci a
lingvistickou anotaci chyb v textech anotačním editorem feat. Supervizoři konkrétně anotátorům
přidělují texty k anotaci, přebírají od nich zkonvertované texty, kontrolují jejich anotace,
upozorňují anotátory na nedostatky v jejich práci, evidují časté chyby apod. V zájmu maximální
správnosti a konzistence anotace anotují každý text nezávisle na sobě dva anotátoři.
že jsou v přehledu uvedeny role uživatelů systému Speed, který řídí všechny uvedené
činnosti až na vlastní anotaci, jež je svěřena anotačnímu editoru feat:
4.2.1 Role uživatelů systému Speed
Koordinátor – koordinuje kontrolory. Vybírá texty z databáze a přiděluje je kontrolorům.
Každý koordinátor má vymezenu skupinu textů, které spravuje. Toto vymezení je definováno
na základě dat obsažených v průvodce zpracovávaných textů (například texty od
vietnamských či romských mluvčích apod.) a je nastaveno tak, aby jeden text byl vždy ve
správě jediného koordinátora. Role koordinátora je identická s rolí koordinátora v databázi,
v němž jediný koordinátor spravuje právě jednu subdatabázi. Tak je zajištěno, že jeden a týž
text má ve správě jediný koordinátor.
Kontrolor – prověřuje formální správnost přepsaných textů uložených v databázi, konvertuje
je do podoby vhodné pro lingvistickou anotaci a nakonec prověřuje, zda konverze proběhla
v pořádku.
Supervizorřídí skupinu přidělených anotátorů a zodpovídá za správnost anotace textů jim
přidělených. Prvotním vodítkem při rozdělování textů do skupin jsou údaje v průvodce textu
(např. texty slovanských mluvčích apod.). Rozdělení je nastaveno tak, aby jeden text vždy
spadal právě pod jednoho supervizora.
Anotátor – provádí anotaci textů. Každý anotátor spadá právě pod jednoho supervizora, který
ho řídí.
Schematicky lze vztahy mezi koordinátory, kontrolory a supervizory při zpracování textu
znázornit jako na obr. 5. Operace prováděanotátory je na obrázku vyjádřena slovem anotují,
za kterým se skrývá další podrobný diagram komunikace supervizora a anotátora.
Obr. 5. Základní diagram řízení anotace v systému Speed pro správu přepsaných,
zkonvertovaných a anotovaných textů.
4.2.2 Popis diagramu:
Stavy – jsou vyznačeny kroužky. Stav určuje, jaké operace je možné s textem provádět –
je dán uloženými daty a operacemi, které jsou pro něj definovány (včetně kontrol dat
apod.). Každý text se v jednom okamžiku nachází právě v jednom stavu.
Operace – jsou vyznačeny šipkami. Převádějí zpracovávaný text mezi stavy, provádě
změny v okolním prostředí. V daném okamžiku lze s jedním textem provést pouze
jedinou operaci; ta musí být definována na základě aktuálního stavu textu.
Koncové a počáteční stavy – jsou vyznačeny žlutou barvou. Jsou to stavy, kde se nachází
text jednak před započetím práce, jednak na konci procesu, kdy už neexistuje žádná
operace, která by s ním pracovala.
Ostatní stavy – jsou vnitřní stavy systému označené modrou barvou.
Operace koordinátora – jsou vyznačeny červenými šipkami.
Operace kontrolora – jsou vyznačeny zelenými šipkami.
Operace supervizora – jsou vyznačeny modrými šipkami.
4.3 Emendace a značkování chyb
Ruččást anotace probíhá v prostředí anotačního editoru feat. Anotátor opraví text na
příslušných rovinách, upraví vztahy mezi výrazy, které si na jednotlivých rovinách vzájemně
odpovídají (implicitně jsou všechny vztahy 1:1), chyby opraví (emenduje) a u některých chyb
přidá příslušnou chybovou značku. Při emendaci i značkování se anotátor řídí Manuálem pro
anotaci.6 Na obr. 6 je ukázka anotace části věty z výše uvedeného příkladu (obr. 3 a 4)
v prostředí anotačního editoru. Příklad seděla jsem a vzpomněla mému prvnímu přítelu byl
opraven na seděla jsem a vzpomněla si na svého prvního přítele.
Obr. 6. Ukázka anotace části věty z příkladu na obr. 3 a 4 v prostředí anotačního editoru feat
4.4 Kontrola a adjudikace
Jakmile anotátor dokončí anotaci svého textu, uloží text do databáze, odkud si jej vytáhne
supervizor ke kontrole. Upozorní anotátora na chyby v emendaci i anotaci, ten chyby opraví,
poté opravy zkontroluje supervizor a výsledkem je nakonec správně emendovaný a anotovaný
6 http://utkl.ff.cuni.cz/~rosen/public/anotace.pdf
text. Supervizor i anotátor se musí řídit Manuálem pro anotaci. Ke kontrole anotace slouží také
programy používané k automatickému zpracování – viz níže oddíl 4.5.3.
Na obr. 7 je uvedena ukázka chybně anotované části věty z příkladu na obr. 6 v prostředí
anotačního editoru (dep místo agr), na obr. 8 je pak uvedena správná anotace této části textu.
Obr. 7. Ukázka chybně anotované části věty
Obr. 8. Ukázka správně anotované části věty
Každý text je značkován dvěma nezávislými anotátory, a proto se jejich značkování může lišit, i
když se oba řídí týmž manuálem pro anotaci. Viz porovnání interpretace části textu z obr. 6 a
obr. 8:
Anotátor1: Seděla jsem a vzpomněla si na svého prvního přítele (obr. 6)
Anotátor2: Seděla jsem a vzpomínala na svého prvního přítele (obr. 8)
Porovnání odlišných anotací je v kompetenci adjudikátora, který obě anotace za pomoci
adjudikační funkce aplikace feat porovná a z obou anotací vytvoří výsledný text, který musí být
také v souladu s Manuálem pro anotaci. Tento text je poté zařazen do žákovského korpusu.
4.5 Automatické značkování textů na základě provedené manuální
anotace
Poslední fází chybové anotace žákovských textů je jejich automatické zpracování pomocí sady
počítačových programů. Automaticky se tak rozšiřuje a upravuje chybové značkování a doplňují
se lingvistické údaje, které usnadní vyhledávání v korpusu.
4.5.1 Automatické doplnění lingvistických informací
Pro vyhledávání v korpusu žákovských textů je velmi praktické, když uživatel může vyhledávat
podle základních tvarů slov nebo podle slovních druhů, pádů a podobně, stejně jako například
v rozsáhlých textových korpusech Českého národního korpusu (ČNK). Tyto informace se však
při manuální chybové anotaci do textu nevkládají, anotace by tak kladla příliš vysoké požadavky
na anotátory, a to časové i intelektuální (podrobná znalost značek, rozlišování mezi slovními
druhy, pády aj.). Proto se tyto informace doplňují zcela automaticky.
Na rovině R2 mají být jen správné české věty. Každému slovu se přiřadí jeden základní
tvar (lemma) a jedna morfologická značka (tag). K tomuto účelu používáme programy pro
morfologickou analýzu a morfologickou disambiguaci, na popis jejich principů zde však není
prostor, podrobný postup lemmatizace a morfologické anotace je popsán například ve článcích
(Jelínek, 2008) a (Jelínek a Petkevič, 2011). Morfologické značky jsou stejné jako v korpusech
ČNK, jejich detailní popis lze nalézt například na http://ucnk.ff.cuni.cz/bonito/znacky.php.
U slov na rovině R1 je situace složitější. Věta nemusí být správná, i když se skládá
z existujících českých slov, proto na ni nelze bezpečně aplikovat automatickou morfologickou
anotaci. Slovo na rovině R1 bude označkováno podle toho, nakolik se shoduje s odpovídajícím
slovem na rovině R2. Pokud se spojené tvary na R1 a R2 shodují, převezme tvar na rovině R1
lemma i tag od slova na rovině R2. Pokud se tvary liší, ale slovo na R1 je jen odlišným tvarem
slova na R2, přiřadí program tvaru na R1 stejné lemma jako na R2 a také všechny odpovídající
značky, například kdyby tvar na R1 byl je a tvar na R2 jeho, dostal by tvar na R1 lemma on a
značku pro zájmeno v akuzativu (střední rod i množčíslo). Pokud se tvary liší a nemohou se
ani shodovat v lemmatu, dostane tvar na R1 všechny kombinace značek a lemmat, které určitý
tvar může mít (např. tvar je by za takových okolností dostal jak lemma být a značku pro sloveso,
tak lemma on či oni a značku pro zájmeno v akuzativu).
Na příkladu je vidět chybové značkování spolu s doplněnými lemmaty a morfologickými
značkami. Tvary na rovinách R0 a R1 se shodují, na rovině R2 se liší tři slova ze čtyř:
R0: Oba jsou stejné důležité.
R1: Oba jsou stejné důležité.
R2: Oboje je stejně důležité.
Na rovině R2 se každému slovu určilo jedno lemma a jedna značka (např. tvar „je“ byl označen
jako tvar slovesa „být“ v přítomném čase). Na rovině R1 převzalo slovo „důležité“ lemma i
značku (adjektivum v nominativu singuláru neutra) od tvaru na R2, protože se s tímto tvarem
shoduje. Ostatní slova se s tvarem na R2 neshodují, přiřadily se jim tedy všechny možnosti
morfologické analýzy (žádné slovo ale nemá více potenciálních lemmat).
4.5.2 Automatické rozšíření a úprava chybového značkování
V koncepci chybové anotace se počítalo s tím, že některé typy chyb je možné spolehlivě označit
automaticky a lze tak ušetřit práci anotátorům. Především se to týká formálních chyb na rovině
R1, u nichž se prostým porovnáním vzájemně si odpovídajících tvarů na rovinách R0 a R1 zjistí
typ formální chyby (např. chyba ve znělosti hlásky nebo v palatalizaci). Nutným předpokladem
je samozřejmě správná emendace. Vzhledem ke složitosti české slovotvorby (morfematické švy
jsou velmi často zastřené, flektivní koncovky nelze zcela oddělit od slovotvorných přípon) však
nelze chybu spolehlivě automaticky lokalizovat, tedy určit, zda žák chyboval ve flexi, nebo
v základu slova. Toto rozlišení je nutné provést manuálně. Chyby na úrovni R2 je mnohem
obtížnější spolehlivě automaticky klasifikovat, v koncepci anotace tak bylo pro automatické
značkování vyhrazeno jen několik dílčích jevů.
4.5.2.1 Automatické doplnění formálních chyb na rovině R1
Automatické doplnění formálních chyb na rovině R1 je založeno na srovnání tvaru původního
slova na rovině R0 a emendovaného slova na rovině R1. Při manuální anotaci (viz výše) se na
rovině R1 značkují tyto chyby: nesprávný tvar (incor), chybná hranice slov (wbd), nově utvořené
či cizí slovo (fw). Automatické značkování chyb s tímto tříděním nesouvisí, např. u chybně
psaných českých slov může být formální chyba doplněna jak u slov, u nichž chyba typu incor
nemá být vyznačena (chybný tvar na R0 se vyslovuje stejně jako emendovaný tvar na R1, např.
prozba/prosba či objet/oběd), tak u slov, která mají být označena incorBase (např. hitit/chytit,
dedečka/dědečka) nebo incorInfl (např. každécho/každého, venkovou/venkovem).
Typologie formálních chyb na R1 vyjadřuje, čím se chybný tvar na R0 liší od emendovaného
tvaru na R1. Až na drobné výjimky (např. podkategorie chyb ve znělosti) neurčuje příčinu
chyby, pouze pojmenovává jednotlivé typy často se opakujících chyb. Typů formálních chyb je
cca 40, po dalším nárůstu počtu emendovaných textů (díky většímu počtu dokladů pro jednotlivé
typy) bude možné třídění pozměnit: zjemnit, přidat další typy, nebo naopak zjednodušit.
4.5.2.1.1 Třídění formálních chyb na rovině R1
Dosud implementované formální chyby uvádíme v přehledné tabulce s příklady. Některé typy
jsou čistě pravopisné (velká/malá písmena, psaní háčku ve spojeních dě/tě/ně, spodoba znělosti
aj.), výslovnost slova se chybou nemění. Jiné typy vždy ovlivňují výslovnost (kvantita vokálů,
vkladné e). Další typy mohou být v určitém kontextu pouze formální, v jiném kontextu ovlivňují
výslovnost (psaní i/y, záměna c/k). Chyby, které nespadají do žádné přesně definované kategorie,
se třídí podle počtu rozdílných znaků a podle místa, kde se rozdíl projevuje. Tyto chyby jsou
uvedeny na konci tabulky.
V prvním sloupci tabulky je typ automaticky přiřazené formální chyby, v druhém sloupci
popis chyby, ve třetím dva příklady, pokud se v dosud anotovaných textech vyskytly, jinak
příklad jediný. Typy, které se v dosud anotovaných textech nevyskytly, v tabulce uvedeny
nejsou.
Typ chyby
Popis chyby
Příklad
formCap0
chybně použité malé písmo
evropě/Evropě; štědrý/Štědrý
formCap1
chybně použité velké písmeno
Staré/staré; Rodině/rodině
formCaron0
chyba v diakritice chybí háček
vecí/vě; sobe/sobě
formCaron1
chyba v diakritice ček navíc
břečel/brečel; bratřem/bratrem
formDiaE
chyba v diakritice ě/é, popř. é/ě
usmévavé/usměvavé; poprvě/poprvé
formDiaU
chyba v diakritice ú/ů, popř. ů/ú
nemúžeš/nemůžeš; ůkoly/úkoly
formDtn
chyba v psaní dě/tě/ně, di/ti/ni
ňikdo/nikdo; ješťerka/ještěrka
formQuant0
chyba v diakritice chybí čárka nad vokálem
vzpominám/vzpomínám; doufam/doufám
formQuant1
chyba v diakritice čárka nad vokálem navíc
ktérá/která; hledát/hledat
formVoiced0
chybně neznělá / spodoba znělosti
stratíme/ztratíme; nabítku/nabídku
formVoiced1
chybně zně / spodoba znělosti
zbalit/sbalit; nigdo/nikdo
formVoicedFin0
chybně neznělá na konci slova
Kdyš/Když; vztach/vztah
formVoicedFin1
chybně znělá na konci slova
přez/přes; pag/pak
formVoiced
ostatní chyby ve znělosti
pěžky/pěšky; hodili/chodili
formY0
chyba i/y (chybně i)
pražskích/pražských; vipije/vypije
formY1
chyba i/y (chybně y)
hlavným/hlavním; líbyl/líbil
formYJ0
chybně zaměněy a j (y)
yaké/jaké; yazykem/jazykem
formGH0
chybně zaměněg/h
gost/host; gorký/horký
formCK0
chybně zaměněc/k, mimo palatalizaci (c)
Atlantic/Atlantik
formPalat0
neprovedená palatalizace (k,g,h,ch)
amerikě/Americe; matkě/matce
formEpentE0
chyba v epentet. e (chybí e)
najdnou/najednou; domček/domeček
formEpentE1
chyba v epentet. e (chybně e navíc)
rozeběhl/rozběhl; účety/účty
formEpentJ0
chybí j po i před vokálem
napie/napije
formEpentJ1
chybně vložené j po i před vokálem
dijamant/diamant
formGemin0
chybně nezdvojené písmeno
polostrově/poloostrově
formGemin1
chybně zdvojené písmeno
essej/esej; professor/profesor
formJe0
chyba je/ě (chybně ě)
ubjehlo/uběhlo; Nejvjetší/Největší
formJe1
chyba je/ě (chybně je)
vjeděl/věděl; vjeci/věci
formMne0
chyba mně/mě (chybně mě)
zapoměla/zapomněla;
nejvýznamějších/nejvýznamnějších
formMne1
chyba mně/mě (chybně mně, mňe, mňě)
mněla/měla; rozumněli/rozuměli
formProtJ0
chyba v protetickém j (chybí j)
sem/jsem; menoval/jmenoval
formProtJ1
chyba v protetickém j (chybně j navíc)
jse/se; jmé/
formProtV1
chyba v protetickém v (chybně v navíc)
vosm/osm; vopravdu/opravdu
formMeta
metateze, prohození dvou znaků
dobrodružtsví/dobrodružství;
provůdce/průvodce
Jiné chyby (blíže nerozlišené), pouze jeden znak
formMissChar
jiný chybějící znak (chybí jeden znak)
protže/protože; oňostroj/ohňostroj
formRedunChar
jiný přebývající znak (přebývá jeden znak)
opratrně/opatrně; zrdcátko/zrcátko
formSingCh
chyba vznikla záměnou jednoho znaku za
druhý
otevřila/otevřela; vezmíme/vezmeme
Jiné chyby (blíže nerozlišené), více znaků
formPre
podrobněji neurčená chyba v prefixu
poletěla/letěla; potrávíme/trávíme
formHead
podrobněji neurčená chyba na začátku slova
(ne v prefixu)
rustala/zůstala; žijna/října
formTail
podrobněji neurčená chyba na konci slova
holkamá/holkami; nezajína/nezajímá
formUnspec
podrobněji neurčená chyba kdesi uprostřed
slova
provudkyně/průvodkyně; kreénu/kterému
Tabulka 2: Třídění formálních chyb na rovině R1
4.5.2.1.2 Automatická úprava chyb wbd (chyby v hranici slova)
Chyby v hranici slov wbd jsou manuálně rozdělovány do tří kategorií: wbdPre (chybně oddělený
prefix nebo chybně připojená předložka), wbdComp (chybně rozdělené složené slovo) a
wbdOther (ostatní chyby v hranici slova). Automaticky se tyto chyby doplňují o informaci, zda
je na rovině R0 tvar chybně rozdělený (k typu chyby se připojí -Split, např. wbdPreSplit, chybně
oddělený prefix) nebo je tvořen chybně spojenými slovy (k typu chyby se připojí -Joined, např.
wbdOtherJoined, chybně spojená dvě slova, ne předložka).
4.5.2.2 Automatická úprava a rozšíření chybové anotace na rovině R2
Většina chybové anotace na rovině R2 se provádí manuálně, variabilita chybných struktur je totiž
natolik vysoká, že se spolehlivá automatická chybová anotace stává velmi obtížným úkolem. Při
anotaci se tak automaticky zpracovávají jen některé dílčí úlohy. Doplňuje se označení chyby
v reflexivitě (značka rflx) u chyb dep (závislost), ref (zájmenný odkaz) a agr (shoda). Na tři
subkategorie se rozděluje chyba vbx (složený slovesný tvar). Označují se nadbytečná a chybějící
slova (odd, miss). Značkuje se chyba ve slovosledu wo. Program se může opřít o automaticky
provedenou morfologickou anotaci a lemmatizaci, při rozpoznávání chyb tedy může využívat
morfologických značek (např. sloveso v infinitivu) a základních tvarů slov.
4.5.2.2.1 Doplnění chyby v reflexivitě rflx
Pokud se v rámci chyby dep (závislost), ref (zájmenný odkaz) nebo agr (shoda) opravuje také
reflexivum (se, svůj), automaticky se k této chybě připojí značka rflx, jako v následujícím
příkladu:
R1: Eva stojí před její dům
R2: Eva stojí před svýmdep,rflx domemdep
4.5.2.2.2 Rozdělení chyby ve složeném slovesném tvaru vbx
Chyba ve složeném slovesném tvaru vbx se automaticky rozděluje na tři podkategorie: chyba
v analytickém slovesném tvaru cvf, chyba v konstrukci s modálním nebo fázovým slovesem mod
a chyba ve sponově-jmenném přísudku vnp. Mezi chybami se rozlišuje automaticky na základě
lemmat a morfologických značek na rovině R2, popř. i na rovině R1, a to jak u slov přímo
propojených hranou, tak u odkazů.
Chyba v konstrukci s modálním nebo fázovým slovesem předpokládá na rovině R2
modální či fázové sloveso (obvykle v odkazu) a sloveso v infinitivu, popř. záměnu jednoho
modálního slovesa za druhé či jednoho fázového slovesa za druhé:
R1: nemůžu už pokračoval dál
R2: nemůžu už pokračovatmod dál
Chyba v analytickém slovesném tvaru předpokládá na rovině R2 správný analytický slovesný
tvar (popř. jen samotné příčestí, je-li na rovině R1 nadbytečné pomocné sloveso). Za složený
slovesný tvar považujeme: préteritum, složené futurum, kondicionál (vč. kondicionálu se
spojkami aby/kdyby) a opisné pasivum.
R1: nestačí, aby všechno poznat
R2: nestačí, aby všechno poznalcvf
Chyba ve sponově-jmenném přísudku se na rovině R2 nebo R1 týká spojení spony (tvar slovesa
být) a jména v nominativu nebo instrumentálu (substantiva, adjektiva, popř. i zájmena či
číslovky). V žákovských textech je nejčastější chybou tohoto typu elipsa spony:
R1: přesně nevím co pro mě nejdůležitější
R2: přesně nevím, co je pro mě nejdůležitější
4.5.2.2.3 Doplnění chyby ve slovosledu wo
Považuje-li anotátor za nutné opravit slovosled ve větě, tj. je-li slovosled ve větě na rovině R1
chybný, nemusí sám tuto chybu anotovat, při automatické anotaci tuto chybu označí program.
Anotace chyby vychází ze srovnání slovosledu na rovinách R1 a R2 a z morfologických značek a
lemmat na rovině R2. Chybová značka se přiřazuje závislým větným členům (např. klitikám).
4.5.3 Využití systému pro automatické zpracování textů ke kontrole anotace
Systém vyvinutý pro automatickou chybovou anotaci lze také použít ke kontrole anotace (před
adjudikací). Do systému byly zahrnuty nástroje, které v průběhu zpracování anotovaného textu
vypisují chybějící a pravděpodobně nesprávné chybové značky. Není-li například pro slovní tvar
na rovině R1 možné nalézt český základní tvar, nebylo pravděpodobně chybné slovo z roviny R0
vůbec emendováno (nejde-li o vlastní jméno nebo slovo, které se záměrně neemenduje). Jestliže
bylo slovo na rovině R0 emendováno na rovině R1 a nebylo přitom chybově anotováno, ověří se
rozdíl mezi tvary na R0 a R1; pokud se zjištěná formální chyba projevuje také ve výslovnosti,
chybí označení chyby incor (např. emendovaná, ale neoznačená chyba v kvantitě vokálu).
Podobným způsobem se ověřuje i správnost a úplnost chybové anotace na rovině R2. Použitím
programu pro tyto účely nelze vyhledat všechny nedostatky v manuální emendaci a chybové
anotaci, je však možné rychle posoudit celkovou kvalitu provedené práce a upozornit anotátora
na některé jeho chyby.
4.5.4 Automatická identifikace ustálených kolokací
Poslední automatickou procedurou zpracování textu na R2 je automatická identifikace a
označení frazémů a ustálených spojení slov, které umožní vyhledávání chyb nerodilých mluvčích
v použití frazémů, idiomů a ustálených kolokací. Označeny jsou výskyty jak nominálních
(neslovesných) frazémů a slovesných frazémů, tak přísloví a přirovnání. Dále uvádíme příklady
výskytu frazémů ve zpracovaných textech, rozdělené podle typů.
4.5.4.1 Neslovesné frazémy
láska na první pohled; krok po kroku; jak se říká; na poslední chvíli; od rána do večera;
s vypětím všech sil; psí počasí; havraní vlasy; plamenná řeč; stověžatá Praha
4.5.4.2 Slovesné frazémy
nechat to, jak to je; dělat si srandu; nevěřit svým očím; mluvit sám za sebe; nemít nic v hlavě;
udělat první krok; mít smysl pro humor; dělat si legraci; mít za lubem; spadnout z nebe;
vydechnout naposledy; dát na pospas
4.5.4.3 Přísloví
všude dobře, doma nejlíp; bez práce nejsou koláče
4.5.4.4 Přirovnání
být chytrý jako liška; být silný jako medvěd; být jako med
5. Perspektivy
5.1 Automatická anotace
Při anotaci se nabízí využít automatických postupů již při aplikaci na chybový text, např.
předzpracování textu pro usnadnění úkolu anotátorů, nebo pro plně automatickou anotaci většího
objemu textů, kterou z kapacitních důvodů nelze zajistit spolehlivějším manuálním způsobem.
Některé pilotní studie v tomto směru už existují. Mezi kandidáty patří automatická morfologická
analýza, disambiguace a lemmatizace s využitím více vzájemně odlišných metod, které
u chybných tvarů vedou k různým výsledkům. Porovnání těchto výsledků by mohlo vést
k automatickému stanovení hypotézy o typu chyby (Díaz-Negrillo et al., 2010). Další možností
je využití automatického korektoru k emendaci. Pro chybový i opravený text pak lze uvažovat
o automatické syntaktické analýze, která by mohla využívat i některé syntakticky orientované
aspekty chybové anotace, jako např. odkazy u chyb ve shodě a v rekci.
Zatím jsme k automatické emendaci zkoušeli využít existující korektor pravopisu
(Richter, 2010), který se snaží na základě slovníku, morfologické analýzy a stochastického
modelu češtiny, natrénovaného na jazykově správných textech, nahradit chybné slovní tvary
takovými, které jsou korektní, co nejméně se liší od původních a zapadají do lokálního kontextu.
Tímto způsobem lze opravit i některé tvary, které jsou samy o sobě správné, ale v kontextu
negramatické, např. lokálně zjistitelné chyby ve shodě. V provedeném experimentu bylo ze
vzorku 9 372 tokenů (7 995 bez interpunkce) opraveno nezávisle dvěma anotátory stejným
způsobem 13 % (celkem 1 189 tokenů) na R1 a 16 % (celkem 1 519 tokenů) na R2. Na R1
dosáhl korektor úspěšnosti 72 % (je to hodnota F-measure při přesnosti 74 % a pokrytí 71 %,
respektive 69 % a 76 % při jiném nastavení parametrů). Úspěšnost na R2 je výrazně nižší
(53 %).
Z těchto předběžných výsledků je zřejmé, že plně automatická emendace (a tím i chybová
anotace) je zatím myslitelná jen při výrazně snížených nárocích na míru chyb v korpusu. Proto se
chceme zaměřit na kombinaci automatické a ruční anotace, kde by automatické metody nabízely
anotátorovi nejpravděpodobnější variantu opravy a chybové klasifikace, ale poslední slovo by
zůstávalo na anotátorovi.
5.2 Korpusový manažer
Pro využívání žákovského korpusu CzeSL, jako je vyhledávání v jeho datech, pořizování statistik
a další funkce, je nezbytný korpusový manažer. Koncepce korpusového manažeru vychází z
anotačního schématu o třech rovinách (R0, R1, R2), na nichž jsou korpusová data v různých
podobách uložena. Manažer by měl splňovat tyto základní požadavky:
umožňovat zpracování dat v třírovinném formátu použitého anotačního editoru feat
pokrýt plánovaný rozsah korpusu s dostatečnou rezervou pro budoucí rozšíření (cca
5 milionů slov)
reagovat na dotazy s rozumně dlouhou odezvou při předpokládané zátěži více uživatelů
současně (předpokládá se přístup nejvýše dvaceti uživatelů současně).
Manažer by měl uživateli poskytovat dostatečně bohatý repertoár vyhledávacích funkcí
vyvolávaných na základě uživatelských dotazů do korpusu. Rovněž by měl umět vytvářet
souhrnné informace v podobě filtrů, statistik, a to zvláště v podobě frekvenčních seznamů a
kolokačních měr, a tříděných seznamů.
5.2.1 Dotazy do korpusu
Korpusový manažer by měl umět v korpusu vyhledávat podle dotazu na formu/lemma/značku
v libovolné kombinaci, případně s dotazem na typ chyby a odkaz na libovolné rovině. Vyhledat
příslušná data na základě většího množství forem, lemmat či značek mají umožnit regulární
výrazy, včetně možnosti dotazovat se na pozici relativně k jiné pozici i na označené frazémy.
Dotazy na jednotlivé morfologické kategorie mají zahrnovat i specifikaci identity hodnot u více
pozic (například k vyjádření shody). Dotaz může zahrnovat i požadavek zobrazit odpovídající
pozice na ostatních rovinách (včetně roviny s přepsaným textem) spolu s volitelným kontextem
(viz podrobněji dále). Manažer by měl umožňovat i hledání v neanotovaných datech. U všech
dotazů by zároveň měl být k dispozici metadatový filtr. Zadané dotazy by se měly uchovávat
v zásobníku dotazů. Manažer by měl také umožňovat export výsledků dotazu ve vhodném
formátu a také generování, ukládání a správu subkorpusů.
Dotazy na pozice by měly dále zahrnovat mj. tyto typy:
dotaz na všechny pozice, které na určité rovině mají/nemají svůj protějšek
dotaz na pozice, které korespondují se sousedními rovinami vztahem 1:1:1/m:n:o (kde m,
n, o jsou nezáporná celá čísla)
dotaz na identitu formy/lemmatu/značky na rovině R0 se značkou na rovině R1 a R2
různé statistiky forem, lemmat, značek, typů chyb.
Manažer by měl umět zpracovat i dotazy týkající se změny slovosledu, zejména vyhledat
všechny přesunuté pozice s danými vlastnostmi, dále věty, kde k něčemu takovému došlo, a
dotčené pozice (uzly na hranách, které přesunutý uzel překřížil svou hranou). Dotazy na typy
chyb by měly zahrnovat mimo jiné tyto možnosti: určit počet dotčených pozic na sousedních
rovinách; zjistit pozici, na kterou se odkazuje; zjistit výchozí pozici odkazu.
Obecně by korpusový manažer měl být schopen na výstupu zobrazovat korpusové pozice,
typy chyb, odkazy, metadata a jejich kombinace. Hlavním typem výstupu by měly být
konkordančřádky obsahující příslušný úsek textu. Na přání uživatele by manažer měl zobrazit
roviny podobně jako v anotačním nástroji feat s tím, že na konkordančním řádku je implicitně
rovina R0 s možností parametrizace a zobrazování jiné roviny. Manažer by měl umět zobrazovat
ž odlišné formy na jiných rovinách i v lineárním zobrazení na konkordančním řádku a stejně
tak chyby, značky, lemmata, a to např. po kliknutí jen na pozici nebo po přejetí myši. Výstupní
data by se měla zobrazovat s ohledem na rozlišení běžných a privilegovaných uživatelů korpusu.
6. Závěr
Chybová anotace je velmi náročný úkol, ale plody takového úsilí mohou být velmi užitečné.
Uživatel korpusu s chybovou anotací má přístup ke statistickým údajům o typech chyb, které
nelze získat jiným způsobem a které podávají věrný obraz mezijazyka studentů. To umožňuje
modifikovat pedagogické metody a materiály používané při výuce tak, aby řešily nejčastější
slabiny v jazykových dovednostech studentů s ohledem na jejich úroveň znalostí a mateřštinu.
Anotace přináší řadu podnětů, které se promítají do anotačního manuálu a školicích
setkání. Důležitým nástrojem pro zdokonalování popisu chybové taxonomie i vlastního
anotačního schématu je také internetové fórum, které slouží k řešení aktuálních problémů
anotátorů. Reakce anotátorů již umožnily alespoň částečně zpřesnit pokyny k rozhodování
v některých obtížnějších případech, např. při nejistotě o intenci autora, inferenčních chybách, o
optimální míře intervence do původního textu a o způsobu anotace nestandardních variet jazyka.
Ve všech těchto případech je třeba skloubit požadavky potenciálních uživatelů korpusu
s imperativem konzistentní anotace.
Literatura
BELZ, J. – VYATKINA, N. (2005): Learner Corpus Analysis and the Development of L2
Pragmatic Competence in Networked Intercultural Language Study: The Case of German Modal
Particles. Canadian Modern Language Review, 62, č. 1, s. 17–48.
CARLETTA, J. C. (1996): Assessing agreement on classification tasks: the kappa statistics.
Computational Linguistics, 22, č. 2, s. 249–254.
ČESKÝ NÁRODNÍ KORPUS (2000–2010). Praha: Ústav Českého národního korpusu FF UK.
Dostupný z http://korpus.cz.
DÍAZ-NEGRILLO, A. – FERNÁNDEZ-DOMÍNGUEZ, J. (2006): Error Tagging Systems for
Learner Corpora. Resla, č. 19, s. 83–102.
DÍAZ-NEGRILLO, A. – MEURERS, D. – VALERA, S. – WUNSCH, H. (2010): Towards
interlanguage POS annotation for effective learner corpora in SLA and FLT. Language Forum,
36, č. 1–2, s. 139–154. Special Issue on Corpus Linguistics for Teaching and Learning. In
Honour of John Sinclair.
FITZPATRICK, E. – SEEGMILLER, M. S. (2004): The Montclair electronic language database
project. In: U. Connor – T. A. Upton (eds.), Applied Corpus Linguistics: A Multidimensional
Perspective. Rodopi, s. 223–238.
HANA, J. – ROSEN, A. – ŠKODOVÁ, S. – ŠTINDLOVÁ, B. (2010): Error-tagged learner
corpus of Czech. In: Proceedings of the Fourth Linguistic Annotation Workshop. Uppsala:
Association for Computational Linguistics.
JELÍNEK, T. (2008): Nové značkování v Českém národním korpusu. Naše řeč, 91, s. 13–20.
JELÍNEK, T. – PETKEVIČ, V. (2011): Systém jazykového značkování současné psané češtiny.
In: Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha:
Nakladatelství Lidové noviny / Ústav českého národního korpusu, s. 154–170.
LEŃKO-SZYMAŃSKA, A. (2004): Demonstratives as anaphora markers in advanced learners’
English. In: G. Aston – S. Bernardini – D. Stewart (eds.), Corpora and Language Learners.
Amsterdam: Benjamins, s. 89–107.
DELING, A. – WALTER, M. – KROYMANN, E. – ADOLPHS, P. (2005): Multi-level error
annotation in learner corpora. In: Proceedings of Corpus Linguistics 2005. Birmingham.
PAJAS, P. – ŠTĚPÁNEK, J. (2006): XML-Based Representation of Multi-Layered Annotation
in the PDT 2.0. In: Proceedings of LREC 2006 Workshop on Merging and Layering Linguistic
Information. Genoa: ELRA.
RICHTER, M. (2010): Pokročilý korektor češtiny. Diplomová práce. Praha: Matematicko-
fyzikální fakulta Univerzity Karlovy v Praze.
ROGATCHEVA, S. (2009): “I’ve only found the answer a few days ago:” aspect use in
Bulgarian and German EFL writing. In: C. Prado-Alonso – L. Gómez-García – I. Pastor-Gómez
– D. Tizón-Couto (eds.), New Trends and Methodologies in Applied English Language Research.
Diachronic, Diatopic and Contrastive Studies, Frankfurt: Peter Lang, s. 255–278.
SELINKER L. (1972): Interlanguage. IRAL, 10, č. 3, s. 209–231.
SCHMIDT T. (2009): Creating and working with spoken language corpora in EXMARaLDA.
LULCL II: Lesser Used Languages & Computer Linguistics II, s. 151–164.
STRITAR, M. (2009): Slovene as a Foreign Language: The Pilot Learner Corpus Perspective.
Slovenski jezik – Slovene Linguistic Studies, 7, s. 135–152.
ŠEBESTA, K. (2010): Korpusy češtiny a osvojování jazyka. Studie z aplikované
lingvistiky/Studies in Applied Linguistics, sv. 1, č. 2, s. 11–34.
ŠEBESTA, K. (2011): Akviziční korpusy. In: Minulost, přítomnost a budoucnost v jazyce a v
literatuře. Ústí nad Labem 1.–3. 9. 2010. Ústí nad Labem: PF UJEP.
ŠKODOVÁ, S. ŠTINDLOVÁ, B. HANA, J. ROSEN, A. (2011): Víceúrovňová anotace
českého žákovského korpusu. In: Korpusová lingvistika Praha 2011, sv. 3: Gramatika a
značkování korpusů. Praha: Nakladatelství Lidové noviny / Ústav Českého národního korpusu,
s. 208–225.
ŠTINDLOVÁ, B. (2011): Manuál pro přepis psaných materiálů. Dostupné z
http://utkl.ff.cuni.cz/~rosen/public/transkripce.pdf,
http://utkl.ff.cuni.cz/~rosen/public/transkripce_doplnek.
ŠTINDLOVÁ, B. (2011): Evaluace chybové anotace v žákovském korpusu češtiny. Disertač
práce. Praha: Filozofická fakulta Univerzity Karlovy v Praze.
ŠTINDLOVÁ, B. – ŠKODOVÁ, S. – HANA, J. – ROSEN, A. (2011): CzeSL – an error tagged
corpus of Czech as a second language. PALC 2011 – Practical Applications in Language and
Computers, Lodž 13.–15. dubna 2011. Výběr z příspěvků vyjde v nakladatelství Peter Lang v
edici Łódź Studies in Language.
ŠTINDLOVÁ, B. – ROSEN, A. (2012): Návod k anotaci chybového korpusu, verze 5. Dostupné
z http://utkl.ff.cuni.cz/~rosen/public/anotace.pdf.
VAN ROOY, B. – SCHÄFER, L. (2003): An evaluation of three POS taggers for the tagging of
the Tswana Learner English Corpus. In: D. Archer – R. Rayson – A. Wilson – T. McEnery
(eds.), UCREL, Proceedings of the Corpus Linguistics 2003 Conference Lancaster University
(UK), 28–31 March 2003. Lancaster: Lancaster University, s. 835–844.
WAIBEL, B. (2008): Phrasal verbs. German and Italian learners of English compared.
Saarbrücken: VDM.
Summary
Error Annotation of Texts in the Czech Learner Corpus
Milena Hnátková, Petr Jäger, Tomáš Jelínek, Vladimír Petkevič,
Alexandr Rosen, Barbora Štindlová
This paper deals with the annotation of the corpus CzeSL the first learner corpus of Czech. The
annotation should be understood in a broader sense: as the whole processing of a manually
written input text up to its output constituted by an emended and linguistically annotated text. In
addition to the detailed description of the linguistic annotation proper, i.e. lexical, morphological
and syntactic emendation and error annotation in a three-level annotation scheme, we also depict
related matters: transcription of input texts to electronic form, management and organization of
the annotation and briefly also annotation tools and a corpus manager being prepared.
Klíčová slova: žákovský korpus, čeština, chybová anotace, vícerovinná anotace
Key words: learner corpus, Czech, error annotation, multi-level annotation
... Analýza žákovského korpusu CzeSL-SGT (Šebesta et al., 2014), jež se soustředila na subkorpus obsahující pouze texty žáků se slovanským mateřským jazykem (dále jen slovanský subkorpus), odhalila problém cizinců s Gsg Mi, kdy dochází v rámci tvrdého vzoru ke konkurenci koncovek -a a -u. K identifikaci chyb v prvním kroku byla použita automatická chybová anotace 4 (Petkevič et al., 2012), která vyhodnocovala 2 Termín žák zde používáme ve významu učící se (ang. learner), srov. ...
Article
Full-text available
Endings-a and-u of genitive singular inanimate masculine nouns: a corpus approach to teaching Czech as a foreign language. The aim of this study is the issue of competitive endings -a and -u of genitive singular inanimate masculine nouns in the context of foreign language teaching. The emphasis is on a systematic description of genitive endings-a and-u using corpus methods. In the first step, we analysed the part of the learner corpus including texts of Slavic language speaking students. The results have shown that students quite often confuse both of these endings: the correct ending -u frequently substituted by -a. Next, we examined the competition of genitive endings within the corpus of contemporary Czech using the Morfio tool that identifies relevant word pairs for further analysis. The identified pairs were divided into three categories: a) nouns with the same etymological origin and meaning, b) nouns with the same etymological origin but different meaning, and c) nouns with inconclusive competition of genitive endings. A systemised list of pairs, along with the proportional and absolute frequency given, is a source of information on the use of appropriate endings, with respect to frequency. The information is crucial for students of Czech as a foreign language in order to choose an appropriate variant with the ending that is closest to the current usage. Based on the analysed material, we proposed three model corpus exercises: two direct exercises for determining a more frequent variant, and one indirect exercise-taking into account semantic differences in the usage of particular endings.
... K jazykové výuce mohou být využity různé typy korpusů. Široce jsou používány korpusy žákovské, jež jsou sestavovány z textů vytvořených nerodilými mluvčími a slouží k analýze chyb (Gilquin, Granger, & Paquot, 2007;Petkevič et al., 2012). Dále lze těžit z korpusů současného jazyka, které ukazují přirozený jazyk rodilých mluvčích, a také korpusů mluvených (též mluvených žákovských korpusů, srov. ...
Thesis
Full-text available
Recently, we have experienced a rapid development in information technologies which is closely linked with the development of language corpora. Language corpora provide an indispensable amount of authentic data and information about how the real language works, therefore it is no wonder they deserve our attention in language teaching as well. We have seen a growing interest in the use of corpus resources in teaching Czech as a foreign language, however, the methodological issues dealing with specific applications have so far been rather neglected. Therefore, the present dissertation aims to systematically map the possibilities of incorporating corpora into current language teaching while considering the specific language needs of foreigners based on their typical errors. The emphasis is not only on a coherent methodological framework, but also on a practical demonstration of the work with corpus data, which is intended not only for corpus specialists but especially for teachers and their students. The basis of the work lies in an extensive analysis mapping the most problematic phenomena in teaching Czech as a foreign language based on data from the CzeSL-SGT learner corpus. The research was carried out on the data containing texts written by students with a Slavic mother tongue. Automatic error annotation has shown that problems with writing long vowels are the most frequent ones. Furthermore, the most interesting phenomena, which were analysed in detail in the case studies, include: deverbal nouns ending in -ání vs. -aní, past participle, and competitive endings -a and -u in the genitive singular of inanimate masculine nouns. The corpus approach in teaching was presented in detail in these examples following a proposed three-step methodology: the identification of a problematic language phenomenon based on a learner corpus, its classification based on general corpus data, and the generalisation of results. Each case study also offered author’s corpus exercises which could be used in resolving the presented issues with students. This doctoral thesis also presents a didactical experiment conducted on students of Czech studies. The aim of the experiment was both to examine the possibility of introducing corpus methods into language teaching and to verify whether such an approach brings measurable advantages in the language development of students. The experiment confirmed that the proposed procedure, from the identification of a language problem, to its categorization based on general corpus data, and finally to the generalization of results, is functional in practice. In addition, the results pointed out that the group with the corpus approach in the long-term perspective tends to improve more in comparison to the traditional group. Based on the present research, the most common issues of non-native Czech language from the perspective of Slavic speakers were discussed. Secondly, a coherent framework for examining language data with regard to teaching has been systematised and described. Finally, the functionality of this method has been verified in practice and original corpus exercises have been made available for further use.
... This approach can contribute to a better understanding of the process of language acquisition. Existing error classification systems in projects like Merlin (see [1] and [7]) or CzeSL (see [4] and [5]) usually disregard this uncertainty about the origin of the error. Sentence (4) can further illustrate the need to distinguish between various levels of language description in error classification, and sometimes combine some of them. ...
Conference Paper
When analyzing language acquisition of inflective languages like Czech, it is necessary to distinguish between errors in word stems and errors in inflection. We use the data of the learner corpus CzeSL, but we propose a simpler error classification based on levels of language description (orthography, morphonology, morphology, syntax, lexicon), which takes into account the uncertainty about the causes of the error. We present a rule-based automatic annotation tool, which can assist both the task of manual error classification and stochastic automatic error annotation with preliminary results of types of errors related to the language proficiency of the text authors.
Article
Full-text available
The emergence of the Chinese learner corpora to great extent facilitates the research embedded in the field of teaching Chinese as a second language. There are numerous existing Chinese learner corpora mainly created at Chinese institutions up to two decades ago composed of texts written by learners mainly from Asian countries. The small-scale Chinese learner corpus focused on a particular group of learners enables the research of the interlanguage development based on the acquisition process of Slovak learners and the error analysis is helpful for the determination of the learner's main problems. The creation of the first Chinese learner corpus of Slovak students enriches the research devoted to the methodology of Chinese taking into consideration the needs of Slovak students due to the limited availability of the teaching materials in the language combination Chinese-Slovak.
Chapter
Full-text available
The aim of this study is to confirm teachers' informal observations and to identify the specific patterns of misuse of the demonstratives as anaphora markers in Polish advanced learners' English. The misuse is treated here in terms of underuse or overuse of the particular categories of the demonstrative anaphors in students' essays: the proximal versus the distal demonstratives and the demonstrative determiners versus the demonstrative pronouns. The specifc questions addressed in this study are: (1) do Polish learners of English at higher and lower proficiency levels show different patterns of use of demonstrative anaphors? and (2) to what extent do these patterns differ from native speaker use? The data was drawn from two corpora: the PELCRA corpus of learner English and the British National Corpus Sampler. Three stages of analyses were performed on the data. First, the frequencies of occurrence of the demonstratives in the three samples were compared. Next, the proportions of proximal and distal demonstratives were analysed across the samples. Lastly, the proportions of determiner and pronoun uses for the distal plural demonstrative those were assessed. The log likelihood chi-square and the regular chi-square tests were performed to estimate the statistical significance of the results. The results showed that Polish advanced learners of English overuse demonstratives in argumentative writing and this overuse is particularly robust with distal demonstratives. Moreover, learners show a preferance for the selection of distal (as opposed to proximal) demonstratives when compared with the native norm. They also show statistically significant overuse of those as a determiner and underuse of those as a pronoun (results for other demonstratives not available). Finally, the patterns of learners' misuse do not change significantly with years of exposure and learning. Thus, the results indicate that native-like use of the demonstratives is not acquired implicitly by Polish learners. The finding has important pedagogical implications, since this feature of language use has not been addressed explicitly in current syllabi and ELT materials so far.
Conference Paper
Full-text available
The paper describes a learner corpus of Czech, currently under development. The corpus captures Czech as used by non- native speakers. We discuss its structure, the layered annotation of errors and the an- notation process.
Article
Full-text available
The Montclair Electronic Language Database (MELD) is an expanding collection of essays written by students of English as a second language. This paper describes the content and structure of the database and gives examples of database applications. The essays in MELD consist of the timed and untimed writing of undergraduate ESL students, dated so that progress can be tracked over time. Demographic data is also collected for each student, including age, sex, L1 background, and prior experience with English. The essays are continuously being tagged for errors in grammar and academic writing as determined by a group of annotators. The database currently consists of 44,477 words of tagged text and another 53,826 words of text ready to be tagged. The database allows various analyses of student writing, from assessment of progress over time to relation of error type and L1 background.
Article
Full-text available
Learner corpora are used to investigate computerised learner language so as to gain insights into foreign language learning. One of the methodologies that can be applied to this type of research is computer-aided error analysis (CEA), which, in general terms, consists in the study of learner errors as contained in a learner corpus. Surveys of current learner corpora and of issues of learner corpus research have information on CEA research can be found, although usually limited. This article is centred on CEA research and is intended as a review of error tagging systems, including error categorizations, dimensions and levels of description. KEYWORDS. Second language acquisition, learner corpus research, computer-aided error analysis. RESUMEN. Los corpus de estudiantes se utilizan para la investigación de la lengua de estudiantes en formato electrónico con el fin de arrojar luz al proceso de adquisición de lenguas extranjeras. Una de las metodologías que se utilizan en este campo es el análisis informatizado de errores que, en términos generales, consiste en estudiar los errores recogidos en un corpus de estudiantes. Revisiones de los corpus de estudiantes existentes y de cuestiones relacionadas con el campo de la investigación en corpus de estudiantes han sido publicadas en los últimos años se proporciona información sobre la investigación en análisis informatizado de errores, aunque ésta es normalmente limitada. Este artículo se centra en el campo de análisis informatizado de errores y trata de proporcionar una revisión de los sistemas existentes de etiquetado de errores, sus categorizaciones, dimensiones y niveles de descripción. PALABRAS CLAVE. Adquisición de segundas lenguas, investigación en corpus de estudiantes, análisis informatizado de errores.
Article
This article reports on a corpus-based, developmental pedagogical intervention for the teaching of German modal particles (MPs) in which learners examined their own emerging MP use as well as that of their native-speaking keypals in the context of electronically mediated, project-based collaboration. Individual learner development was traced microgenetically over a period of nine weeks using Telekorp, a bilingual learner corpus with a built-in control corpus. The current study contributes to the teaching of second language (L2) pragmatics with respect to the authenticity of the interactions, the corpus-enabled nature of the intervention, the developmental scope of the data, and the potential for 'hyper-noticing' in Internet-mediated intercultural foreign language education. Cette étude porte sur l'analyse faite à partir du corpus d'une intervention pédagogique conçue pour l'enseignement des particules de modalité (PM) en langue allemande. Dans le cadre d'une collaboration électronique autour d'un projet de classe, les apprenants ont examiné leur propre emploi des PM ainsi que celui de leurs correspondants, locuteurs natifs. Le développement respectif des apprenants a été établi de façon microgénétique sur une période de neuf semaines à l'aide de Telekorp, un corpus bilingue d'apprenants associé à un corpus natif témoin. La présente étude contribue à l'enseignement de la pragmatique d'une langue seconde relativement à l'authenticité des interactions, à l'utilisation d'un corpus comme outil d'intervention, à l'analyse du développement chez les apprenants et au potentiel offert pour favoriser l'hyper-noticing dans l'éducation interculturelle des langues secondes à travers l'Internet.
Article
Currently, computational linguists and cognitive scientists working in the area of discourse and dialogue argue that their subjective judgments are reliable using several different statistics, none of which are easily interpretable or comparable to each other. Meanwhile, researchers in content analysis have already experienced the same difficulties and come up with a solution in the kappa statistic. We discuss what is wrong with reliability measures as they are currently used for discourse and dialogue work in computational linguistics and cognitive science, and argue that we would be better off as a field adopting techniques from content analysis.
Praha: Ústav Českého národního korpusu FF UK. Dostupný z http
  • Český Národní Korpus
ČESKÝ NÁRODNÍ KORPUS (2000–2010). Praha: Ústav Českého národního korpusu FF UK. Dostupný z http://korpus.cz.
Creating and working with spoken language corpora in EXMARaLDA. LULCL II: Lesser Used Languages & Computer Linguistics II, s
  • Schmidt T
SCHMIDT T. (2009): Creating and working with spoken language corpora in EXMARaLDA. LULCL II: Lesser Used Languages & Computer Linguistics II, s. 151-164.
An evaluation of three POS taggers for the tagging of the Tswana Learner English Corpus
  • B. -Schäfer Van Rooy
VAN ROOY, B. -SCHÄFER, L. (2003): An evaluation of three POS taggers for the tagging of the Tswana Learner English Corpus. In: D. Archer -R. Rayson -A. Wilson -T. McEnery (eds.), UCREL, Proceedings of the Corpus Linguistics 2003 Conference Lancaster University (UK), 28-31 March 2003. Lancaster: Lancaster University, s. 835-844.