Content uploaded by Dominiek Sandra
Author content
All content in this area was uploaded by Dominiek Sandra on Jun 04, 2015
Content may be subject to copyright.
1
Sandra, D., Frisson, S., Durieux, G., Daelemans, W., Gillis, S. 2000. Hij drinkt niet altijd "t" en
ik drink er soms wél: Bronnen van hardnekkige werkwoordfouten in het Nederlands. In Met taal
om de tuin geleid, ed. S. Gillis, J. Nuyts, J. Taeldeman, pp. 282-296. Wilrijk: Universitaire
Instelling Antwerpen
2
Hij drinkt niet altijd “t” en ik drink er soms wél
Bronnen van hardnekkige werkwoordfouten in het Nederlands
Dominiek Sandra
Steven Frisson
Steven Gillis
Walter Daelemans
Gert Durieux
Universiteit Antwerpen
Correspondentieadres:
Dominiek Sandra, UFSIA, Prinsstraat 13, 2000 Antwerpen
3
1. Het werkwoordenprobleem in de Nederlandse spelling
De Nederlandse spelling is een domein van de taal dat reeds veel zand heeft doen opwaaien en geregeld voor
verhitte discussies zorgt, zowel binnen het brede maatschappelijke forum als in onderwijskringen. Recentelijk nog is
er binnen de Nederlandssprekende gemeenschap veel commotie ontstaan over de spellingwijzigingen van 1997. Als
het over onze spelling gaat, heeft iedereen zijn eigen mening, ook mensen die professioneel niet met taal bezig zijn.
Eén van de aspecten binnen de Nederlandse spelling die velen op een bijzondere wijze nauw aan het hart ligt, is de
spelling van de werkwoorden. Regelmatige werkwoordvormen zoals hij verbindt of hij tastte vormen één van de
meest notoire struikelblokken in onze geschreven taal en geven aanleiding tot spelfouten als hij verbind en hij taste.
Op zulke fouten rust een zware vloek en wie ze maakt, zal het geweten hebben. Leerlingen op de middelbare school
die tegen deze volstrekt regelmatige vormen fouten maken (en dat zijn er merkwaardig veel) worden er door hun
leerkrachten zwaar voor bestraft (bv. drie punten per werkwoordfout), vaak ook door leerkrachten algemene vakken
zoals aardrijkskunde. In sommige bedrijven en instellingen zou men sollicitanten mede selecteren op basis van de
aan- of afwezigheid van werkwoordfouten in hun sollicitatiebrief. Eenvoudige observaties tonen aan dat deze fouten
inderdaad zeer moeilijk uit te roeien zijn. Bijvoorbeeld, studenten Germaanse Talen blijken in testen die specifiek op
de werkwoordspelling gericht zijn hogere foutenaantallen te maken dan men zou verwachten op basis van de
eenvoud van de regels. Zelfs professoren die Nederlands doceren, maken wel eens een spelfout tegen de
werkwoorden of tikken bij het schrijven van een tekst een fout in, merken die pas achteraf op en corrigeren ze dan
(snel). Anders gezegd, hoewel taalexperten vaak foutloze teksten afleveren, maskeert hun perfectie vaak een initieel
proces van spontaan spellen waarin ook zij ten prooi vallen aan fouten tegen regelmatige werkwoordvormen.
De bijna obsessieve bekommernis om de correcte spelling van deze werkwoordvormen heeft aanleiding gegeven tot
heel wat werk op het didactische front, waar gezocht is naar de aanleermethode die garanties kan bieden voor de
laagste foutenaantallen. Naast de klassiek grammaticale methode (b.v. derde persoon OTT = stam + t), heeft men de
merites onderzocht van de analogiemethode (trachtte wordt vervoegd zoals het modelwerkwoord wachtte, vergelijk
met hoe men in het Frans modelwerkwoorden voor de vervoeging hanteert, b.v. paradigma van partir, versus dat van
finir) en de algoritmische methode (doorlopen van een reeks beslissingsstappen). Vooral in de jaren tachtig, wellicht
onder invloed van de doorbraak van personal computers, heeft men zich druk bezig gehouden met het ontwerpen
van algoritmes waarmee de leerling de spelling van de te spellen klank kan vinden door een aantal ja-neenvragen te
doorlopen (een beslissingsboom). Eén van die modellen werd door Georges De Schutter zelf voorgesteld (De
Schutter, 1984) en later door Pepermans (1985) didactisch verder uitgewerkt (zie ook Daems 1985a, 1985b, 1987).
Niettegenstaande al deze inspanningen blijven de regelmatige werkwoordvormen van het Nederlands voor grote
problemen zorgen.
De persistentie van deze werkwoordfouten botst op het eerste gezicht met het gezond verstand. De spelling van de
regelmatige werkwoordvormen in het Nederlands is immers gebaseerd op het zogenaamde morfologische principe:
een morfeem behoudt zijn spelling in alle woorden waarin het optreedt. Er zijn weliswaar uitzonderingen op dat
principe (bv. huis-huizen en gleuf-gleuven, tegenover paard-paarden) maar die situeren zich niet binnen het domein
van de werkwoorden. De vorm hij antwoordt is de eenvoudige combinatie van de spelling van de stam van het
werkwoord antwoorden en de spelling van het suffix van de derde persoon enkelvoud onvoltooid tegenwoordige
tijd. Hetzelfde geldt voor een vorm als hij tastte, waar niets bijzonders is aan de dubbele t, want louter het resultaat
van de spelling van de stam van het werkwoord tasten en de spelling van het suffix dat de onvoltooid verleden tijd
van zwakke werkwoorden signaleert (-te als de stam eindigt op -t, -de als de stam eindigt op -d).
Omdat de spelling van de regelmatige werkwoordvormen in het Nederlands zo transparant is, is het des te
merkwaardiger dat er zoveel fouten tegen worden gemaakt. Die fouten worden overigens zowel door Nederlanders
als door Vlamingen gemaakt en er zijn geen aanwijzingen dat er op dit gebied een verschil zou bestaan tussen beide
groepen Nederlandstaligen. Het is bovendien ook zonder meer duidelijk dat het probleem geen algemeen probleem
van taalgebruikers betreft om de spellingregels van het Nederlands te leren en correct toe te passen. Die
taalgebruikers zijn echt wel in staat om veel regels van de Nederlandse spelling onder de knie te krijgen – veel
twaalfjarigen maken bijvoorbeeld vrijwel geen fouten meer tegen de vocaalreductie in boom-bomen of de
consonantreduplicatie in bom-bommen. Blijkbaar is er iets speciaals aan de hand met de spelling van de
werkwoorden waardoor zelfs de meest geoefende spellers nog in de val trappen. Welke val?
4
Met het onderzoek waarover hier verslag wordt gedaan, willen we naar een antwoord zoeken op de vraag wat de
regelmatige Nederlandse werkwoordvormen zo moeilijk maakt. Wij zullen een psycholinguïstisch experiment
rapporteren dat enkele van die factoren aan het licht brengt en aanleiding geeft tot een psycholinguïstisch model van
de spelling van deze werkwoordvormen. Daarna zullen wij computationeel onderzoek rapporteren waarin de
resultaten van de experimenten gesimuleerd worden. Beide onderzoekslijnen zijn het resultaat van werk dat binnen
de Geconcerteerde Onderzoeksactie “Computationele Psycholinguïstiek” aan de Universiteit Antwerpen verricht
werd.
2. Een psycholinguïstisch experiment
2.1. Hypothesen en voorspellingen
Uitgangspunt van ons onderzoek was de vaststelling dat erg veel fouten worden gemaakt tegen werkwoordvormen
die een homofone tegenhanger binnen hetzelfde werkwoordelijke paradigma hebben (bv. antwoord-antwoordt,
gelooft-geloofd). Dat is reeds eerder gesignaleerd door o.a. Assink (1983, 1984). Aan het psycholinguïstisch
experiment ligt volgende redenering ten grondslag:
q Spellers die de regels van de werkwoordspelling beheersen, maken toch fouten tegen homofone
werkwoordvormen omdat bepaalde processen de toepassing van die regelkennis belemmeren.
q Eén van die processen is in het mentale lexicon gesitueerd. De verwarring tussen homofone
werkwoordvormen suggereert dat een fonologische representatie het proces van lexicale retrieval aandrijft
en dat alle orthografische representaties die hiermee geassocieerd zijn actief worden (/tre:t/ zorgt ervoor dat
de representaties <treed> en <treedt> actief worden). Deze hypothese impliceert dat de spelling van
volstrekt regelmatige spellingvormen in het geheugen ligt opgeslagen, wat een opmerkelijk verschijnsel is
voor wie gelooft dat het lexicon enkel de bewaarplaats voor uitzonderingen is.
q Spellers kunnen echter ook regelkennis inzetten en moeten die kennis aanwenden om spelfouten te
vermijden. Met die regeltoepassing kunnen echter ook problemen ontstaan.
q Alle factoren die het proces van lexicale retrieval of het proces van regeltoepassing (identificatie
morfosyntactische informatie) beïnvloeden, zullen een effect sorteren op de uiteindelijke spelling van de
werkwoordvorm.
De juistheid van deze redenering kan getoetst worden aan de hand van de volgende concrete voorspellingen:
q Met betrekking tot de activatie van orthografische representaties
De frequentie van voorkomen in de geschreven taal is een sterke determinant gebleken in het leesproces.
Het is aannemelijk dat deze frequentie ook de beschikbaarheid van orthografische representaties bepaalt
tijdens het spellingproces. Hoe hoger de frequentie van een vorm hoe sneller hij opgeroepen kan worden en
hoe langer hij actief zal blijven in het geheugen. Dit betekent dat de hoogstfrequente vorm van een
homofonenpaar de grootste kans maakt om gespeld te worden, wat een meevaller is als dit de correcte vorm
is in de gegeven grammaticale context en een tegenvaller als het om de incorrecte vorm gaat. Concreet:
wanneer treedt frequenter is dan treed, dan is de kans reëler dat spellers een fout schrijven wanneer ze treed
moeten spellen dan wanneer treedt de doelvorm is. Bij een omgekeerde frequentieverhouding tussen eerste
en derde persoon zou de kans op intrusiefouten groter moeten zijn in de derde persoon.
q Met betrekking tot de toepassing van de spellingregel
De regels voor de werkwoordspelling zijn conditionele regels (b.v. als “derde persoon enkelvoud O.T.T.”
dan “spel het suffix <t>”). Als bepaalde factoren ertoe leiden dat de informatie in het linkergedeelte van de
regel te traag beschikbaar wordt of foutief geïdentificeerd wordt, dan kunnen er spelfouten ontstaan. In het
eerste geval is dat omdat het proces van lexicale retrieval meer kansen krijgt, in het tweede geval omdat de
regel op de verkeerde informatie wordt toegepast.
5
2.2. Experimentele factoren
In ons experiment werd het type homofonie bestudeerd dat bestaat tussen de eerste en derde persoon enkelvoud van
regelmatige werkwoorden waarvan de stam op een d eindigt (treed-treedt). Het onderzoek is een replicatie en
uitbreiding van het onderzoek dat over deze problematiek reeds gerapporteerd werd door Sandra, Frisson & Daems
(1999) en door Frisson en Sandra (te verschijnen). In het hier besproken experiment werden volgende factoren
gemanipuleerd:
1. De relatieve frequentie van de twee homofone spellingsvormen: (i) de eerstepersoonsvorm is frequenter
dan de derdepersooonsvorm (voortaan D>DT), (ii) beide hebben een vergelijkbare frequentie (D=DT), (iii)
de eerstepersoonsvorm is minder frequent dan de derdepersoonsvorm (D<DT). Er waren acht werkwoorden
in elke categorie.
2. De toegankelijkheid van de grammaticale informatie die nodig is om correct te kunnen spellen. Voor de
werkwoorden die wij onderzochten, kwam dit neer op de identificatie van het getal van het onderwerp. Het
toegangsgemak tot dit grammaticale kenmerk werd op drie verschillende manieren geoperationaliseerd.
i. De afstand tussen de werkwoordsvorm en het onderwerp: onmiddellijk naast elkaar of gescheiden door
een aantal woorden, wat in het Nederlands neerkomt op het contrast tussen hoofdzinnen en bijzinnen.
Ik treed niet graag in onderhandelingen met een cynische advokaat.
Het is evident dat ik niet graag in onderhandelingen treed met een cynische advokaat.
De hypothese stelt dat hoe verder een speller moet teruggaan in zijn kortetermijngeheugen om de
grammaticale informatie over persoon te vinden (eerste of derde) hoe langer het zal duren om de
spellingregel toe te passen en hoe groter de kans zal zijn dat het spellingproces uitsluitend door de
geactiveerde orthografische representaties in het lexicon wordt gestuurd. Er zullen dus meer
intrusiefouten gemaakt worden in bijzinnen dan in hoofdzinnen.
ii. De aanwezigheid of afwezigheid van inversie. Tengevolge van de zinsvolgorde in het Nederlands kon
deze manipulatie enkel in hoofdzinnen worden uitgevoerd.
Hij treedt niet graag in onderhandelingen met een cynische advokaat.
Daarom treedt hij niet graag in onderhandelingen met een cynische advokaat.
Bij het spellen van een werkwoord dat net op het onderwerp volgt, zijn de relevante grammaticale
kenmerken nog meteen beschikbaar terwijl dat minder het geval zou kunnen zijn – of de aandacht er
minder op gevestigd kan zijn – in het geval van inversie. Als inversie de beschikbaarheid van
grammaticale informatie vertraagt, dan zullen er meer intrusiefouten voorkomen in zinnen met inversie
dan in zinnen zonder die constructie.
iii. De aanwezigheid of afwezigheid van een nomen tussen de werkwoordsvorm en zijn onderwerp.
Tengevolge van de zinsvolgorde van het Nederlands kon deze manipulatie enkel in bijzinnen worden
uitgevoerd.
Het is evident dat ik niet graag in onderhandeling treed met een cynische advokaat.
Het is evident dat ik niet graag in onderhandelingen treed met een cynische advokaat.
Een tussenliggend enkelvoudig nomen kan de associatie met derde persoon oproepen – in tegenstelling
tot een meervoudig nomen – en de zoektocht naar grammaticale informatie vroegtijdig doen beëindigen
(verkeerde subjectidentificatie) of met de informatie van het subject interfereren. In beide gevallen is de
predictie dat er meer intrusiefouten zullen optreden in de conditie waar onderwerp en tussenliggend
nomen confligerende grammaticale persoonsinformatie opleveren.
6
2.3. Procedure
De werkwoorden werden in contextzinnen geplaatst, zodat de twee werkwoordsvormen van elk werkwoord elk in
vier condities werden aangeboden:
• korte afstand (hoofdzin) zonder inversie
• korte afstand met inversie
• lange afstand (bijzin) met tussenliggend nomen in enkelvoud
• lange afstand met tussenliggend nomen in meervoud
Eénzelfde proefpersoon kreeg slechts één keer het werkwoord aangeboden, zodat er acht
proefpersoonlijsten moesten worden gemaakt. Een groot aantal proefpersonen werd getest, zodat er per
werkwoordvorm en per conditie ongeveer 550 meetpunten beschikbaar waren. De proefpersonen kregen
een gatentekst aangeboden en moesten de woorden invullen terwijl de proefleider de hele tekst hardop
voorlas (tegen een normaal leestempo, dat erop gericht was geen extensieve spellingverificatie mogelijk te
maken). De in te vullen werkwoordvormen representeerden de helft van het totale aantal gedicteerde
woorden. Er werden ook andere moeilijke woorden gedicteerd om te vermijden dat de proefpersonen
onnatuurlijk veel aandacht zouden opbrengen voor de werkwoorden (de aandacht voor een correcte spelling
zal in een dicteetaak wellicht al automatisch verhoogd zijn).
2.4. Resultaten
Bij het scoren van de testformulieren werden enkel de intrusiefouten geteld die voor dit onderzoek interessant
waren, d.w.z. de intrusie van een derde persoon als het de spelling voor de eerste persoon moest zijn of vice versa.
Dit betekent niet dat andere fouttypes oninteressant zijn; het is slechts een noodzakelijk scorecriterium om de
hypothese te kunnen toetsen omtrent de representatie van homofone spellingsvormen.
• De relatieve frequentie van homofone spellingvormen
Onderstaande grafiek geeft de resultaten weer voor het effect van de relatieve frequentie van eerste en derde
persoon, gesommeerd over hoofd- en bijzinnen.
GRAFIEK 1 HIER
De statistische analyse (ANOVA) die de aantallen van beide types intrusiefouten in de drie frequentiecondities
vergelijkt, blijkt sterk significant te zijn (p < .001). In de conditie D>DT schrijven spellers vaak de D-vorm wanneer
de DT-vorm correct is en vergelijkenderwijs veel minder vaak de DT-vorm wanneer de D-vorm correct is. In de
conditie D<DT vinden we het omgekeerde patroon en in de conditie D=DT, waar beide vormen vrijwel dezelfde
frequentie van voorkomen hebben, merken we geen verschil in de foutenaantallen. Hieruit kunnen we afleiden dat
spellers gemakkelijker toegang hebben tot de frequentste homofone vorm, wat leidt tot lage foutenaantallen als dit
toevallig de te spellen vorm is en tot veel fouten als de andere vorm gespeld moet worden.
• De afstand tussen onderwerp en werkwoordvorm
Onderstaande grafieken geven de aantallen intrusiefouten weer voor respectievelijk eerste en derde persoon in de
hoofdzinnen (korte afstand) en de bijzinnen (lange afstand).
GRAFIEKEN 2 & 3 HIER
7
Wanneer het vervoegde werkwoord ver van het onderwerp staat (bijzin), maken spellers meer fouten dan wanneer
beide woorden naast elkaar staan (hoofdzin). Dit effect is statistisch significant (X
2
= 224.3, p < .0001). Het effect is
onafhankelijk van de grammaticale persoon (zowel bij D-intrusies als bij DT-intrusies) en is eveneens onafhankelijk
van het type frequentierelatie (D<DT, D=DT, D>DT). De grafieken visualiseren duidelijk dat voor beide types
intrusies het effect van de afstandsfactor onafhankelijk is van het effect van de relatieve frequentie tussen de
homofone representaties: voor de korte en de lange afstand is het effect van relatieve frequentie duidelijk zichtbaar
in de vorm van een vergelijkbare daling (D-intrusies) of stijging (DT-intrusies) van de foutenaantallen in de grafiek
(van links naar rechts), alleen de absolute foutenaantallen verschillen onder invloed van de afstandsfactor.
• Reguliere volgorde of inversie
Grafieken 4 en 5 laten zien hoe de foutenaantallen in de eerste en derde persoon samenhangen met de volgorde van
subject en persoonsvorm. In de eerste persoon is het inversie-effect niet-significant (X
2
= 2.05, p > .10). Voor geen
enkele frequentieverhouding doen zich significante verschillen voor tussen de reguliere zinsvolgorde en inversie,
hoewel in alle condities het aantal DT-intrusies het laagst is in de inversieconditie. De niet-significantie kan ten dele
het gevolg zijn van vloereffecten: het aantal DT-fouten bij normale zinsvolgorde is reeds zo klein (minder dan 4 %)
dat het moeilijk is nog significante dalingen te meten. Toch kan dat niet de verklaring zijn in de conditie D<DT:
voor D- en DT-intrusies worden er verschillen gemeten tussen 4 % en een lager foutenaantal, een verschil dat bij D-
intrusies (derde persoon) wél en bij DT-intrusies (eerste persoon) niet significant is. In de derde persoon is het
inversie-effect significant (X
2
= 16.1, p < .001). Voor elke frequentieverhouding ligt het foutenaantal significant
hoger bij inversie dan bij de normale zinsvolgorde. Inversie blijkt dus een voorkeur teweeg te brengen voor de D-
variant van het homofonenpaar. Merk op dat dit zelfs opgaat voor de eerste persoon – minder DT-fouten – hoewel
het daar slechts om een tendens gaat.
GRAFIEKEN 4 & 5
• Tussenliggend object
Grafieken 6 en 7 hieronder laten zien hoe een tussenliggend enkelvoudig object de foutenaantallen beïnvloedt. Als
het subject een eerste persoon is – en het tussenliggend object dus de verkeerde grammaticale persoon signaleert
(derde) – is er een significante stijging in de foutenaantallen (X
2
= 6.0, p < .05). Dat is ook het geval bij de
individuele frequentiecondities, behalve wanneer de D-spelling de frequentste homofone variant is. Blijkbaar doet
zich hier een interactie voor tussen frequentierelatie en grammaticale kenmerken uit de context. Een enkelvoudig
object creëert een bias om de DT-spelling te hanteren en verhoogt aldus nog het aantal fouten in gevallen waar de
DT-spelling frequenter is dan of even frequent is als de D-spelling. Die bias blijkt echter niet in staat om de invloed
van de D-variant teniet te doen als dat de frequentste homofone vorm is. Als het subject een derde persoon is, heeft
het tussenliggend object geen invloed op de foutenaantallen (X
2
< 1). Dat hoeft geen verbazing te wekken aangezien
dat object geen verkeerde spelling suggereert – zowel subject als object signaleren het kenmerk “derde persoon
enkelvoud”.
GRAFIEKEN 6 & 7
2.5. Bespreking
Dit experiment laat zien dat spelfouten tegen vervoegde werkwoordvormen in de onvoltooid tegenwoordige tijd het
gevolg zijn van factoren die terug te voeren zijn tot diverse types oorzaken:
• activatie van spellingvormen in het mentale lexicon
• problemen bij de identificatie van de grammaticale informatie in subjectspositie
• andere storingsbronnen
8
De vaststelling dat de relatieve frequentie van homofonen het foutrisico bepaalt, is een demonstratie van de
betrokkenheid van het mentale lexicon. Frequentie van voorkomen is één van de belangrijkste factoren die de
“retrieval” van woordvormen uit het mentale lexicon bepalen: hoogfrequente vormen worden sneller actief dan
minder frequente. Het retrievalproces tijdens het spellen van een werkwoordvorm wordt blijkbaar aangestuurd door
een fonologische representatie, waardoor beide homofone spellingvormen geactiveerd worden. De implicatie van
deze bevindingen is dat de meest regelmatige spellingvormen in het Nederlands – regelwoorden – toch in het
mentale lexicon worden opgeslagen, al bestaat daar geen logische noodzaak toe (het regelargument tegen opslag) en
al lijkt dit op een kwistig gebruik van geheugenruimte (het economieargument tegen opslag).
De betrokkenheid van het mentale lexicon kan echter uitsluitend het effect van homofoonfrequentie verklaren. Om
het effect van de overige factoren te verklaren moet men een beroep doen op een andere storingsbron tijdens het
spellingproces: de rol van het werkgeheugen bij de toepassing van de spellingregel. Om die regel correct toe te
passen is identificatie van de grammaticale persoon van het subject vereist. De snelheid waarmee dit
identificatieproces wordt uitgevoerd – en dus ook de kans dat het te traag is om de schadelijke invloed van het
proces van lexicale retrieval tegen te gaan – wordt beïnvloed door het aantal woorden tussen subject en vervoegd
werkwoord (effect van afstand): hoe verder de speller terugmoet in het werkgeheugen om het subject te vinden, hoe
trager en hoe hoger het risico op een spelfout. De kwaliteit van dit identificatieproces – verkeerde identificatie–
wordt beïnvloed door kenmerken van een tussenliggend object.
Een storingsbron die noch betrekking heeft op processen binnen het mentale lexicon noch op factoren binnen het
werkgeheugen is inversie. Inversie lijkt een algemene voorkeur voor de D-spelling te signaleren. Dat kan het gevolg
zijn van het feit dat inversie in de tweede persoon een D-spelling oplevert (uiteraard ook in de eerste persoon), zodat
deze volgorde voor de speller een herkenbaar signaal is geworden voor het gebruik van de D-variant.
Al deze potentiële storingsbronnen zullen simultaan operationeel zijn tijdens het spellingsproces. Bovendien kan
men de invloed van deze factoren niet uitsluiten omdat het geautomatiseerde processen zijn (lexicale retrieval),
beperkingen van zoekprocessen in het werkgeheugen (afstand) of interferentie-effecten (tussenliggend object).
Aangezien spellen een proces is dat vrij snel in de tijd verloopt, zal de snelheid waarmee de respectieve processen
verlopen uiteindelijk bepalen hoe groot de kans op een spelfout is. Hoe groter de kans is dat de regel niet tijdig kan
worden toegepast (lange afstand) of hoe groter de kans is dat de foute informatie gebruikt wordt bij regeltoepassing
(tussenliggend object) hoe groter de kans wordt op een spelfout.
Ironisch genoeg leiden potentiële storingsbronnen niet noodzakelijk tot fouten. Een speller kan zich op de verkeerde
informatiebron baseren en toch correct spellen. Dat zal bijvoorbeeld het geval zijn als de speller vertrouwt op de
frequentste homofone spellingvorm in het mentaal lexicon en die vorm ook de te spellen vorm is (merk op dat die
kans groter is dan de kans dat men de laagfrequente vorm moet spellen, wat statistisch gesproken deze lexicale
strategie al superieur maakt t.o.v. een pure gokstrategie). Een soortgelijke situatie doet zich voor bij een
tussenliggend object in de context van een derde persoon als subject.
3. Een computationele simulatiestudie
In het kader van de Geconcerteerde Onderzoeksactie (GOA) “Computationele Psycholinguïstiek” hebben wij
getracht om bepaalde effecten uit het psycholinguïstisch experiment te simuleren binnen het kader van een
computationele studie. De bevinding dat regelwoorden toch lexicaal gerepresenteerd worden en dat de aanwezigheid
van homofone vormen binnen een flexieparadigma tot intrusiefouten leiden (afhankelijk van hun frequentierelatie)
sluit immers perfect aan bij een computationeel model dat door Aha, Kibler en Albert (1991) ontwikkeld is. Het
model, een zogenaamd Memory-Based Learning (Instance-Based Learning, Lazy Learning) model, gaat ervan uit
dat beregeld taalgedrag niet ontstaat door de representatie van abstracte regels maar doordat een computationeel
mechanisme de gelijkenis berekent tussen de input en de representaties van alle tot dan toe geleerde types in het
leerdomein. In een domein als spelling betekent dit dat het model de spellingvorm onthoudt van alle individuele
fonologische woordvormen en de spelling van een nieuwe vorm bepaalt door vergelijking met deze opgeslagen
representaties. Het algoritme selecteert uiteindelijk een representatie die de grootste gelijkenis vertoont met de
representatie van de stimulus (op basis van de gehanteerde similariteitsparameters) en hanteert die als basis voor de
respons. Men kan de factoren die de mate van gelijkenis kunnen bepalen sterker of minder sterk laten doorwegen in
de similariteitsscores (wegingen van kenmerken) en nagaan hoe die manipulaties de output verklaren. Op die manier
9
kan men nagaan in hoeverre factoren die in het psycholinguïstisch onderzoek een rol spelen ook van belang zijn in
een computationeel model. Het simulatie-onderzoek dat hieronder gerapporteerd wordt, is slechts een pilootstudie.
In een simulatie-experiment werd een willekeurige steekproef genomen van 5000 werkwoordvormen op –D of –DT.
Die steekproef werd getrokken uit CELEX, een corpus waarin 42 miljoen woorden zijn opgenomen (tokens, zodat
eenzelfde vorm verschillende keren kan voorkomen). Die vormen werden gereprenteerd in termen van een set van
zes morfosyntactische kenmerken (o.a. tempus, persoon, getal) en twaalf fonologische kenmerken (onset, nucleus,
coda en klemtoon van de laatste drie syllabes van de woordvorm). Om de condities van het psycholinguïstische
experiment te kunnen nabootsen moest aan een aantal condities voldaan worden:
• de woordvormen waarmee de performantie van het algoritme getest wordt, moeten onderdeel uitmaken
van de set woordvormen waarop het algoritme getraind wordt, in tegenstelling tot de normale leer-
/testprocedure, waarbij de testwoorden niet aangeboden mogen zijn in de trainingsfase. De reden
hiervoor is dat spelfouten tengevolge van homofone vormen ontstaan op basis van retrieval, d.w.z. het
oproepen van reeds bekende vormen in het mentale lexicon. Wil men dus proefpersoongedrag
simuleren dan moet men ook de inhoud van het geheugen van het computationeel model en het
mentale lexicon van de proefpersoon gelijkschakelen.
• frequentie van voorkomen in het frequentiecorpus moet gerepresenteerd worden. De reden hiervoor is
dat vormfrequentie het spellinggedrag van proefpersonen in sterke mate verklaarde.
• de similariteitsbeoordeling moet gebeuren in het licht van meerdere kandidaten (verschillende
“neighbours”), waarbij de uiteindelijke selectie kan plaatsvinden op basis van een sterkere weging van
een bepaald kenmerk. Op die manier kunnen homofone vormen allebei een rol spelen bij het tot stand
komen van de beslissing van het algoritme.
Wanneer men het experiment op die manier uitvoert en het beslissingsmechanisme in sterkere mate rekening laat
houden met frequentie van voorkomen (gewogen frequenties) dan vindt men de percentages correcte spellingen in
Tabel 1 hieronder:
TABEL 1
De belangrijkste demonstratie is dat het algoritme tot fouten leidt. Hoewel de representatie van de te spellen
woordvorm in het geheugen aanwezig is (als een set van dezelfde set morfosyntactische en fonologische kenmerken
als in de inputrepresentatie) ontstaan toch foutieve classificaties onder invloed van het belang van de
woordfrequentie. De introductie van dit kenmerk zorgt er dus voor dat morfosyntactische informatie in sommige
gevallen genegeerd wordt. Dit is precies wat we in het experiment vonden. Hoewel achttienjarigen de regels voor de
spelling van werkwoordvormen in de eerste en derde persoon enkelvoud onvoltooid tegenwoordige tijd wel kennen
(dat bleek ook uit hun globale scores) maken ze toch fouten, die aantoonbaar het gevolg zijn van intrusies van
homofone vormen die door de invloed van frequentie ontstaan zijn. In het simulatie-experiment waren die
intrusiefouten aanzienlijk talrijker voor derde persoonsvormen dan voor eerste persoonsvormen. Dat is echter het
gevolg van de aantallen werkwoordvormen op D en op DT in de steekproef. Er zijn meer dan tien keer zoveel D-
vormen als DT-vormen, zodat de kans dat er tussen de meest gelijkende woordvormen (de “neighbours”) een
foutieve spelling zit (D i.p.v. DT of vice versa) groter is bij de spelling van DT-woordvormen dan bij de spelling van
D-woordvormen.
De bovenstaande gegevens laten zien dat frequentie de deterministische invloed van morfosyntactische informatie
kan teniet doen en tot fouten kan leiden maar laten niet zien hoe het model zich gedraagt wanneer het
geconfronteerd wordt met homofone vormen. Tabel 1 laat het spellinggedrag van het model zien voor alle 5000
werkwoordvormen, waarvan slechts een relatief kleine subset homofone varianten heeft. Grafiek 8 hieronder is een
analyse van de spelfouten die het model maakt bij homofone vormen, opnieuw wanneer frequentie een sterke
weging krijgt in het beslissingsmechanisme. Zoals in het psycholinguïstisch experiment zijn de resultaten
weergegeven in functie van de frequentierelatie tussen de D- en DT-vormen.
GRAFIEK 8
10
Het is duidelijk dat dezelfde foutenpatronen ontstaan als in het psycholinguïstisch experiment (vergelijk met Figuur
1). Als het memory-based learning model de frequentiefactor sterk in rekening brengt, dan leidt dat tot vergelijkbare
performantie als bij de spelling van proefpersonen. Merk op dat het computationele model nergens een abstracte
regelrepresentatie hanteert en het falen van het model dus ook niet het gevolg kan zijn van zwakke
regelrepresentatie. Het model faalt omdat het individuele woordvormen opslaat en in zijn selectieprocedure een
groot gewicht toekent aan de frequentie van die vormen. Spelfouten van taalgebruikers tegen de werkwoorden
signaleren ook niet noodzakelijk het gebrek aan regelkennis maar hoeven niet meer te betekenen dan het simpele feit
dat zij een geheugen hebben waarin ze zelfs de meest regelmatige vormen opslaan (of ze dat nu willen of niet, of dat
nu logisch noodzakelijk is of niet, of dat nu economisch of niet).
4. Conclusie
Het onderzoek had tot doel om na te gaan hoe verklaard kan worden dat fouten tegen elementaire regels als die van
sommige werkwoordregels zo hardnekkig kunnen zijn. Wij konden vaststellen dat die fouten inderdaad erg
hardnekkig zijn – ze doen zich bij achttienjarigen zelfs voldoende vaak voor in een dicteetaak, waar de spellers
maximaal met correct spellen bezig zijn. Die fouten blijken het gevolg te zijn van processen die een correcte
toepassing van de regelkennis (die wel aanwezig is, gegeven de hoge globale scores) verhinderen. De eerste
belangrijke factor is de werking van retrievalprocessen in het mentale lexicon, waar kennelijk zelfs de meest
beregelde vormen (flexievormen van werkwoorden) opgeslagen liggen. Omdat er geheugenopslag is, zijn er
retrievalprocessen operationeel. Hoe meer tijd het proces van regeltoepassing vergt – bij moeizame identificatie van
de morfosyntactische informatie (grote afstand tussen subject en persoonsvorm) – hoe meer kans deze
retrievalprocessen krijgen om het spellingproces te beïnvloeden en hoe hoger het foutrisico wordt. Dit betekent niet
dat spelfouten pas ontstaan als de speller in zijn zoektocht naar het onderwerp een lange weg in het werkgeheugen
moet afleggen, aangezien het effect van homofoonfrequentie ook duidelijk aanwezig was in hoofdzinnen, waar de
persoonsvorm naast het subject staat. Een tweede belangrijke storende factor bij werkwoordfouten is de storende
aanwezigheid van een nomen dat op de cruciale morfosyntactische kenmerken van het subject verschilt (b.v. eerste
persoon versus derde persoon). In zo een geval kan de regel tijdens het spellingproces wel snel toegepast worden
maar toch fouten opleveren omdat gebruik wordt gemaakt van de morfosyntactische informatie bij het verkeerde
nomen.
Hierboven wordt gesuggereerd dat het de spellingvorm die de speller neerschrijft door één van de voorgestelde
processen – retrieval of regel – bepaald wordt en dat het samenspel van diverse factoren ervoor zorgt welk proces
dat is. Een alternatieve zienswijze is dat beide processen simultaan een invloed uitoefenen, meer bepaald door een
neiging te creëren om de D- of de DT-vorm te spellen. Als de meerderheid van processen een bepaalde
spellingvariant favoriseren, zal de speller die variant opschrijven. Mogelijk worden bepaalde “voorstellen” daarbij
zwaarder gewogen dan andere (b.v. vroege voorstellen wegen zwaarder door, wat het frequentie-effect en het effect
van afstand zou verklaren). De experimentele gegevens laten ons niet toe te kiezen voor één van beide modellen.
Een belangrijke conclusie van dit onderzoek voor het debat over werkwoordspelling is dat spellers a.h.w. bestraft
worden voor het feit dat hun geheugen orthografische representaties van woorden bijhoudt. Men zou ook kunnen
zeggen dat de Nederlandse spelling geen rekening houdt met dit kenmerk van spellers. Merk op dat een spelling die
enkel de werkwoordelijke stam zou schrijven – hij antwoord – tenzij het suffix hoorbaar is – hij snoept –daar wel
rekening mee zou houden (want die zou homofone varianten uitschakelen). Dit is geen pleidooi voor een nieuwe
spellingwijziging. Het is wel een pleidooi voor een correcte diagnose van werkwoordfouten bij spellers: fouten
vertellen niets over intelligentie, wel over geheugenprocessen en het revisiegedrag van schrijvers na het schrijven
van de tekst (hoewel ook die revisie weer aan dezelfde processen onderhevig kan zijn! Dat zou leesonderzoek met
werkwoordvormen die in een tekst ingebed zijn duidelijk moeten maken).
De simulatiestudie laat zien dat de fouten die proefpersonen maken ook gesimuleerd kunnen worden in een instance-
based learning model waarbinnen regelrepresentaties geen plaats hebben. Dit bewijst niet dat taalgebruikers geen
regels hanteren tijdens het spellen – zulke verstrijkende conclusies kunnen uit dit beperkte experiment niet
getrokken worden – maar wel dat hun typische spelfouten het gevolg zijn van opslag van individuele
werkwoordvormen met een frequentiegevoelig selectiemechanisme.
11
Referenties
Aha, D., D. Kibler en M. Albert, “Instance-based learning algorithms.” Machine Learning 6 (1991):
37-66.
Assink, Egbert. Leerprocessen bij het spellen. Aanzet voor de verbetering van de werkwoordsdidactiek. Doct. Diss.,
Utrecht, 1983.
Assink, Egbert en Piet Klein. De Werkwoordwinkel. De werkwoordsspelling in kaart. Purmerend: Muusses, 1984.
Daems, Frans. “De regels van het spel. Het handelingsmodel bij werkwoordspelling.” VVM-Berichten 1/3 (1985a):
8-45.
Daems, Frans. “Algoritmen en heuristieken”. Werkblad voor Nederlandse Didactiek 14/1 (1985b): 1-12.
Daems, Frans. “The Stage Procedure in Language Learning”. In: L.F. Lewis & B. Feinstein eds., Proceedings of the
International Conference on Courseware Design and Evaluation, Ramat Gan, Israel, s.d. (1987):143-152.
De Schutter, Georges. “Het eeuwige ankerspel.” Vonk 14/1 (1984): 19-31.
Frisson, Steven en Dominiek Sandra. “Determinanten van werkwoordfouten in de Nederlandse spelling: een
experimenteel onderzoek bij ervaren spellers en adolescenten.” Nederlandse taalkunde, te versch.
Pepermans, J. en P. van Herck. Eigenwijzer. Nieuwe methode voor werkwoordspelling. Leuven/Amersfoort: Acco,
1985.
Sandra, Dominiek, Steven Frisson, en Frans Daems. “Why simple verb forms can be so difficult to spell: the
influence of homophone frequency and distance in Dutch”. Brain and language, 68 (1999): 277-283.
12
Grafiek 1
Percentages voorspelde fouten als functie van persoon (D-intrusies in derde persoon, DT-intrusies in eerste persoon)
en de relatieve frequentie van de homofone vormen.
Noot: ns = niet-significant;*** = p < .0001
0
2
4
6
8
10
12
14
16
D > DT D = DT D < DT
% voorspelde fouten
D-intrusies
DT-intrusies
***
***
ns
13
Grafiek 2
Percentage D-intrusies in de derde persoon als functie van de afstand tussen subject en persoonsvorm. Kort = geen
tussenliggende woorden (hoofdzin), lang = vier tussenliggende woorden (bijzin).
Noot: ns = niet-significant; *** = p < .0001
0
2
4
6
8
10
12
14
16
18
20
% voorspelde fouten
D > DT D = DT D < DT
D-intrusies
kort
lang
***
***
ns
14
Grafiek 3
Percentage DT-intrusies in de eerste persoon als functie van de afstand tussen subject en persoonsvorm. Kort = geen
tussenliggende woorden (hoofdzin), lang = vier tussenliggende woorden (bijzin).
Noot: *** = p < .0001
0
2
4
6
8
10
12
14
16
18
20
% voorspelde fouten
D > DT D = DT D < DT
DT-intrusies
kort
lang
***
***
***
15
Grafiek 4
Percentage DT-intrusies in de eerste persoon als functie van de zinsvolgorde in de hoofdzin. Regulier = subject-
persoonsvorm; inversie = persoonsvorm-subject.
Noot: ns = niet-significant
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
% voorspelde fouten
D > DT D = DT D < DT
ik treed vs. treed i
k
regulier
inversie
ns
ns
ns
16
Grafiek 5
Percentage D-intrusies in de derde persoon als functie van de zinsvolgorde in de hoofdzin. Regulier = subject-
persoonsvorm; inversie = persoonsvorm-subject.
Noot: * = p < .05, ** = p < .01
0
2
4
6
8
10
12
% voorspelde fouten
D > DT D = DT D < DT
hij treedt vs. treedt
h
regulier
inversie
*
*
**
17
Grafiek 6
Percentage DT-intrusies in de eerste persoon als functie van de aanwezigheid of afwezigheid van een tussenliggend
enkelvoudig nomen. Enkelvoudig: tussenliggend nomen enkelvoud, meervoudig: tussenliggend nomen meervoud.
Noot: ns = niet-significant; (*) = p < .10; * = p < .05;
0
5
10
15
20
25
% voorspelde fouten
D > DT D = DT D < DT
dat ik <enk>/<mv> tre
e
enkelvoudig
meervoudig
ns
*
(*)
18
Grafiek 7
Percentage D-intrusies in de derde persoon als functie van de aanwezigheid of afwezigheid van een tussenliggend
enkelvoudig nomen. Enkelvoudig: tussenliggend nomen enkelvoud, meervoudig: tussenliggend nomen meervoud.
Noot: ns = niet-significant
0
5
10
15
20
25
% voorspelde fouten
D > DT D = DT D < DT
dat hij <enk>/<mv> tree
d
enkelvoudig
meervoudig
ns
ns
ns
19
Grafiek 8
Aantal verwarringen tussen homofone vormen (D- en DT-intrusies) in de beslissingen van het algoritme als functie
van de relatieve frequentie van beide varianten.
0
5
10
15
20
25
D > DT
D = DT
D < DT
D > DT
D = DT
D < DT
D > DT
D = DT
D < DT
D-intrusies
DT-intrusies
20
Tabel 1
Percentages correcte klassificaties door het memory-based learning algoritme wanneer de testwoorden deel
uitmaakten van de trainingsset en vormfrequentie een hoge weging kreeg bij de selectie uit de naaste buren in de
similariteitsruimte.
D-vormen (n=4599) DT-vormen (n=401)
3 buren 99.24 91.77
5 buren 99.11 90.27
10 buren 99.15 90.02