Conference PaperPDF Available

Runonlausunnan prosodia ja sen mallintaminen koneellisesti puhesynteesillä

Authors:

Abstract

Artikkeli tutkii runonlausuntaa laadullisen korpusperustaisen analyysin kautta eritellen prosodisia piirteitä sekä niiden toiminnallista merkitystä. Analyysi pohjautuu neljään lausuttuun runoon. Lopuksi eritellään laskennallisen algoritmin toimintaa, joka tuottaa puhesynteesiin prosodisia piirteitä niin, että se mukailee oikeaa runonlausuntaa. Tutkimus luo katsauksen monitieteelliseen aihealueeseen, jota on tutkittu vain vähän.
5
СОВРЕМЕННЫЕ ИССЛЕДОВАНИЯ В ОБЛАСТИ
ФИННО-УГРОВЕДЕНИЯ
УДК 81'322:82.09-1=511.111(045)
Mika Hämäläinen
PhD, researcher
Finland, Helsinki, University of Helsinki
Jack Rueter
PhD, researcher
Finland, Helsinki, University of Helsinki
RUNONLAUSUNNAN PROSODIA JA SEN MALLINTAMINEN
KONEELLISESTI PUHESYNTEESILLÄ
В статье исследуется декламация стихов на основе качественного корпусного анализа
с указанием просодических особенностей, а также их функционального значения. Анализ
основан на четырех прочитанных стихотворениях. В конечном итоге, описывается работа
вычислительного алгоритма, который производит просодические особенности в синтезе
речи, чтобы соответствовать правильному чтению стихов. Исследование представляет
собой обзор малоизученной междисциплинарной темы.
Ключевые слова: декламация стихов, вычислительное творчество, цифровой
гуманизм, финский язык.
Johdanto
Runonlausunta on taidemuoto, jonka koneellista tuottamista ei ole aikaisemmin tutkittu.
Runonlausunta on kuitenkin tärkeä osa runoutta ja sen koneellisesta tuottamisesta on erityisesti
hyötyä Helsingin yliopiston tietojenkäsittelytieteen laitoksella kehitetyssä Runokone-
järjestelmässä [Hämäläinen, 2018a]. Runokone avustaa koululaisia runojen kirjoittamisessa, joten
kone, joka osaa lukea runoja ääneen on erityisen hyödyllinen kaikista nuorimmille koululaisille,
jotka vasta opettelevat lukemaan, kuten myös koululaisille, joilla on kielellisiä tai lukemiseen
liittyviä vaikeuksia.
Tutkimuksen tarkoituksena on selvittää, millaisia prosodisia keinoja runonlausujat
käyttävät sekä millaisissa yhteyksissä kutakin keinoa käytetään. Näiden tulosten pohjalta luodaan
algoritminen lähestymistapa, joka tuottaa sille syötettyyn runoon prosodisten elementtien
annotaation puhesynteesiä varten. Prosodia-annotoitu korpus on julkaistu Zenodossa1.
Tämä artikkeli on jaettu kahteen osaan. Ensimmäinen osa painottuu kielitieteelliseen
analyysiin runonlausunnasta. Toinen osa puolestaan keskittyy kieliteknologiseen ongelmaan
runonlausunnan tuottamisesta. Syy sille, ettei algoritmin kohdalla käytetä koneoppimista on se,
ettei runonlausunnasta ole saatavilla valmiiksi annotoituja korpuksia suomen kielellä. On myös
perustellumpaa pohjata algoritmin toiminta siihen, miten runonlausujat todellisuudessa lausuvat
runoja, kuin että koko analyysi sivutettaisiin ja runonlausuntakomponentti perustuisi vain tutkijan
omaan intuitioon ja kielikorvaan [vrt. Hämäläinen, 2020].
Aikaisemmat tutkimukset runon prosodiasta ovat keskittyneet runon metriikkaan ja rytmiin
kirjoitetun runon kannalta [kts. Hočevar, 2003] eivätkä niinkään prosodisiin elementteihin
lausunnassa. Puhesynteesin puolella prosodiaa on tutkittu runonlausuntaa matalammalla
1 http://doi.org/10.5281/zenodo.4317747
6
tasolla [kts. Kenter et al., 2019], sekä myös laulujen syntetisoinnin näkökulmasta. Laulujen
syntetisointi on kuitenkin vaatinut sitä, että ihmiskäyttäjä muokkaa synteesin parametreja käsin
[Kenmochi & Ohshita, 2007] tai että synteesiä tehdään tunnettujen laulujen pohjalta
[Saino et al., 2006]. Toisaalta viime vuosina on tuotettu musiikkia [Cho et al., 2016] sekä
lyriikatonta lauluääntä [Liu et al., 2020]. Runokone kuitenkin vaatii, että lausuntaa voidaan
tuottaa täysin uusille runoille ilman käyttäjän erikseen tekemiä määrityksiä.
Runoja on tuotettu koneellisesti jo hyvin pitkään eri kielillä kuten suomeksi [Hämäläinen
& Alnajjar, 2019], espanjaksi [Gervás, 2001] ja englanniksi [Colton et al., 2012]. Sen lisäksi on
tuotettu myös laulunsanoja [Zhang, 2017], sekä ei-rytmistä tekstiä kuten iskulauseita [Alnajjar, 2019]
ja vuoropuhelua [Colombo et al., 2019; Alnajjar & Hämäläinen, 2019]. Mikään näistä metodeista
ei ole tuottanut ääntä, vaan ainoastaan tekstiä.
Runonlausuntataide
Runonlausunta on oma taidemuotonsa, joka ei ole yksinomaan sidottu kirjoitetun runon
metriikkaan ja rytmiin, vaan runonlausunnan tehtävänä on tulkita runo lausutussa muodossa, joka
ei kirjoituksen ilmaisuvoiman köyhyyden puitteissa ole runossa itsessään mahdollista. Mikäli runo
luettaisiin suoraan, kuin mikä tahansa teksti, ilman tulkintaa, olisi silloin kyse runonluennasta,
ei lausunnasta [Mehto, 2008: 153].
Mitä sitten ovat metriikka ja rytmi, jotka esiintyvät runossa jo ennen sen lausuntaa?
Zirmunskij [kts. Hočevar, 2003] määrittelee metriikalle kolme pääkomponenttia. Ensimmäinen
komponentti on kielen luonnolliset foneettiset piirteet, kuten sanapainon määräytyminen. Tämä
tarkoittaa esimerkiksi suomen kielen osalta sitä, että sanan pääpaino on lähes aina sanan alussa.
Toinen komponentti on itse runomitta, jonka hän määrittelee ideaaliksi säännöksi, joka säätelee
vahvojen ja heikkojen puheäänteiden vaihtelua säkeen sisällä. Kolmas komponentti, rytmi, on
puolestaan lopullinen realisaatio, joka on kahden edeltävän komponentin yhdistelmä; tietty
runomitta vaatii, että sanapainot jakautuvat tietyllä tavalla, mutta toisaalta jokaisella kielellä
on oma säännöstönsä painotukselle.
Kuitenkaan rytmiä eivät aina rajoita kielen omat painotussäännöt. Runoilija voi valita,
kirjoittaako hän runon niin, että kielen oma painotus menee yksi yhteen runomitan kanssa,
vai kirjoittaako hän runon niin, että kielen painotusta rikotaan, jotta runomitta täyttyisi
[Halle & Keyser, 1966: 188]. Kaikille tutuin esimerkki kielen painotussääntöjen rikkomisesta
mitan vuoksi löytynee suvivirren säkeestä, jossa lauletaan ”koristaa kukkanen”. Tässä sanan
pääpaino siirtyy sen luonnollisesta positiosta, eli ensimmäiseltä tavulta, toiselle tavulle.
Kun siirrytään kirjoitetusta kielestä lausunnan puolelle, emme voi välttää tulkintaa. Runon
oma mitta antaa vain lähtökohdan lausunnalle, mutta lausujan tehtäväksi jää puhaltaa runon
prosodia henkiin tulkinnallaan. Lausunta voidaan jakaa kahteen koulukuntaan [Mehto, 2008].
Ensimmäisen koulukunnan edustajat painottavat tekstikeskeistä lähestymistapaa. Tämä tarkoittaa
sitä, että tulkitsija on vain viestinviejä, jonka tehtävänä on tulkinnallaan tuoda esiin vain ne piirteet,
jotka runoilija itse olisi halunnut tuotavan esiin. Lausuja siis ikään kuin puhuu runoilijan äänellä
tulkitessaan runoa.
Toinen koulukunta edustaa esiintyjäkeskeistä lähestymistapaa. Tekstikeskeisyydestä
poiketen, esiintyjäkeskeisyys painottaa runonlausujan oman itsensä kautta tapahtuvaa tulkintaa.
Salosaari [1995: 74] näkee lausunnan sitä luovempana, mitä kauempana se on kirjoitetun runon
sille asettamista rajoitteista. Hänen ajattelussaan korostuu runonlausunnan rooli omana itsenäisenä
taidemuotonaan, jonka ei tulekaan olla kahlittu runoilijan tarkoittaman tulkinnan orjalliseen
noudattamiseen, vaan lausuja saa ottaa tulkinnassaan vapauksia.
Mehto [2008: 90] jakaa runonlausujan positiot kolmeen kategoriaan: toistajaan, kaivajaan
ja kaappaajaan. Toistajan tehtävä on tekstikeskeinen. Hän vain lausuu runon sellaisena
kuin se vaikuttaisi olevan. Kaivaja puolestaan pureutuu runoon pintaa syvemmältä, ja hän pyrkii
7
tuomaan esiin runossa piilossa olevia merkityksiä. Kaappaaja nimensä veroisesti kaappaa runon
itselleen käyttäen sitä hyväkseen oman itseilmaisunsa välineenä. Tällainen runonlausunta on
äärimmilleen vietyä esiintyjäkeskeisyyttä.
Runonlausunta korpuksessa
Tässä osiossa keskityn analysoimaan neljää lausuttua runoa: Eeva-Karina Volasen lausumaa
Kaarisiltaa, Ture Juntun lausumaa Hymyilevää Apolloa, Jyrjö Jyrinkosken lausumaa Kaivoa
ja Helina Svensson-Timarin lausumaa Kukkivaa maata. Lausuntanauhoitteet on otettu YLE:n
elävästä arkistosta2. Pääpainona on selvittää erilaiset prosodiset keinot ja niiden käyttötapaukset
lausunnassa.
Aikaisemmat tutkimukset kielen prosodiasta yleisellä tasolla osoittavat, että puheessa
tärkeitä sanoja korostetaan tietyin prosodisin piirtein. Informaatiorakenteen hahmottamisen
kannalta tärkeää on taukojen pituus sekä äänenkorkeus [Geluykens & Swerts, 1994]. Tarinoissa
merkittävä käänne merkitään usein korkeammalla äänenkorkeudella ja äänenvoimakkuudella
sekä pidemmällä tauolla [Chafe, 1994: 131]. Korkealla äänenkorkeudella [Brown, 1983]
ja -voimakkuudella [Wells, 1986] osoitetaan myös lauseen fokus.
Tärkeää tietoa voidaan korostaa myös hidastamalla puhenopeutta [Quené, 2007]. Pitkillä
tauoilla puolestaan ositetaan puheenaiheen vaihtumista [Geluykens & Swerts, 1994]. Tässä osiossa
tehtävän analyysin pohjalta on mielenkiintoista nähdä, esiintyvätkö nämä muussa kielenkäytössä
käytettävät prosodiset piirteet samoissa funktioissa myös runonlausunnassa.
Sanojen painotus
Sanojen painottaminen vaikuttaa olevan korpuksen kaikkien runojen lausunnoissa yleinen
tehokeino. Painotusta tapahtuu useissa erilaisissa yhteyksissä, jotka käydään tutkimuksen tässä
osiossa läpi.
Lausunnassa toistuvia sanoja painotetaan erityisesti. Tämä pitää entenkin paikkaansa silloin,
kun sama sana toistuu peräkkäin kuten Kukkivan maan 10. säkeessä, «Elää, elää, elää!”, sekä
Hymyilevän Apollon 16. ja 24. säkeessä: ”Niin suuri, suuri on maa” ja ”Niin pieni, pieni on maa”.
Mikäli sama toistuva sana on runon tematiikan tai säkeistön kannalta niin merkittävä, että
se halutaan tuoda erikseen esille, sitä voidaan painottaa, vaikkeivät sanan esiintymät seuraisikaan
välittömästi toisiaan. Tämä voidaan havaita saman säkeistön sisäisessä toistossa esim. Kaivon 21.
ja 23. säkeessä, ”Lähtee mies, kun vettä pyytää veikko/.../lähtee, koska veljellä on jano”, saman
runon 35., 37. ja 38. säkeessä, ”verta valunut on kaivoon, josta/.../verta pulppuavat suonet lähteen/
verta valuvaiseen iltatähteen”, sekä Hymyilevän Apollon 35. ja 36. säkeessä: ”Kuka tietävi, mistä
me tulemme?//ja missä on matkamme määrä?”
Toistuvien sanojen kohdalla on myös mahdollista, että sanoista painotetaan vain yhtä
eikä suinkaan kaikkia. Tämä johtunee siitä, että mikäli useaa toisiaan lähellä olevaa saman
sanan esiintymää painotetaan, eikä kyseessä ole runon teeman kannalta niin merkittävä sana, se
vie lausunnan fokuksen epäolennaiseen. Esimerkkinä tästä ilmiöstä on Kaarisillan 5. ja 6. säe:
”Tee silta ylitse syvyyden,/tee, kaarisilta tee,”.
On myös huomattava, että edellisten esimerkkien lisäksi painotus on mahdollista, vaikka
toisto tapahtuisi säkeistöjen yli. Tällöin osa saman sanan esiintymistä voi olla painottomia.
Esimerkiksi Kaarisillan 2., 4., 14. ja 16. säkeessä toistuva sana (kaari)silta on painotettu, mutta
se esiintyy runossa myös ilman painoa: ”sinulta, lapseni tahdon, että kaarisillan teet./.../
ja kaarisillalle tulevat he ahdistuksissaan.//pane kappale silta-arkkuun, niin saat sillan
kantamaan/.../he antavat sen anteeksi, jos sillan rakennat”.
Painotuksessa toisto ei rajoitu ainoastaan kokonaisten sanojen tasolle, sillä myös
allitteraatioiden, eli alkusointujen, kohdalla painotus on erittäin yleistä kaikkien korpuksen
2 https://yle./aihe/artikkeli/2008/09/18/toivokaa-toivokaa-toivokaa-runoja
8
runojen kohdalla. Esimerkkejä tästä löytyy esimerkiksi Kukkivan maan 19. säkeestä, ”onhan
kukittu kerta” ja Kaarisillan 9. ja 10. säkeestä: ”ja multa-anturoin – miten sillan kyllin kantavan/ja
kirkkaan tehdä voin”. On tärkeää huomata edeltävässä esimerkissä, että allitteraatio ja sen
johdosta myös painotus voivat jatkua säerajan sekä ei-allitteroivien sanojen yli.
Korpuksesta löytyy myös esimerkki samassa positiossa olevien loppusoinnullisten sanojen
painottamisesta Hymyilevän Apollon 18.-20. säkeestä: ”On ketoja auran kääntää,/on lehtoja laulella
neitojen/ja saloja sulhojen vääntää”. Loppusoinnuille on kuitenkin tyypillisempää, ettei niitä
painoteta. Tästä löytyy esimerkki edeltävästä esimerkistä, jossa loppusoinnulliset sanat kääntää
ja vääntää esiintyvät ilman painoa.
Samassa positiossa säkeiden alussa olevat sanat voivat myös olla painotettuja riippumatta
niiden foneettisesta samankaltaisuudesta. Tällainen ilmiö näkyy esimerkiksi Hymyilevän Apollon
37.-39. säkeessä: ”Mut yhden me tiedämme varmaan vaan:/Me olemme kerran nyt päällä
maan/ja täällä meidän on eläminen”.
Säkeen alussa ilmenevät topikalisoidut kieltorakenteet esiintyvät korpuksessa painotettuina.
Esimerkkinä tästä on Hymyilevän Apollon 5. ja 25. säe: Ei tuomitse se, joka ymmärtää/.../
Ei paha ole kenenkään mieli”. Esimerkeistä voi havaita, että kiellon kohdetta painotetaan, mutta
myös ensimmäisessä esimerkissä itse kielteinen apuverbi on painotettuna, mikä johtunee siitä,
että kiellon kohteena oleva verbi tuomita on menettänyt osan niittisyydestään apuverbille, minkä
takia molemmat saavat painotuksen.
Rakenteelliset seikat eivät kuitenkaan riitä selittämään kaikkea painotusta. Suuri osa
voimakkaista tunteisiin vetoavista ilmauksista on painotettu. Näihin sanoihin kuuluu myös
uskonnollisia sanoja. Tällaisia sanoja ovat muun muassa: veri, houria, huumaava, armo sekä
Jumala. Esimerkkeinä näistä nostettakoon Kukkivan maan 8. ja 15. säe, ”Kuumaa ja värisevää
ja hulluksijuovuttavaa/.../huumaavasti, täyteläästi elää!”, sekä Hymyilevän Apollon 8. säe: ”Sen
kautta käy Jumalan tie”. Ilmaukset voivat koostua myös useammasta kuin yhdestä sanasta, kuten
Kaivon 14. säkeessä: ”astiaas vain mustaa lunta syydä”.
Tässä osiossa käytyjen painotusten lisäksi Hymyilevässä Apollossa ja Kaivossa esiintyy
painotusta, jota ei voida selittää rakenteella eikä ilmaisujen tunteita ja tuntemuksia välittävällä
funktiolla. Näiden painotusten tarkoitus on yksinkertaisesti korostaa jotain säkeen sanaa muita
enemmän johtuen lausujan tekemästä tulkinnasta. Jos jotakin muuta säkeen sanaa korostettaisi
painolla, runon tulkinta muuttuisi. Tästä löytyy esimerkkejä muun muassa Kaivon 7. säkeestä:
”korsun yllä soi tykkien jyry”. Esimerkin säkeessä olisi mahdollista painottaa vaikkapa tykkejä
tai jyryä, mutta lausuja on päätynyt postposition painotukseen. Tällainen puhtaasti tulkintaan
perustuva painotus on tietokoneen kannalta ongelmallista tuottaa ja siksi tähän kategoriaan
kuuluvien säkeiden painotusta ei käsitellä tässä tutkimuksessa sen tarkemmin.
Puhenopeus
Puhenopeuden hidastamisen lisäksi korpuksessa on tyypillistä myös lausua joitain säkeen
osia tavallista nopeammin. Nopeuden osalta Kukkiva maa erottuu selvästi muista runoista sillä,
että se lausutaan kokonaan normaalia puhetta nopeammalla tempolla.
Monissa yhteyksissä nopea ja hidas lausunta esiintyy saman säkeen sisällä luoden suuremman
kontrastin. Näin käy esimerkiksi Kukkivan maan 5. säkeessä, ”lainehtivat niityt mielettöminä
merinä”, joka alkaa nopeasti hidastuen loppua kohti. Tällaisessa yhteydessä hitaaseen lausuntaan
liittyy myös vahvempi painotus. Voidaan siis sanoa, että säkeessä olevan painoton ei-tärkeä aines
lausutaan nopeasti, jotta se ikään kuin jää taka-alalle. On myös merkittävää huomata, että nopea
lausunta edeltää säkeen sisällä aina hidasta lausuntaa.
Nopea lausunta on muutoinkin yleisintä säkeen alussa. Jos myös painollinen sana sattuu
säkeen alkuun, ei loppusäkeessä enää esiinny normaalia puhetta hitaampaa lausuntaa, vaan
lausunta jatkuu normaalilla nopeudella. Esimerkkejä nopeasta lausunnasta painotettujen sanojen
9
kohdalla löytyy muun muassa Kaarisillan 4. säkeestä, ”ja kaarisillalle tulevat he ahdistuksissaan”,
sekä Hymyilevän Apollon 7. säkeestä: ”ja ihmiset toistansa lähemmä vie.” Vaikuttaisi siltä, että
tällaisissa yhteyksissä normaalilla nopeudella lausuttu, painoton osuus nousee vähintäänkin
yhtä merkittävään rooliin kuin painotettu osuus. Nopeus tavallaan lieventää painotusta, muttei
kuitenkaan riitä tekemään siitä merkityksetöntä.
Kokonaiset säkeet voidaan lausua nopeasti, mikäli kyse on rinnasteisista rakenteista. Näin
käy sekä Kukkivan maan 4. säkeessä, Sinisiä, keltaisia, valkeita kukkia”, että Kaivon säkeessä:
”tuskissansa huokuva ja heikko,”. Tällöin säkeitä ei myöskään korosteta millään muulla prosodisella
elementillä kuten painolla, tauoilla jne.
Kahdessa tapauksessa nopea lausunta on vasta säkeen lopussa. Nämä tapaukset ovat
Kukkivan maan 1. säe, ”Maa kuohuu syreenien sinipunaisia terttuja”, sekä Kaivon 18. säe: ”kurkut
kuivat, vihlovaiset haavat”. Kummassakaan säkeessä ei esiinny painotusta tai normaalia hitaampaa
lausuntaa.
Kaivosta löytyy myös kaksi esimerkkiä siitä, että kokonainen säe lausutaan hitaasti. Näin
käy 13. säkeessä, ”Janoos älä täällä vettä pyydä”, sekä 36. säkeessä: ”yksikään ei enää vettä nosta”.
Molemmat säkeet ovat kielteisiä eikä niissä painoteta mitään sanaa erityisesti. Hitaan lausunnan
tehtävä näyttää olevan kielteisyyden voimistaminen silloin kun halutaan korostaa kokonaista
säettä jonkin sen osan sijaan.
Mielenkiintoinen piirre löytyy myös Kaivon 30. Säkeestä, ”viipyy vesimies ei mitään
muuta”, jossa sana viipyä lausutaan erityisen hitaasti. Vastaavanlaisia tapauksia, missä sanan
semanttinen merkitys sopii lausunnan prosodiaan, on havaittavissa myös muiden prosodisten
elementtien, kuten äänenvoimakkuuden, kohdalla.
Vain yhdessä tapauksessa nopea lausunta esiintyy ainoastaan säkeen keskellä. Näin käy
Hymyilevän Apollon 23. säkeessä: ”ja kohti taivasta tavoittakaa!”. Säkeessä ei esiinny muita
prosodisia tehokeinoja, joten on oletettavaa, että tässä kohtaa lausuja on tulkinnut sanan taivas
vähemmän muita sanoja merkittäväksi.
Äänenvoimakkuus
Äänenvoimakkuus esiintyy korpuksen runoissa sekä hiljaisempana että kovempana lausuntana.
Kukkiva maa on tässä suhteessa mielenkiintoinen, sillä se on kokonaan lausuttu suhteellisen
kovalla äänellä verrattuna korpuksen muihin runoihin. Vaihteluita äänenvoimakkuudessa tapahtuu
toki tämänkin runon lausunnassa.
Kuten puhenopeudenkin kohdalla, myös äänenvoimakkuuden suhteen on havaittavissa se
ilmiö, että sanojen semantiikka vaikuttaa äänenvoimakkuuteen. Esimerkiksi Kaivon 5. säe vaikuttaa
seuraavan säkeen alun lausuntaan: ”haavoissaan vain joku hiljaa huokaa:/veljet, vesitilkka tuokaa”.
Esimerkistä näkyy, kuinka huoata-verbi vaikuttaa seuraavan säkeen alkuun niin, että se lausutaan
tavallista hiljaisemmalla äänellä. Hymyilevästä Apollon 12. säkeestä löytyy esimerkki siitä, että
semantiikan takia sana lausutaankin normaalia kovemmalla äänellä: ”niin ette niin kovat oisi!”.
Kovaa ja hiljaista ääntä voidaan käyttää myös saman säkeen sisällä luomaan kontrastia.
Näin käy Kukkivan maan 15. säkeessä, jossa kaksi painotettua ja tauoilla toisistaan erotettua
sanaa lausutaan eri äänenvoimakkuudella luomaan kontrastia: ”huumaavasti, täyteläästi, elää!”.
Hymyilevän Apollon 1. säkeessä hiljempaa lausutussa osassa ei ole painoa, vaan ainoastaan kovalla
äänellä lausuttu osio on painollinen: ”Oi, antaos, Herra sa auringon,”.
Hymyilevän Apollon 17.–20. säkeessä tapahtuu jotain mielenkiintoista. Jokaisen säkeen
alun sanat on painotettu ja lisäksi kaikissa ensimmäistä lukuun ottamatta on samassa positiossa
loppusoinnulliset sanat. Tämä säkeiden samankaltaisuus johti siihen, että kaikki säkeet on lausuttu
kauttaaltaan kovemmalla äänellä: ”Tääll’ on toki tilaa kaikillen,/On ketoja auran kääntää,/
on lehtoja laulella neitojen/ja saloja sulhojen vääntää.”. Saman säkeistön sisällä luodaan
säkeistön alun äänenvoimakkuuteen kontrastia 24. säkeessä hiljaisella lausunnalla: ”Niin pieni,
10
pieni on maa.”. Tässä säkeessä voidaan myös havaita semantiikasta johtuva hiljainen
äänenvoimakkuus; säe lausutaan siis ”pienellä” äänellä.
Kukkivassa maassa elämisestä tehdään motiivi; kun eläminen mainitaan ensimmäistä kertaa,
se lausutaan painotettuna ja kovalla äänellä. Kun elää-verbiä toistetaan myöhemmin, se lausutaan
sekä hiljaisemmalla äänellä että ilman painoa. Tämä käy ilmi 10.–13. säkeestä:”Elää, elää, elää!/
Elää raivokkaasti elämän korkea hetki,/terälehdet äärimmilleen auenneina,/elää ihanasti kukkien,”.
Säkeet, joissa on alussa paino yhdellä sanalla eikä mitään muita prosodisia tunnusmerkkejä,
voidaan lausua kovemmalla äänellä, kuten Hymyilevän Apollon 13. ja 39. säkeessä: ”Miks emme
me kaikki yhtyä vois?/…/ja täällä meidän on eläminen,”.
Yleistä intuitiota vastoin, huutomerkki ei näytä suinkaan tarkoittavan automaattisesti
kovempaa äänenvoimakkuutta. Kukkivan maan 6. säkeestä löytyy jopa täysin vastakkainen
esimerkki, jossa huutomerkkiin päättyvä säe onkin lausuttu hiljaisella äänellä: ”Ja tuoksua!”.
Säkeessä ei ole edes painotettu mitään sanaa eikä siinä liiemmin esiinny muitakaan prosodisia
piirteitä. Säe kuvastaa selkeimmillään esiintyjäkeskeistä lausuntatapaa, missä runoilijan asettama
huutomerkki jätetään täysin kunnioittamatta.
Äänenkorkeus
Korpuksessa käytetään sekä korkeampaa että matalampaa ääntä korostamaan säkeen osia.
Kukkiva maa poikkeaa muista runoista sillä, että se on lähes kokonaisuudessaan lausuttu tavallista
puheääntä korkeammalla äänellä. Korkeampi lausuntaääni on muutoinkin korpuksessa matalaa
yleisempää.
Kuten tutkimuksessa on muidenkin piirteiden kohdalla usein todettu, myös
äänenkorkeuteen vaikuttaa sanojen semantiikka. Kaivossa 5. säkeen huoata-verbi vaikuttaa
seuraavaan säkeeseen niin, että se lausutaan matalammalla äänellä: ”haavoissaan vain joku
hiljaa huokaa:/veljet, vesitilkka tuokaa”. Myös löyhempi semanttinen kytkös saattaa vaikuttaa
matalaan lausuntaan. Esimerkiksi Kaarisillan 5. säkeen syvyys-sana lausutaan matalasti, kuten
myös sitä seuraava säe, ”Tee silta ylitse syvyyden/tee, kaarisilta tee”, tässä yhteydessä on tärkeää
huomauttaa, että molemmat säkeet lausutaan yhteen ilman taukoa, mikä mahdollistaa sen, että
syvyys-sana vaikuttaa myös seuraavaan säkeeseen.
Matala ääni esiintyy myös usein hitaan lausunnan yhteydessä. Näin on esimerkiksi Kukkivan
maan 5. säkeessä, ”lainehtivat niityt mielettöminä merinä”, sekä Kaivon 30. säkeessä semanttisen
merkityksen takia: ”viipyy vesimies, ei mitään muuta”. On huomattava, että edeltävässä esimerkissä
vain viipyä-verbi on lausuttu hitaasti, mutta tämän hitaan lausunnan vaikutus yltää koko säkeeseen.
Osa painotetuista vahvoista, tunteisiin vetoavista ilmaisuista on lausuttu matalalla äänellä
korostamaan painotuksen vaikutusta. Esimerkkinä tästä voidaan nostaa Kukkivan maan 9. säe,
”pakanallista maan ihon tuoksua”, sekä Hymyilevän Apollon 21. säe: ”Kas, lempi se maailman
levittää”. Tämä ilmiö on mahdollinen myös korkealla äänellä lausuttuna, kuten esimerkiksi
Kukkivan maan 7. säkeessä: ”Ihanampaa kuin pyhä suitsutus!”.
Runon motiivia korostetaan usein korkealla äänellä, etenkin silloin, kun se sattuu olemaan
säkeen alussa. Tästä hyviä esimerkkejä ovat Kaarisillan 4. säe, ”ja kaarisillalle tulevat he
ahdistuksissaan”, sekä Kaivon 11. säe: ”kaivon luona luoti tapas monta”. Näin painotuksen
korostava vaikutus vahvistuu entisestään korkean äänen ansiosta.
Hymyilevän Apollon erityispiirteenä on se, että imperatiivimuodot lausutaan usein säkeen
lopussa korkealla äänellä. Näin on 11., 15. ja 22. säkeessä: ”Oi, ihmiset, toistanne ymmärtäkää/…/
Oi, ihmiset, toistanne suvaitkaa!/…/Oi, ihmiset, toistanne lempikää”.
Vaikka korkea ääni kulkee pitkälti käsi kädessä painotuksen kanssa, on korpuksessa myös
korkealla äänellä lausuttuja kohtia, joissa ei ole painoa. Selvennykseksi todettakoon, etteivät
painolliset sanat saa läheskään aina korkeaa lausuntaa, vaan että korkea lausunta on lähes aina
painotettua. Esimerkit painottomista korkealla äänellä lausutuista sanoista ovat sellaisia, että
11
niissä esiintyy jonkinlainen vastakkainasettelu. Esimerkkejä ilmiöstä löytyy Kaivon 2. säkeestä,
”hyökkäystä ei, vain tykkitulta”, jossa oletettu hyökkäys rinnastetaan todellisen tilanteen kanssa,
sekä 1. säkeestä, ”Talvipäivä puolessa on vasta”, jossa vasta-sanalla korostetaan vastakkaisuutta
sen toiveen kanssa, että päivä olisi jo ehtinyt pidemmälle.
Tauot
Korpuksessa esiintyy kahdenlaista tauotusta: pitkää ( || ) ja lyhyttä ( | ). Näillä tauoilla on eri
funktio ja niitä käytetään erilaisissa yhteyksissä, jopa saman säkeen sisällä.
Nyrkkisääntönä voidaan sanoa, että säkeiden välissä on tauko. Tähän sääntöön löytyy
kuitenkin korpuksesta poikkeuksia. Säkeet lausutaan yhteen ilman taukoa usein, jos edeltävä
säe ei pääty välimerkkiin. Esimerkkinä Kukkivan maan 4. ja 5. säe: ”Sinisiä, keltaisia, valkeita
kukkia(/)lainehtivat niityt mielettöminä merinä.”. Kaarisillassa on myös mahdollista, että säkeet
lausutaan yhteen ilman taukoa, jos edeltävä säe päättyy pilkkuun, kuten 5. ja 6. säkeessä: ”Tee silta
ylitse syvyyden,(/)tee, kaarisilta tee,”. Pilkkua ei siis aina nähdä riittävän vahvana välimerkkinä,
että se aiheuttaisi tauon säerajalle. Muita välimerkkejä, kuten pistettä ja huutomerkkiä puolestaan
kunnioitetaan aina.
Pitkä tauotus esiintyy ennen sitaattia kaksoispisteen jälkeen. Esimerkkinä tästä nostettakoon
Kaarisillan 1. säe, ”Ja Jumala sanoi:|| Toisille annan toiset askareet, “, sekä Kaivon 39. ja 40.
säe: “Haavoissaan vain joku hiljaa huokaa:||/veljet,| vesitilkka tuokaa”. Edeltävässä esimerkissä on
myös lyhyt tauko vokatiivisen pilkun yhteydessä. Hymyilevän Apollon 1. säkeessä on samanlainen
vokatiivinen pilkutus, jonka yhteydessä esiintyy pitkä tauko. Tauon pituus johtuu siitä, että se on
säerajalla, jolloin muutoinkin tulisi lyhyt tauko, joten taukoa halutaan korostaa pituutta lisäämällä:
”Oi, antaos, Herra sa auringon,||”.
Lyhyitä taukoja esiintyy myös rinnasteisten rakenteiden välillä, etenkin silloin kun ja-
konjunktio rinnastaa kokonaisia lauseita. Tästä ilmiöstä löytyy esimerkki Kaivon 33. säkeestä:
”Päivä hämärtyy | ja vihdoin kuullaan”. Taukoja esiintyy myös silloin kun rinnastetaan lausekkeita
lauseen sisällä, kuten Kaarisillan 12. säkeessä, ”Ja Jumala sanoi:|| Verellä | ja kyynelillä vain” sekä
Kaivon 4. säkeessä: ”Alla maan on tyyntä,| kodikasta;”. Kuitenkaan kaikkia rinnasteisia rakenteita
ei tauoteta. Tauotus vaikuttaa olevan keino korostaa entisestään rinnasteisten rakenteiden itsenäistä
merkitystä.
Itsenäistä merkitystä korostetaan myös tauotuksella silloin, kun kaksi asiaa asetetaan
vastakkain esimerkiksi vertailun avulla. Esimerkiksi Kaivon 2. säkeessä on vastakkainasettelu
odotetun hyökkäyksen ja todellisen tilanteen välillä, ”hyökkäystä ei,| vain tykkitulta:”, sen takia
säkeessä esiintyy myös tauko. Kaarisillan 20. säkeessä komparatiivin jälkeen käytetään pitkää
taukoa, ”ei mikään kimalla kauniimmin || kuin puhtaat | kyyneleet”, pitkä tauko johtunee tässä
yhteydessä siitä, että säkeessä esiintyy myös toisenlainen tauotus.
Edeltävän esimerkin mukaista adjektiivi- tai nominilausekkeen sisäistä tauotusta esiintyy
myös muualla korpuksessa. Kukkivan maan 23. säkeessä tässä yhteydessä käytetään pitkää taukoa,
mutta postpositio on kuitenkin erotettu lyhyellä tauolla: ”olemusten || värisevään || pohjaan | asti”.
Pitkät tauot johtunevat siitä, että kaikkia muita sanoja postpositiota lukuun ottamatta painotetaan.
Tällaisissa lausekkeiden sisäisissä tauoissa halutaan korostaa lausekkeen osien itsenäistä
merkitystä, kuten sitä, että juuri puhtaus saa kyyneleet kimaltamaan kauniisti. Niiden lausekkeiden
löytäminen, joiden sisäinen tauotus on mielekästä, voi olla tietokoneen tuottamalle lausunnalle
liian haastava tavoite tämän tutkimuksen puitteissa. Mutta ilmiö on kuitenkin yleinen kauttaaltaan
koko korpuksessa.
Ehkä helpompi tauotuspiirre löytyy alisteisten sivulauseiden ja päälauseiden rajalta.
Lähes aina, kun sivu ja päälauseen raja asettuu säkeen sisälle, siinä on lausuttaessa lyhyt tauko.
Esimerkiksi Kaarisillan 16. säkeessä sivulause erotetaan tauolla, ”he antavat kyllä sen anteeksi,|
jos sillan rakennat”, näin käy myös Kaivon 21. säkeessä: ”Lähtee mies,| kun vettä pyytää
12
veikko,”. Myös relatiivilauseet aiheuttavat tauon, kuten Kaivon 35. säkeessä: ”verta valunut on
kaivoon,| josta”.
Jumala-sanaa korostetaan usein molemmissa runoissa, joissa se esiintyy sitä edeltävällä
lyhyellä tauolla. Näin on esimerkiksi Kukkivan Apollon 8. säkeessä, ”Sen kautta käy | Jumalan
tie.”, sekä Kaarisillan 17. säkeessä: ”Tee silta | Jumalan kunniaksi, || kaarisilta tee,”.
Edeltävässä Kaarisillan esimerkissä on myös huomattavaa, että runon motiivia, kaarisiltaa,
korostetaan tauolla, eikä suinkaan tällä kertaa painolla. Näin käy myös muualla korpuksessa, kuten
Kukkivan maan 15. säkeessä, ”huumaavasti || täyteläästi | elää!”, jossa elää-verbiä korostetaan.
Onkin siis tärkeää todeta, että runoissa toistuvien ilmausten merkintä ei rajoitu ainoastaan
sanapainoon, vaan myös tauotusta voidaan käyttää vaihtoehtoisena tapana korostaa runon motiivia.
Hymyilevässä Apollossa on mielenkiintoinen piirre kas-sanan yhteydessä, sillä se erotetaan
aina tauolla kuin myös sitä seuraava ilmaus, esimerkiksi 21. ja 29. säkeessä, ”Kas,| lempi se |
maailman levittää./…/Kas,| hymy | jo puoli on hyvettä”, käy näin. Kas-sanalla tuodaan esiin säkeen
subjekti, joka puolestaan erotetaan selkeästi predikaatista tauolla. Tällä lausunnalla korostetaan
sitä, että kyseessä on juurikin se asia, joka sattuu olemaan lauseen subjektina.
Hymyilevälle Apollolle on myös tyypillistä tauottaa säe predikaatin jälkeen, etenkin silloin,
kun predikaatti on painollinen, kuten esimerkiksi 3. ja 38. säkeessä: ”niin soittaisin || laulua
sovinnon,/…/Me olemme | kerran nyt päällä maan”. Tällainen tauotus ei esiinny korpuksen muissa
runoissa, ja siksi sen syitä ei käsitellä tässä työssä sen tarkemmin.
Muut piirteet
Runonlausunnassa käytettiin korpuksessa myös paljon äänenkäytöllisesti monimutkaisempia
piirteitä, joihin asti en oleta puhesynteesillä vielä päästävän, toki neuroverkoilla piirteitä voi
mallintaa, mikäli dataa olisi saatavilla [kts. Hannun, 2014). Käsittelen tässä osiossa kuitenkin
kaikista ilmeisimmät monimutkaiseen äänenkäyttöön liittyvät piirteet.
Kuten olemme aikaisemmissa luvuissa huomanneet, sanojen semantiikalla on vaikutusta
lausuntaan. Tämä on totta myös äänenlaadun kannalta. Kukkivan maan 8. ja 9. säe lausutaan
värisevällä äänellä, ”Kuumaa ja värisevää ja hulluksijuovuttavaa/pakanallista maan ihon tuoksua!”,
sillä 8. säkeestä alkava lause sisältää sanan värisevää.
Kukkivassa Apollossa 35. säkeen ensimmäinen sana lausutaan huokaavalla äänellä: ”Hyvä
että me sitäkin tutkimme”. Tässä yhteydessä huokaava sävy ei johdu sanan semantiikasta, vaan
runonlausujan tekemästä tulkinnasta. Tietokoneelle on äärimmäisen hankala päästä vastaavaan
tulkintaan saatikka tuottaa sopivan huokaavalta kuulostavaa ääntä puhesynteesillä. Siksi nämä
monimutkaiset äänenkäytölliset jäävätkin kuriositeeteiksi odottamaan mahdollista jatkotutkimusta.
Synteesin kannalta huomattavasti edellisiä helpompi piirre löytyy Kukkivan maan 16.–18.
säkeestä, jotka ovat puhdasta runonluentaa, eivätkä lausuntaa: ”Mitä siitä, että kuolema tulee!/
Mitä siitä, että monivärinen ihanuus/värisee kuihtuneena maahan.”. Pelkkä luenta asettaa tässä
yhteydessä vastakkain kuolemaa käsittelevän osuuden lausutun osuuden kanssa, joka korostaa
elämää ja sen ihanuutta.
Analyysin yhteenveto
Analyysistä käy ilmi kaksi merkittävää prosodiaan vaikuttavaa piirrettä: semantiikka
ja toisto. Sanojen merkitysten todettiin vaikuttavan prosodiaan puhenopeuden, äänenkorkeuden
sekä äänenvoimakkuuden kohdalla. Toisto vaikuttaa puolestaan eniten painotuksen määräytymiseen
niin sanojen kuin tavujenkin kohdalla, kuten esimerkiksi alkusoinnuissa. Runon motiivia voidaan
korostaa painotuksen lisäksi myös korkealla lausuntaäänellä. Vaihtoehtoisesti motiivia voidaan
korostaa tauotuksella painotuksen sijaan.
Myös vahvat tunteisiin vetoavat ilmaukset ovat lausunnan kannalta merkittäviä. Niitä
merkitään usein painolla, mutta sen lisäksi myös matalalla lausuntaäänellä. Näiden sanojen lisäksi
erityisessä asemassa on Jumala-sana, jota merkitään usein painon lisäksi sitä edeltävällä tauolla.
13
Painotusta voidaan lievittää nopealla lausunnalla. Nopeaa lausuntaa esiintyy myös
rinnasteisissa rakenteissa, kuten listoissa. Tällaisissa rinnasteisissa rakenteissa sekä vertailevissa
rakenteissa voidaan käyttää myös taukoja korostamaan osien itsenäistä merkitystä. Vertailevissa,
vastakkaisuutta korostavissa rakenteissa käytetään usein myös korkeaa lausuntaääntä.
Tauotusta esiintyy pitkänä ennen sitaatteja ja useimmiten lyhyenä säkeiden ja alisteisten
sivulauseiden sekä relatiivilauseiden ja päälauseen rajalla. Tauotusta esiintyy siis yleensä ennen
välimerkkejä, mutta kuitenkaan pilkun tapauksessa näin ei aina ole. Pilkun yhteydessä esiintyy
kuitenkin paino silloin, kun sen merkitys on vokatiivinen.
Äänenvoimakkuudella luodaan kontrastia hiljaa ja kovaa lausutun osuuden välillä. Kova
äänenvoimakkuus on yleisintä säkeissä, jotka alkavat painollisella sanalla, ja jotka eivät sisällä
muita prosodisia piirteitä. Mielenkiintoisena seikkana havaittiin, ettei huutomerkki vaikuta
äänenvoimakkuuteen.
Nopea lausunta on yleisintä säkeen alussa. Hidasta lausuntaa puolestaan esiintyy kokonaisissa
säkeissä, jotka ovat merkitykseltään kielteisiä. Matala ääni on usein yhteydessä hitaaseen
lausuntaan.
Jos vertaamme prosodiaa runonlausunnassa analyysin alussa esitettyihin yleisemmän
kielenkäytön pohjalta tehtyihin tutkimuksiin, voimme havaita joitakin yhtäläisyyksiä, kuten
sen, että korkealla äänellä osoitetaan lauseen fokus, tämä havainto on linjassa sen kanssa, että
korkealla äänellä merkitään usein runon motiivia. Kuitenkaan nämä yleisemmät tutkimustulokset
eivät mitenkään riitä selittämään runonlausunnassa esiintyviä prosodisia piirteitä. Runonlausuntaa
vaikuttaisi siis ohjailevan selvästi normaalista puheesta poikkeavat lainalaisuudet.
Prosodian tuottaminen
Tässä osiossa luotava algoritmi pohjaa tutkimuksen edeltävän osion analyysin tuloksiin.
Algoritmin tarkoituksena on ottaa sisään syötteenä automaattisesti olemassa olevilla metodeilla
[Hämäläinen & Rueter, 2018; Hämäläinen & Alnajjar, 2019] tuotettu runo ja tuottaa sille SSML3-
annotaatio, jonka avulla puhesyntetisaattori voi syntetisoida prosodian, eli lausua runon pelkän
lukemisen sijaan.
Synteesin tuottamiseen käytetään eSpeak4-syntetisaattoria, sillä se on vapaasti saatavilla ja se
tukee SSML-annotoitujen tiedostojen syntetisointia myös suomen kielellä. ESpeak on monikielinen
syntetisaattori, joka syntetisoi puhetta äänteiden formantteja syntetisoimalla. Se ei siis yhdistele
oikeiden puhujien äänitteitä yhteen, kuten monet muut perinteiset puhesyntetisaattorit.
Ensimmäinen ongelma kuitenkin ennen synteesiä on SSML-annotaation tuottaminen. Tämä
tehdään tunnistamalla runosta erilaisia piirteitä, joiden avulla algoritmi luo sopivan lausunnan
runolle. Ennen kuin piirteitä voidaan alkaa tunnistaa, on syötteenä tuleva runo tokenisoitava ja
analysoitava. Tokenisaatio tarkoittaa tekstin jakamista sanaesiintymiin. Näin myös esimerkiksi
välimerkit erotetaan omiksi tokeneikseen, eli esiintymikseen.
Saatavilla oleva valmis TreeTagger5-työkalu kykenee tokenisoimaan syötteen,
lemmatisoimaan siinnä olevat sanamuodot, eli tuottamaan niiden perusmuodot, sekä merkitsemään
kunkin sanaesiintymän sanaluokan. TreeTagger osaa desambiguoida homonyymit automaattisesti
tilastollisen mallin avulla. Tämä on suunnaton etu Omorin6 nähden, sillä Omor hallitsee
vain morfologian. Omor pystyy myös lemmatisoimaan saneet että tuottamaan niille niiden
sanaluokkatiedot, mutta desambiguointi kontekstin perusteella työkalulta ei onnistu.
TreeTagger-analyysin jälkeen runo on valmis sopivien piirteiden tunnistamiseen.
Loppuosa tästä osiosta on jaettu tunnistettavien piirteiden mukaan.
3 SSML eli Speech Synthesis Markup Language on W3C-standardoitu merkintäkieli puhesynteesiä varten.
4 http://espeak.sourceforge.net/index.html
5 TreeTagger [Schmid, 1994] on binääriseen päätöspuuhun perustuva tilastollinen työkalu sanaluokkien merkitsemiseen.
6 Omor [Pirinen, 2015] on äärellistilainen automaatti, joka pystyy jäsentämään sanojen morfologiaa sekä tuottamaan
sanamuotoja valmiin jäsennyksen avulla.
14
Motiivi ja rinnasteisuus
Runon motiivilla tarkoitetaan toistuvaa ilmausta. Kuten analyysiosiossakin näimme, toistuvat
ilmaukset ovat erityisen tärkeitä lausunnan painotuksen kannalta. Koska TreeTagger tuottaa
saneille lemmatisoinnin, lemmojen frekvenssin laskeminen helpottuu. Muutoin järjestelmän olisi
liki mahdotonta laskea tietyn lemman esiintymiä suomen kielen rikkaan morfologian takia.
Pelkkä lemmojen laskeminen ei kuitenkaan riitä. Saneita on myös suodatettava ennen
frekvenssien laskemista. Lauseen lopettavat välimerkit (SENT) sekä muut välimerkit (Punct)
on suodatettava pois laskuista; eihän esimerkiksi pilkku voi olla runon motiivi, vaikka se
onkin todennäköisesti yleisin runossa esiintyvä lemma. Myös konjunktiot on hyvä suodattaa
pois. Näihin kuuluvat rinnastuskonjunktiot (CC) sekä alistuskonjunktiot (CS), joita runoissa
on runsaasti, mutta jotka vain harvemmin nousevat motiiviksi. Lisäksi suodatetaan pronominit
(Pron), jotka toki voisivat nousta runon motiiviksi, mutta suuremman tarkkuuden saamiseksi ne
on suodatettava pois, sekä kopula, joka yleisyytensä vuoksi olisi järjestelmän mielestä kaikkien
runojen motiivi.
Suomen kielelle tyypillinen piirre on yhdyssanojen muodostus. Kuten analyysissäkin
näimme, Kaarisillan tapauksessa runon silta-motiivi esiintyy välillä yhdyssanassa kaarisilta
ja välillä erillisenä sanana. Tämän vuoksi frekvenssejä laskettaessa on hyvä rikkoa yhdyssanat
osiin, jotta saamme laskettua kaikki sananesiintymät. TreeTagger osaa vain harvoin merkitä
yhdyssanarajat, tämän vuoksi tarvitaan lisäanalyysiä Omorlla. Omor kykenee nimittäin
jakamaan saamansa yhdyssanasyötteen yhdyssanan muodostaviin sanoihin. Kun frekvenssejä
lasketaan, järjestelmä voi Omorn ansiosta laskea yhdyssanojen osat erikseen.
Rinnasteisia rakenteita tunnistettaessa tunnistus keskittyy rinnastuskonjunktioiden (CC)
tunnistamiseen. Pilkut katsotaan rinnasteisiksi silloin, kun niitä ei seuraa jokin konjunktio (CC tai
CS) eikä relatiivipronomini (joka, mikä). Näin järjestelmä voi tunnistaa listoja ja muita rinnasteisia
rakenteita, joiden lausunnassa oli analyysin valossa erityispiirteitä.
Allitteraatio ja riimit
Allitteraation, eli alkusoinnun, tunnistamista varten järjestelmän on käsiteltävä kaikkia
säkeitä yhtenä säkeenä, sillä jo analyysistäkin näimme, että allitteraatioketjut eivät rajoitu vain
yhden säkeen sisään, vaan ne rikkovat säerajat. Allitteraatiosta suodatetaan SENT- ja Punct-
leimoilla annotoidut saneet, sillä ne ovat välimerkkejä.
Saneista katsotaan allitteraatiota vain ensimmäisen kirjaimen suhteen
kirjainkokoriippumattomasti. On toki mahdollista, että runossa on paremminkin allitteroivia
sanoja, joissa kokonainen ensimmäinen tavu on sama. Vain yhtä kirjainta katsomalla,
järjestelmä löytää kuitenkin suurimman määrän allitteraatioita, joita ei aseteta keskenään
paremmuusjärjestykseen allitteroivan osan pituuden osalta. Järjestelmä sallii yhden ei-
allitteroivan sanan kahden keskenään allitteroivan sanan välissä. Näin järjestelmä kykenee
tunnistamaan myös Kaarisillassa esiintyvän allitteraation, ”…kyllin kantavan/ja kirkkaan…”,
sillä yksittäinen ja-sana sallitaan allitteraatioketjun sisällä.
Analyysissä havaitsimme, että eri säkeissä samassa positiossa oleva äänteellinen
samankaltaisuus on tärkeää lausunnan kannalta. Tätä samankaltaisuutta nimitetään työn tässä
osiossa yksinkertaisesti riimiksi, vaikkei kyse välttämättä olekaan saneiden lopussa esiintyvästä
samankaltaisuudesta.
Jotta pääsemme tutkimaan riimejä, meidän on ensin tavutettava saneet. Näin on mahdollista
tavuja laskemalla selvittää, mitkä riimit ovat samassa positiossa peräkkäisissä säkeissä. Tavutus
hoituu helpoiten FinMeter7-työkalulla.
Kuten allitteraation tapauksessa, myös riimejä etsittäessä SENT- ja Punct-lemmatut saneet
hypätään kokonaan yli. Mikäli samassa positiossa olevien saneiden tavut ovat samat, lisätään
7 https://github.com/mikahama/nmeter [Hämäläinen & Alnajjar, 2019].
15
ne riimilistaan. Kuitenkin, mikäli kyseiset saneet ovat saman sanan ilmentymiä, niitä ei katsota
riimeiksi. Suomen kielen osalta on järkevää katsoa myös assonanssia. Tämä on kannattavaa
esimerkiksi vokaalisoinnun takia, sillä nyt järjestelmä löytää äänteellisen samankaltaisuuden
vaikkapa sanamuotojen kasissa ja käsissä välillä.
Tunteisiin vetoavat sanat
Tunteisiin vetoavien sanojen tunnistaminen on edeltäviä osioita astetta hankalampi
tehtävä. Koska tämä työ ei pituutensa puolesta riitä mitenkään kattamaan kokonaista
sentimenttianalyysijärjestelmää, on käytettävä olemassa olevaa ratkaisua. SentiWordNet [Esuli
& Sebastiani, 2006] on tietokanta, joka sisältää kolmiarvoisen annotaation WordNet8-synsetiä
kohti. Annotaatiosta käy ilmi synonyymijoukon positiivisuus, negatiivisuus sekä objektiivisuus.
Tunteisiin vetoavuuden kannalta tärkeintä on sanojen negatiivisuus sekä positiivisuus.
Koska SentiWordNet on rakennettu WordNetin päälle, ja WordNetistä on julkaistu
suomenkielinen versio, FinnWordNet [Lindén & Carlson, 2010], on mahdollista käyttää
SentiWordNetin annotaatioita suomenkielisen materiaalin kanssa. Tämä ei kuitenkaan ole
täysin ongelmatonta. Koska runoista saadaan ulos vain lemmat, eikä suinkaan sitä tietoa,
mihin synonyymijoukkoon kukin lemma viittaa, antaa FinnWordNet jokaiselle lemmalle useita
mahdollisia semanttisia tulkintoja, joiden väliltä järjestelmän on kyettävä valitsemaan sopivin
tulkinta. Tämän lisäksi FinnWordNet on käännetty suhteellisen huolimattomasti, sillä esimerkiksi
sanalle nainen järjestelmä ehdottaa synonyymeiksi sanoja huora, hutsu, ja lutka, kun taas mies-
sanalle järjestelmä ei ehdota mitään negatiivista.
Semanttisen tulkinnan valitsemista voisi suorittaa suhteessa virkkeen muiden sanojen
semanttisiin tulkintoihin. WordNet tarjoaa mahdollisuuden laskea synonyymijoukkojen välisen
semanttisen etäisyyden pituutta, jolloin järjestelmä voisi valita toisiaan semanttisesti lähimpänä
olevat tulkinnat. Kuitenkin aikaisemmassa tutkimuksessani [Hämäläinen, 2016: 45–46]
osoittautui, etteivät WordNetin semanttiset etäisyydet ole alkuunkaan luotettavia, joten siksi tässä
tutkimuksessa etäisyydet jätetään käyttämättä hyväksi. Sen sijaan, järjestelmä valitsee merkitysten
joukosta sen, jolla on SentiWordNetin mukaan suurin positiivisuus- tai negatiivisuusarvo.
SentiWordNetissä negatiivisuus ja positiivisuus on annettu desimaalilukuna, jonka arvo on
0:n ja 1:n avoimella välillä. Saneet, joiden negatiivisuus- ja positiivisuusarvot jäävät nollaan, eivät
ole tunteisiin vetoavia. Muilla sanoilla on kuitenkin tällainen ominaisuus, ja järjestelmä käsittelee
ne tunteisiin vetoavina.
Semantiikka
Sanojen merkitys on hyvin tärkeä osa runonlausuntaa. Järjestelmän on mukailtava sanojen
merkitystä ja lausuttava hitaasti sanat, jotka kuvaavat hidasta toimintaa, sekä hiljaisella äänellä
sanat, jotka kuvaavat hiljaisia asioita. Tämä on helpointa saavuttaa vertaamalla sanojen hidas,
nopea, hiljainen, kova, tärkeä ja merkityksetön sanavektoreita runon sanojen vektoreihin
käyttämällä valmiiksi tuotettua word2vec-mallia [Laippala & Ginter, 2014].
Tämän lisäksi semantiikkaa voidaan hahmottaa SemFin avulla [Hämäläinen, 2018b].
Järjestelmä tuottaa prosodisen annotaation verbeille, joihin liittyvät adverbit hitaasti, nopeasti,
hiljaan, kovaan, tärkeästi ja vähäpätöisesti syntaktisella yhteydellä.
Loppupäätelmät
Tässä artikkelissa olemme analysoineet neljän runon lausuntaa prosodian näkökulmasta
sekä kuvanneet laskennallisen mallin runonlausunnan syntetisointiin automaattisesti. Alustava
laskennallinen järjestelmä voi toimia suunnannäyttäjänä jatkotutkimukselle aiheesta, sillä sekä
runonlausuntaa että sen tuottamista on tutkittu erittäin vähän.
8 WordNet [Miller, 1995] on tietokanta, johon on tallennettu lemmojen viittaukset synonyymijoukkoihin, joilla tarkoite-
taan synonyymien muodostamaa joukkoa. WordNet sisältää myös tietoa mm. antonymiasta, hyponymiasta ja hyperonymiasta.
16
Prosodialla on runonlausunnassa yhteläisyyksiä prosodiaan yleisessä kielenkäytössä.
Esimerkiksi runon motiivi osoitetaan usein korkealla äänellä, aivan kuin fokus normaalissa puheessa.
On kuitenkin selvää, etteivät yleisen tason tutkmustulokset riitä kuvaamaan runonlausuntaa, sillä
se on normaalista puheesta täysin erillinen järjestelmä omine lainalaisuuksineen.
Tutkimuksen aikana tuotettu korpus, johon analyysi pohjaa, on julkaistu avoimesti
Zenodossa9. Korpus on tokenisoitu sanatasolla ja jaettu säkeiden mukaan äänitiedostoihin sekä
niitä vastaaviin tekstitiedostoihin, jotka on annotoitu prosodian mukaan. Tekijänoikeussyistä
korpuksen lauseet on sekoitettu satunnaiseen järjestykseen.
Lähteet:
Alnajjar, K. Computational Analysis and Generation of Slogans. MSc Thesis. University
of Helsinki, 2019.
Alnajjar, K., & Hämäläinen, M. A Creative Dialog Generator for Fallout 4. // Proceedings
of the 14th International Conference on the Foundations of Digital Games [48] ACM. 2019.
Brown, G. Prosodic structure and the given/new distinction // A. j. Cutler, Prosody: Models and Measurements.
Heidelberg: Springer Berlin Heidelberg. 1983. Рp. 67–67.
Chafe, W. Discourse, consciousness, and time. The ow and displacement of conscious experience
in speaking and writing. Chicago: University of Chicago Press. 1994.
Cho, W. I., Kim, J. H., Cheon, S. J., & Kim, N. S. Rule-Based Generation of Four-Part Chorus
Applied With Chord Progression Learning Model // The Journal of Korean Institute
of Communications and Information Sciences, 41(11). 2016. Рp. 1456–1462.
Colombo, P., Witon, W., Modi, A., Kennedy, J., & Kapadia, M. Aect-Driven Dialog Generation //
Proceedings of the 2019 Conference of the North American Chapter of the Association for
Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers).
2019. Рp. 3734–3743.
Colton, S., Goodwin, J., & Vea l e , T. Full-FACE poetry generation // 3rd International Conference
on Computational Creativity, ICCC 2012. University College Dublin. 2012. Рp. 95–102.
Esuli, A., & Sebastiani, F. Sentiwordnet. A publicly available lexical resource for opinion mining.
Proceedings of LREC, 6. 2006. Рр. 417–422.
Geluykens, R., & Swerts, M. Prosody as a Marker of Information Flow // Spoken Discourse. Language and
speech, 37(1). 1994. Рp. 21–43.
Gervás, P. An expert system for the composition of formal spanish poetry // Applications and Innovations
in Intelligent Systems. VIII Springer. London, 2001. Рp. 19–32.
Halle, M., & Keyser, S. J. Chaucer and the Study of Prosody. College English, 28(3). 1966. Рp. 187–219.
Hannun, A., C ase , C. , Casper, J., Catanzaro, B., Diamos, G., Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates,
A., & Ng, A. Y. Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv. 2014.
Рp. 1412–5567.
Hočevar, D. Movement and poetic rhythm: uncovering the musical signication of poetic discourse
via the temporal dimension of the sign. Acta Semiotica Fennica XVII. Approaches
to Musical Semiotics 5. Studia Musicologica Universitatis Helsingiensis X. 2003.
Hämäläinen, M., & Alnajjar, K. Let’s FACE it: Finnish Poetry Generation with Aesthetics and Framing //
K. V. Deemter, C. Lin, & H. Takamura (Eds.), 12th International Conference on Natural Language
Generation: Proceedings of the Conference. The Association for Computational Linguistics. 2019.
Рp. 290–300.
Hämäläinen, M., & Rueter, J. Development of an Open Source Natural Language Generation Tool for
Finnish // Proceedings of the Fourth International Workshop on Computational Linguistics of Uralic
Languages. The Association for Computational Linguistics, 2018. Рp. 51–58.
Hämäläinen, M. Reconocimiento automático del sarcasmo - ¡Esto va a funcionar bien!
MA Thesis. University of Helsinki, 2016.
Hämäläinen, M. Poem Machine - a Co-creative NLG Web Application for Poem Writing // The 11th
International Conference on Natural Language Generation: Proceedings of the Conference. The
Association for Computational Linguistics, 2018a. Рp. 195–196.
9 http://doi.org/10.5281/zenodo.4317747
17
Hämäläinen, M. Extracting a Semantic Database with Syntactic Relations for Finnish to Boost Resources
for Endangered Uralic Languages. In The Proceedings of Logic and Engineering of Natural Language
Semantics 15 (LENLS15) [9]. 2018b.
Hämäläinen, M. Generating Creative Language – Theories, Practice and Evaluation. PhD Thesis.
University of Helsinki. 2020.
Kenmochi, H., & Ohshita, H. VOCALOID Commercial singing synthesizer based on sample concatenation
// INTERSPEECH, 2007. Рp. 4009–4010.
Kenter, T., Wa n, V., Chan, C. A., Clark, R., & Vi t, J. (2019). CHiVE: Varying prosody
in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network
// International Conference on Machine Learning, 2019. Рp. 3331–3340.
Laippala, V., & Ginter, F. Syntactic n-gram collection from a large-scale corpus of internet Finnish //
Human Language Technologies-The Baltic Perspective: Proceedings of the Sixth International
Conference Baltic HLT. 2014. Vol. 268. Р. 184.
Lindén, K., & Carlson, L. FinnWordNet – WordNet på nska via översättning. LexicoNordica – Nordic
Journal of Lexicography, (17). 2010. Рp. 119–140.
Liu, J. Y., Chen Y. H ., Ye h, Y. C ., & Yan g , Y. H. Score and Lyrics-Free Singing Voice Generation // Proceedings
of the 11th International Conference on Computational Creativity (ICCC’20), 2020.
Mehto, K. Lausunta taiteena ja tapahtumana. Helsingin yliopisto, 2008.
Miller, G. A. WordNet: a lexical database for English. Communications of the ACM, 38(11). 1995. Рp. 39–41.
Pirinen, T. A . Omor—Free and open source morphological lexical database for Finnish //
Proceedings of the 20th Nordic Conference of Computational Linguistics, NODALIDA 2015. Рр. 313–315.
Quené, H. On the just noticeable dierence for tempo in speech // Journal of Phonetics, 35(3). 2007. Pp.
353–362.
Saino, K., Zen, H., Nankaku, Y., Lee, A., & Tokuda, K. An HMM-based Singing Voice Synthesis System //
INTERSPEECH. 2006. Рp. 2274–2277.
Salosaari, K. Lähtökohtia lyriikan semiotiikkaan sekä yleiseen strukturaalipoetiikkaan. Tampere: Tampereen
yliopisto, 1995. Vol. 29.
Schmid, H. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International
Conference on New Methods in Language Processing, 1994.
Wells, W. H. An experimental approach to the interpretation of focus in spoken English. Intonation in
discourse. 1986. Рp. 53–75.
Zhang, S. RankLyrics: A ranking-based approach to automatic song lyrics generation // Mid-Atlantic
Student Colloquium on Speech, Language and Learning, 2017.
Мика Хямялайнен
PhD, исследователь
Финляндия, Хельсинки, Хельсинкский университет
Джек Рютер
PhD, исследователь
Финляндия, Хельсинки, Хельсинкский университет
ПРОСОДИКА ЧТЕНИЯ СТИХОВ И ЕЕ МОДЕЛИРОВАНИЕ
С ПОМОЩЬЮ МАШИННОГО СИНТЕЗА
Artikkeli tutkii runonlausuntaa laadullisen korpusperustaisen analyysin kautta eritellen
prosodisia piirteitä sekä niiden toiminnallista merkitystä. Analyysi pohjautuu neljään lausuttuun
runoon. Lopuksi eritellään laskennallisen algoritmin toimintaa, joka tuottaa puhesynteesiin
prosodisia piirteitä niin, että se mukailee oikeaa runonlausuntaa. Tutkimus luo katsauksen
monitieteelliseen aihealueeseen, jota on tutkittu vain vähän.
Keywords: recitation of poetry, computational creativity, digital humanism, Finnish
language.
ResearchGate has not been able to resolve any citations for this publication.
Thesis
Full-text available
This thesis presents approaches to computationally creative natural language generation focusing on theoretical foundations, practical solutions and evaluation. I defend that a theoretical definition is crucial for computational creativity and that the practical solution must closely follow the theoretical definition. Finally, evaluation must be based on the underlying theory and what was actually modelled in the practical solution. A theoretical void in the existing theoretical work on computational creativity is identified. The existing theories do not explicitly take into account the communicative nature of natural language. Therefore, a new theoretical framework is elaborated that identifies how computational creativity can take place in a setting that has a clear communicative goal. This introduces a communicative-creative trade off that sets limits to creativity in such a communicative context. My framework divides creativity in three categories: message creativity, contextual creativity and communicative creativity. Any computationally creative NLG approach not taking communicativity into account is called mere surface generation. I propose a novel master-apprentice approach for creative language generation. The approach consists of a genetic algorithm, the fitness functions of which correspond to different parameters defined as important for the creative task in question from a theoretical perspective. The output of the genetic algorithm together with possible human authored data are used to train the apprentice, which is a sequence-to-sequence neural network model. The role of the apprentice in the system is to approximate creative autonomy. Evaluation is approached from three different perspectives in this work: ad-hoc and abstract, theory-based and abstract, and theory-based and concrete. The first perspective is the most common one in the current literature and its shortcomings are demonstrated and discussed. This starts a gradual shift towards more meaningful evaluation by first using proper theories to define the task being modelled and finally reducing the room for subjective interpretation by suggesting the use of concrete evaluation questions.
Conference Paper
Full-text available
This paper introduces the second version of SemFi, a semantic database for Finnish with syntactic relations. The previous version of SemFi has been used in poem generation, and thus it has application area in NLG applications. In addition to extending SemFi, this paper describes and evaluates its translation into four endangered Uralic languages , Skolt Sami, Erzya, Moksha and Komi-Zyrian, all of which are greatly under-resourced. The translated dataset is known as SemUr.
Conference Paper
Full-text available
The present paper describes a corpus-based singing voice synthesis system based on hidden Markov models (HMMs). This system employs the HMM-based speech synthesis to synthesize singing voice. Musical information such as lyrics, tones, durations is modeled simultaneously in a unified framework of the context-dependent HMM. It can mimic the voice quality and singing style of the original singer. Results of a singing voice synthesis experiment show that the proposed system can synthesize smooth and natural-sounding singing voice.
Article
Speakers vary their speech tempo (speaking rate), and such variations in tempo are quite noticeable. But what is the just noticeable difference (JND) for tempo in speech? The present study aims at providing a realistic and robust estimate, by using multiple speech tokens from multiple speakers. The JND is assessed in two (2IAX and 2IFC) comparison experiments, yielding an estimated JND for speech tempo of about 5%. A control experiment suggests that this finding is not due to acoustic artefacts of the tempo-transformation method used. Tempo variations within speakers typically exceed this JND, which makes such variations relevant in speech communication.
Conference Paper
The song submitted here to the "Synthesis of Singing Challenge" is synthesized by the latest version of the singing synthesizer "Vocaloid", which is commercially available now. In this paper, we would like to present the overview of Vocaloid, its product lineups, description of each component, and the synthesis technique used in Vocaloid. Index Terms: singing synthesis
Article
Because meaningful sentences are composed of meaningful words, any system that hopes to process natural languages as people do must have information about words and their meanings. This information is traditionally provided through dictionaries, and machine-readable dictionaries are now widely available. But dictionary entries evolved for the convenience of human readers, not for machines. WordNet ¹ provides a more effective combination of traditional lexicographic information and modern computing. WordNet is an online lexical database designed for use under program control. English nouns, verbs, adjectives, and adverbs are organized into sets of synonyms, each representing a lexicalized concept. Semantic relations link the synonym sets [4].
CHiVE: Varying prosody in speech synthesis with a linguistically driven
  • T Kenter
  • V Wan
  • C A Chan
  • R Clark
  • J Vit
Kenter, T., Wan, V., Chan, C. A., Clark, R., & Vit, J. (2019). CHiVE: Varying prosody in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network // International Conference on Machine Learning, 2019. Рp. 3331-3340.