Asiantuntijoiden kirjoituksia ajankohtaisista kielikysymyksistä. Laaja blogi- ja kolumniarkisto.

Dokumentaatio

Lappeenrantalaismies löi toista nenään baarissa. Uutisia ja uutisia

Vesa Heikkinen, Outi Lehtinen ja Mikko Lounela

Teoksessa Tekstien arki. Tutkimusmatkoja jokapäiväisiin merkityksiimme

Aineistot

  • Perusaineisto (PERUS). Aineistossa on tekstejä maakunnallisten sanomalehtien tavallisilta uutissivuilta (ei etusivuilta, ei pääuutissivuilta, ei talous-, kulttuuri- tms. osastoilta) ei kuitenkaan mainoksia eikä säätiedotuksia. Tekstit ovat seuraavista lehdistä: Aamulehti, Etelä-Saimaa, Keskisuomalainen, Kouvolan Sanomat, Lapin Kansa, Länsi-Suomi, Savon Sanomat ja Turun Sanomat. Lehdet ovat ilmestyneet 11.–15.3.2002 ja 18.–22.3.2002. Tekstejä on yhteensä 547. Aineistoa käytetään vertailuaineistona kvantitatiivisessa analyysissa.

  • Ydinaineisto (YDIN). Ydinaineisto on perusaineiston osa-aineisto. Tekstit ovat päiviltä 11.–15.3.2002. Mukana ovat kaikki alle satasanaiset uutiset tuolta viikolta perusaineistoon valituilta uutissivuilta. Alle satasanaisista on perusjoukosta karsittu pois muutama toimittajan kommenttiteksti ja oikaisuja. Ydinaineistossa on 198 tekstiä. Aineistoa analysoidaan sekä kvalitatiivisesti että kvantitatiivisesti.

  • Selkouutiset (SELKO). Selkouutisten tutkimusaineisto koostuu Selkouutiset-lehden kotimaan uutisista maaliskuusta 2001 kesäkuuhun 2003. Aineisto on tallennettu Selkouutisten Internet-sivujen arkistosta. Tekstejä on 106. Aineistoa käytetään vertailuaineistona kvantitatiivisessa analyysissa.

  • Tarja Halosen uudenvuodenpuheet (HALONEN). Aineistossa on Internetistä poimitut uudenvuodenpuheet vuosilta 2001, 2002 ja 2003. Aineistoa käytetään vertailuaineistona kvantitatiivisessa analyysissa.

Aineistojen koodaus

Saadaksemme tutkimusaineiston (lähinnä sanastollis-kieliopillisia) muuttujia koskevia lukuja olemme XML-pohjaisella TEI-merkkauskielellä merkinneet (elektronisiin) teksteihin erikseen otsikot ja leipätekstin tekstikappaleet. Tekstiin olemme merkinneet virkkeiden alut ja loput. Tekstin sanoihin olemme lisänneet Lingsoft OY:n Fintwol-analysaattorin sille antamat perusmuodot ja morfologiset tulkinnat. Fintwolin tarjoaman analyysin olemme disambiguoineet manuaalisesti, eli kaikista mahdollisista tulkinnoista olemme jättäneet kullekin sanalle käyttöyhteyteen parhaiten sopivan.

Valittuihin tulkintoihin olemme lisänneet joitakin yli sanarajan meneviä morfosyntaktisia tietoja, kuten sen, onko verbi osa liittomuotoa (perfektiä tai pluskvamperfektia). Aineistossa on sanoja, joita Fintwol ei tunnista (yleensä erisnimiä). Niihin emme ole lisänneet analyyseja, vaan olemme jättäneet ne tunnistamattomiksi. Moniosaiset numerot (esim. 10 000 000) on tulkittu yhdeksi sanaksi, paitsi jos loppuosa on ilmaistu kirjaimin (esim. 10 miljoonaa). Adjektiivin ja verbin partisiippimuodon erottamiseen on rajatapauksissa käytetty Suomen kielen perussanakirjaa; mikäli ongelmallinen sana saa perussanakirjassa adjektiivitulkinnan, myös me tulkitsemme sen adjektiiviksi, kun se esiintyy määreenä.

Muuttujat ja niiden määritelmiä

Olemme valinneet kvantitatiivisen analyysin muuttujat lähinnä kahdesta syystä. Ensinnäkin käyttämämme analyysiohjelma (Fintwol, ks. Koskenniemi 1983) tuottaa tietoa pelkästään tietyistä morfologisista muuttujista. Toiseksi tutkimuskysymyksemme ovat ohjanneet meitä tiettyjen piirteiden tarkastelemiseen. Emme siis pysty tarjoamaan täydellistä saati tyhjentävää analyysia kaikista ydinaineistomme teksteistä tai uutisesta tekstilajina, vaan olemme joutuneet tekemään tutkimuskysymystemme ohjaamia valintoja. Analyysejamme voikin pitää aineiston katseluna eri näkökulmista: tällaisen katselun jälkeen on mahdollista muodostaa yksi kokonaiskuva aineistosta.

Muutamat tutkimistamme kielellisistä muuttujista ovat samat kuin Saukkosella teoksessa Maailman hahmottaminen teksteinä (2001). Meidän laskelmiamme ja Saukkosen laskelmia ei kuitenkaan voi suoraan verrata toisiinsa, koska lähtökohdat, analyysimetodit ja piirteiden määritelmät eivät kaikin osin ole samat. Tutkimuksemme täydentää Saukkosen laajaa analyysia. Me keskitymme melko suppeaan sanastollisten ja kieliopillisten piirteiden joukkoon. Toisaalta analysoimme muutamaa yksittäistä tekstiä ja ydinaineiston lähes kahden sadan tekstin joukkoa joistakin näkökulmista hyvinkin yksityiskohtaisesti. Lisäksi tutkimme joitakin sellaisia muuttujia, joita Saukkosen tutkimuksessa ei käsitellä.

Käymme seuraavassa läpi aineistosta laskettujen numeeristen muuttujien operationaaliset määritelmät eli sen, miten ne on laskettu. Mikäli toisin ei ole mainittu, luvut kuvaavat vain leipätekstiosaa. Otsikoiden teksti on toisin sanoen jätetty pois analyysista. Mikäli muuta ei ole mainittu, luvut on laskettu manuaalisesti korjailtujen Fintwol-analyysien perusteella. Mikäli muuttujia ei ole mainittu tässä liitteessä, niitä on analysoitu aineistosta ilman koneellista analyysia.

Taulukko 1. Aineistoja kuvaavia tunnuslukuja.

Taulukon 1 muuttujat on laskettu analysoidusta aineistosta koneellisesti:

  • Tekstimäärä: Aineiston tekstien määrä, laskettu käsin lisättyjen text-elementtien (teksti) määrästä aineistossa.

  • Sanamäärä: Sanojen määrä aineistossa, laskettu Fintwol-analyysin perusteella automaattisesti lisättyjen w-elementtien (sana) määrästä aineistossa (mukana siis myös numerot ja välimerkit).

  • Tekstipituus: Aineiston tekstien keskipituus merkkeinä. Mukana kaikki aineistossa w-elementtien sisällä esiintyvät merkit.

  • Sanapituus: Sanoissa (kaikki w-elementtien sisällä olevat merkkijonot lukuun ottamatta Fintwolin tunnistamia välimerkkejä ja sananrajalla olevia tavuviivoja ja rivinvaihtoja) olevien merkkien määrä jaettuna aineiston sanojen määrällä.

  • Virkepituus: Kaikkien s-elementtien (virke) määrä jaettuna kaikkien s-elementtien sisällä esiintyvien w-elementtien määrällä.

  • Lausepituus: Kaikkien finiittiverbien määrä (Fintwol-analyysissa V-merkitsimen ja joko ACT- tai PSS-merkitsimen saaneet sanat) jaettuna kaikkien s-elementtien sisällä olevien sanojen määrällä.

Taulukko 2. Ydinaineiston tekstit informaatiovirrassa.

Muuttujien arvot (+/-) on analysoitu alkuperäisistä lehdistä ilman koneellista analyysia.

Taulukko 3. Välimerkit.

Muuttujat on laskettu Fintwolin aineistoista tunnistamista välimerkeistä (PUNCT-merkitsin).

Taulukko 4. Pääluokka.

Pääluokat on laskettu koneellisesti finiittiverbeistä. Finiittiverbejä ovat Fintwolin V-merkitsimellä varustamista sanoista ne, jotka saavat myös joko aktiivimuodon merkitsimen (ACT) tai passiivimuodon merkitsimen (PSS).

Taulukko 5. Luku.

Yksiköt ja monikot on laskettu koneellisesti kaikista niistä sanoista, joille Fintwol antaa joko yksikkö- tai monikkotulkinnan (SG tai PL).

Taulukko 6. Sanaluokka.

Sanaluokat on laskettu aineistojen leipätekstistä siten, että mikäli Fintwolin antamassa analyysissa on joku merkitsimistä N, V, PRON, A, C, ADV, AD-A, NUM, A/N, se luetaan sanaluokaksi, muuten joko johtotieto (DV-alkuiset merkitsimet) tai partisiippitieto (PCP-alkuiset merkitsimet), mikäli niitä on. Mikäli mitään näistä ei Fintwolin analyysista löydy, sanaluokkatiedoksi on otettu Fintwolin antaman analyysin ensimmäinen merkitsin. Muut-kohtaan kuuluvat myös Fintwolilta tunnistamatta jääneet sanat.

Taulukko 7. Aikamuoto.

Aikamuotojakauman preesens ja imperfekti on laskettu Fintwolin verbeille (V) antamista menneen ja nykyisen ajan merkitsimistä (PRES, PAST). Mukaan on laskettu ne, joita ei käsin ole merkitty osaksi liittomuotoa. Liittomuodot (perfekti ja pluskvamperfekti) on laskettu liittomuodon osiksi merkityistä apuverbeistä.

Taulukko 8. Aikamuodot tekstikolmanneksittain.

Arvot on laskettu automaattisesti siten, että kunkin aineiston kukin teksti on jaettu tasakolmanneksiin sanamäärän mukaan. Jokaisen tekstin kustakin kolmanneksesta on laskettu aikamuotojakauma kuten taulukossa 7. Taulukossa olevat luvut ovat aineistojen ensimmäisten, toisten ja kolmansien tekstikolmannesten keskiarvolukuja.

Taulukko 9. Otsikoiden sanaluokat.

Sanaluokat on laskettu kuten taulukossa 6, mutta vain otsikoista.

Taulukko 10. Kaikkien virkkeiden ensimmäisten teemaosien sanaluokat.

Sanaluokat on laskettu kuten taulukossa 6, mutta vain aineiston jokaisen virkkeen siitä osasta, joka edeltää ensimmäistä finiittiverbiä tai kieltoverbiä (Fintwol-merkitsin V, lisäksi joko PSS, ACT tai NEGV).

Taulukko 11. Teemaosien pituudet sanoina.

Teemaosien pituudet on laskettu teemaosista kuten taulukossa 10. Teemaosista on laskettu sanamäärien keskiarvot aineistoittain.

Taulukko 12. Tapaluokka

Tapaluokat on laskettu finiittiverbeistä (V sekä ACT tai PSS) siten, että mikäli sanalla on jokin Fintwol-merkitsimistä COND, IMPV tai PTN, se luokitellaan merkitsimen mukaisesti. Muussa tapauksessa sana tulkitaan indikatiiviksi. Indikatiiville ei Fintwol-analyysissa ole omaa merkitsintä, vaan se on finiittiverbin tapaluokan oletusarvo.

Taulukko 13. Verbien persoonapäätteet.

Verbien persoonapäätteiden jakauma on laskettu kaikista sanoista joille Fintwol antaa persoonapäätemerkitsimen (SG1, SG2, SG3, PL1, PL2, PL3).

Kaikki sanojen perusmuotojen yleisyyslistat on laskettu Fintwolin tunnistamien sanojen joukosta, Fintwolin antamien käsin disambiguoitujen sanaluokkamerkitsinten mukaan (kuten ne on tulkittu taulukossa 6).

Lukujen luotettavuus ja merkitsevyys

Analysoimamme aineistot ovat suhteellisen pieniä, mutta monipuolisesti koodattuja. Vaikka luvut sinänsä ovat luotettavia, joidenkin varsinkin harvoin esiintyvien piirteiden erot eivät mahdollisesti ylitä tilastollisen merkitsevyyden kynnystä. Käytämmekin lukuja lähinnä kvalitatiivisen analyysin apuna, tukena ja suuntaajina, emme niinkään itsenäisinä tuloksina.

Lähteet

Koskenniemi, Kimmo (1983). Two-level morphology. A general computational model for word-form recognition and production. Helsinki: University of Helsinki, Department of General Linguistics.

Saukkonen, Pauli (2001). Maailman hahmottaminen teksteinä. Tekstirakenteen ja tekstilajien teoriaa ja analyysia. Helsinki: Yliopistopaino.