Asiantuntijoiden kirjoituksia ajankohtaisista kielikysymyksistä. Laaja blogi- ja kolumniarkisto.

Tekstien kvantitatiivisia piirteitä: teksti ja tekstijoukko määrällisten muuttujien valossa

MIKKO LOUNELA

Tiivistelmä

Tässä julkaisussa käsitellään tekstilajeja, niiden ominaisuuksia ja rajoja monella tavalla. Yhteistä käsittelytavoille on se, että kukin niistä perustuu määrättyyn tekstijoukkoon ja sen ominaisuuksiin. Joukot (Turun Wikko-Sanomien vuosikerta, Suomen Kuvalehden vuosikerrat ja sosiaaliviraston kuljetuspalvelupäätökset) ovat eri ikäisiä, eri kokoisia ja eri tavoin käsiteltyjä. Yhteistä niille on kuitenkin se, että ne on koostettu sähköisiksi tutkimusmateriaaleiksi (sähköisiksi tekstijoukoiksi, korpuksiksi). Niistä voi siis tietokoneen avulla tehdä automaattisia laskelmia, jolloin päästään käsiksi tarkkoihin määrällisiin (kvantitatiivisiin) piirteisiin.

Tekstistä voi laskea sitä, mitä sinne on merkitty. Turun Wiikko-Sanomien ja Suomen Kuvalehden aineistot on käsitelty siten, että virkkeet voidaan erottaa toisistaan automaattisesti. Sosiaaliviraston päätökset taas on käsitelty siten, että tekstin sanojen perusmuodot ja morfologisia (muoto-opillisia) ominaisuuksia on merkitty aineiston sanoihin, jolloin siitä saatavien määrällisten tietojen joukko on huomattavasti isompi.

Vertaan nyt sosiaaliviraston aineistoa Savon Sanomien pikku-uutisista koostettuun, samalla tavalla muoto-opillisesti analysoituun aineistoon. Teen laskemia näistä tekstijoukoista sen mukaan, mitä niistä on laskettavissa. Vertailen eri tekstijoukkojen ominaisuuksia keskenään siinä, missä ne ovat vertailukelpoiset. Tarkoituksenani on pohtia, minkälaisia piirteitä teksteistä voidaan ylipäänsä laskea, mitkä määrälliset piirteet eri tekstijoukoissa ovat vertailukelpoisia ja miten eri tekstijoukot näiden piirteiden valossa erottuvat toisistaan.

Määristä

Teksteistä voidaan laskea monenlaisia asioita ja saada siten ”määrällisiä tietoja”. Näitä tietoja voivat olla esimerkiksi sanojen tai välimerkkien esiintymien määrät ja näiden määrien keskinäiset suhteet. Määrälliset tiedot voivat kertoa paljon tekstien viestinnällisistä ominaisuuksista. Tiedot ovat kuitenkin tulosta tulkitsemisesta ja yleistämisestä, ja siksi niihin on suhtauduttava kriittisesti.

Määrällisten mittausten tuloksia tulkittaessa on otettava huomioon muun muassa mitattavan aineiston koko ja aineiston sisäinen moninaisuus, vaihtelevuus. Mitä tasalaatuisempaa aineisto on, sitä pienempi määrä tekstejä riittää antamaan jokseenkin luotettavan kuvan sen määrällisistä ominaisuuksista. Suuri sekakoosteinen tai muuten epäyhtenäinen aineisto puolestaan voi hukuttaa massaansa monia mielenkiintoisia tekstien ominaisuuksia. Tutkin nyt esimerkkien avulla joitakin määrällisten kieliopillisten ominaisuuksien piirteitä tekstijoukoissa.

Yksi esimerkki määrällisestä ominaisuudesta on aineiston sanojen taajuuslista. Taulukossa 1 esitän kahden Savon Sanomien paikallisuutissivulta satunnaisesti valitun uutisen kymmenen yleisimmän perusmuodon listan. Yhdestä pikku-uutisesta laskettu sanalista kertoo paljon uutisen aiheesta, mutta ei välttämättä paljoakaan Savon Sanomien pikku-uutisten luonteesta saati sanomalehtitekstien ominaisuuksista yleensä.

Vertailun vuoksi taulukossa ovat myös samalla uutissivulla samalla viikolla ilmestyneiden uutisten yleisimmät perusmuodot, kahdeksan eri maakuntalehden uutiset samalta viikolta ja Suomen kielen taajuussanaston (Saukkonen ym. 1979) mukaiset kymmenen yleisintä suomen kielen sanaa. Savon Sanomien uutisten yleistä aihepiiriä edustavat vielä sanat vuosi ja mies, joista kumpikaan ei esiinny yksittäisten uutisten yleisimpien sanojen listassa. Muut sanat alkavat olla jo sellaisia kieliopillisia sanoja, jotka rakentavat tekstiä yleensä eivätkä niinkään kerro itse aiheesta. Kaikkien paikallislehtien listasta on mies jo tippunut pois, eikä taajuussanaston kymmenen yleisimmän sanan joukossa ole enää yhtään sellaista sanaa, joka suoraan kertoisi meille tekstien aihepiiristä.

Taulukko 1. Yleisimmät sanat muutamissa aineistoissa.


Uutinen 1 (12.3.2003)


Uutinen 2 (14.3.2003)

Savon Sanomien uutiset


Paikallislehtien uutiset

Suomen kielen taajuussanasto

vuosi
takalo
helena
olla
kilometri
viesti
pyhäjärvi
patsas
kymmenen
ja

tytär
tuomita
pahoinpitely
ja
isä
vankeus
törkeä
kuukausi
käräjäoikeus
kahdeksan

olla
ja
ei
se
vuosi
mies
myös
joka
että
hän

olla
ja
ei
se
vuosi
että
joka
myös
saada
hän

olla
ja
se
ei
joka
että
tämä
hän
voida
saada


Tekstin kielellisistä ja viestinnällisistä ominaisuuksista kertovia määrällisiä tietoja pitää yleensä verrata jonkin muun tekstin vastaaviin tietoihin, ennen kuin laskelmat kertovat tekstin luonteesta. Jos haluamme verrata tekstijoukkojen ominaisuuksia keskenään, tämä on vielä ilmeisempää. Määrälliset muuttujat saavat yleensä merkityksensä siitä, että niitä suhteutetaan jonkin toisen samassa todellisuudessa esiintyvän, suhteellisen samanlaisen tekstin vastaaviin ominaisuuksiin. Yllä olen verrannut toisiinsa sisältyvien joukkojen sanojen yleisyyttä keskenään (ja taajuussanaston vastaavaan tietoon). Jatkossa vertaan viiden erilaisen tekstijoukon määrällisiä ominaisuuksia keskenään. Joukot ovat seuraavat:

  • Turun Wiikko-Sanomien vuosikerta 1829
  • Suomen Kuvalehden vuosikerta 1917
  • Suomen Kuvalehden vuosikerta 1972
  • Helsingin sosiaaliviraston kuljetuspalvelupäätöksiä vuodelta 1995 (yhteensä 55)
  • Savon Sanomien paikallisuutisia vuodelta 2003 (yhteensä 80)


Vertailtavat tekstijoukot ovat monenkokoisia ja eri ajoilta. Eroja on myös siinä, kuinka yhtenäisiä joukot ovat sisäisesti. Wiikko-Sanomat ja Kuvalehdet on valittu julkaisijan mukaan, ja molemmat sisältävät erillisiä tekstejä, jotka voitaisiin selvästi lukea eri tekstityyppeihin. Tässä ne voivat edustaa 1800-luvun sanomalehtitekstiä ja 1900-luvun eri ajankohtien aikakauslehtitekstiä.

Kuljetuspalvelupäätökset ja paikallisuutiset ovat tekstijoukkoina yhtenäisempiä eli homogeenisempia, kuljetuspalvelupäätökset jopa kaavamaisen samankaltaisia. Savon Sanomien paikallisuutiset on valittu tekstijoukoksi muodollisen kriteerin mukaan, lehden ja sen sivun perusteella, tarkoituksena rajata tekstityyppiä hieman tarkemmin kuin valitsemalla koko sanomalehti (ks. Heikkinen ym. 2005).

Vertailen näiden viiden tekstijoukon määrällisiä piirteitä ja metatietoihin luettavia tekstin ulkoisia piirteitä. Tekstin ulkoiset piirteet kertovat jotain siitä, missä maailmassa ja mitä tarkoitusta varten tekstit on kirjoitettu. Näillä piirteillä on vaikutusta siihen, millaisia teksteistä on rakentunut. Määrälliset piirteet taas voivat kertoa teksteistä jotain sellaista, mikä ei tekstiä lukiessa heti osu silmään. Määrällisten piirteiden kertoma voidaan tulkita monella tavalla, ja tulkinnat on aina tarkistettava menemällä itse tekstiin katsomaan, mikä aiheuttaa esimerkiksi verbien poikkeuksellisen suuren osuuden tekstin sanaluokista tai sanojen poikkeuksellisen keskimääräisen pituuden. En nyt ryhdy tulkitsemaan lukuja ja listoja, vaan tyydyn vertaamaan eri aikakausien ja eri tekstityyppien ominaisuuksia keskenään. Tutkittavat ominaisuudet olen jakanut tekstin ulkoisin piirteisiin, pituuspiirteisiin, sanastopiirteisiin ja morfologisiin piirteisiin.

Tekstin ulkoisia piirteitä

Kun tekstejä ja tekstijoukkoja valmistellaan tutkimusmateriaaleiksi, niihin usein lisätään metatietoja. Metatiedot kertovat esimerkiksi tekstin nimekkeen, tekijän, tekemisajankohdan ja paikan, tekstin kielen ja muita perustietoja tekstistä. Metatietostandardeista esimerkiksi Dublin Core (ks. HYK-DC) määrittelee tekstille 15 perustavaa metatietoa.

Taulukossa 2 vertailen viittä tekstijoukkoa ja viittä tekstinulkoista tietoa. Nämä tiedot eivät suurimmaksi osaksi kuulu virallisten metatietostandardien tietojoukkoihin, vaan olen valinnut ne siksi, että ajattelen niiden kertovan vertailtavista teksteistä jotain sellaista, joka vaikuttaa myöhemmin esiin ottamieni määrällisten tietojen tulkintaan. Vertailtavat tiedot ovat tekstin valmistumisaika (oikeammin julkaisuaika), valmistustapa, käyttötarkoitus, julkisuus ja tekstijoukon laajuus.

Taulukko 2. Tekstien ulkoisia piirteitä.

 

Valmistus-
aika


 Valmistus-
 tapa


 Käyttö-

 tarkoitus

 Julkisuus


 Laajuus  (sanamäärä)

TW-S

1829

 
Kynä/
 paino


 Tiedottaminen/  
 opettaminen/
 viihdyttäminen


  Julkinen

14 000

SK 1917

1917

 
Kirjoituskone/
 paino

 
Tiedottaminen/
  viihdyttäminen


  Julkinen

350 000

SK 1972

1972


 
Kirjoituskone/
 paino


 
Tiedottaminen/  
  viihdyttäminen

  Julkinen

1 500 000

Kpp.

1995


 Tietokone/
 tulostin


 
Tiedottaminen   

      Yksityinen/  
 salainen

12 000

SS: pikku-uutisia  

2003


 Tietokone/
 paino


  Tiedottaminen

  Julkinen

11 000

 

Valmistusjoiltaan tekstit muodostavat jatkumon 1800-luvun alkupuolelta nykypäivään. Kaksi uusinta tekstijoukkoa on vanhempia tarkemmin rajattu tekstityypin mukaan. Turun Wiikko-Sanomat on aikansa tavanomaista lehtitekstiä, ja Suomen Kuvalehdessä on monentyyppistä materiaalia (ks. Heikkinen ym. 2006), kun taas Savon Sanomista on tutkittavaksi valittu osajoukko, jonka ajatellaan edustavan lähinnä uutismateriaalia (Heikkinen ym. 2005) ja kuljetuspalvelupäätökset muodostavat oman, tiukasti rajatun tekstityyppinsä (ks. Tiililä 2007).

Valmistustapa kertoo tekstien luomisajan tekniikasta ja myös siitä, kuinka yleiseen levitykseen tekstit on tarkoitettu. 1830-luvun tekstit on todennäköisesti alunperin kirjoitettu kynällä ja sitten käsin ladottu painettaviksi, kun taas myöhemmät tekstit on kirjoitettu alkujaan joko kirjoituskoneella tai tietokoneella ja painettu tai tulostettu sen jälkeen. Tekstin valmistusprosessilla voi olla vaikutusta esimerkiksi sen pituuteen ja sananvalintoihin.

Tekstien käyttötarkoitusta ei ole aivan helppo luokitella ja erilaisia tyylilajien ja viestintäfunktioiden luokitteluja on lukemattomia (ks. Saukkonen 1984: 24–26). Olen nyt luokitellut aineistoni tekstit tiedottaviin, opettaviin ja viihdyttäviin. Luokkien rajat ovat väistämättä varsin epämääräiset, ja usein tekstijoukko toteuttaa useampaa kuin yhtä näistä funktioista. Esimerkiksi Savon Sanomien paikallisuutisten yksi funktio on varmasti viihdyttää lukijaa, vaikka niiden ensisijainen tarkoitus onkin tiedottaa ajankohtaisista asioista. Kuljetuspalvelupäätösten ilmeinen funktio sen sijaan on tiedottaa viranomaisen tekemästä ratkaisusta hakijalle. Vanhimmassa, Turun Wiikko-Sanomien tekstijoukossa on tiedottavan ja valistavan materiaalin ohella satuja, pieniä tarinoita ja muuta ainakin osittain viihteellistä materiaalia.

Tekstit ovat pääasiassa julkisia ja yleiseen levitykseen tarkoitettuja lukuun ottamatta kuljetuspalvelupäätöksiä, jotka ovat selvästi yksityisiä, jopa salaisia. Tekstien julkisuudessakin on kuitenkin aste-eroja. Lehtiuutisia vielä julkisempia tekstejä ehkä olisivat olleet vero-oppaat tai muut sellaiset tiedotteet, jotka jaetaan maksutta jokaiseen kotiin.

Viimeisenä tekstin ulkoisena muuttujana esitän tekstijoukon laajuuden sanoina. Tämä luku ei kerro mitään yksittäisistä teksteistä, mutta se antaa kuvan siitä, minkälaisen aineiston perusteella laskelmat on tehty ja kuinka vertailukelpoisia määrälliset tiedot ovat keskenään. Luvut myös kertovat yleisestä tekstien ja sanojen määrän kasvusta: Turun Wiikko-Sanomien kokonainen vuosikerta 1829 sisältää vain vähän runsaammin sanoja kuin Savon Sanomien yhden uutissivun sisältö viikon ajalta vuonna 2003. Suomen Kuvalehden vuosikerran tekstimäärä on kasvanut yli nelinkertaiseksi 55 vuodessa.

Pituuksista

Teksteistä laskettavat pituuspiirteet (taulukko 3) ovat abstrakteja tietoja, ja jotkut niistä on suhteellisen helppo laskea suoraan käsittelemättömästä tekstistä. Tekstien ja niissä esiintyvien sananmuotojen pituudet ovat melko yksiselitteisiä suureita, ja ne ovat kaikissa tekstijoukoissa suoraan vertailukelpoisia.

Virkkeiden pituus on hieman hankalampi suure. Virke voidaan määritellä monella eri tavalla, ja määritelmät voivat vaihdella sen mukaan, miltä ajalta teksti on peräisin. Ison suomen kieliopin termistö (Korhonen ja Vilkuna 2005) määrittelee virkkeen seuraavasti: ”Virke on tekstin rakenneyksikkö, joka tarkoittaa ison alkukirjaimen ja pisteen tai kysymys- tai huutomerkin välistä tekstin osaa.” Kirjoituksen konventiot muuttuvat vuosisatojen kuluessa tältäkin osin, ja tämä määritelmä ei välttämättä täysin päde Turun Wiikko-Sanomien tekstiin, jossa virkkeet onkin määritelty tutkijan tulkinnan mukaan tekstin merkityksen perusteella. Kuljetuspalvelupäätöksissä ja Savon Sanomien paikallisuutisissa virkkeet on tarkistettu ihmistyönä. Suomen Kuvalehtien molemmissa vuosikerroissa virkkeet on laskettu automaattisesti muodollisten kriteerien perusteella, eikä virkkeiden rajoja ole tarkistettu käsityönä.

Lause on virkettäkin hankalampi määriteltävä. Sanalla on monta mahdollista merkitystä. Ison suomen kieliopin termistö (mt.) määrittelee lauseen seuraavasti: ”Lause on sanojen ja lausekkeiden muodostama rakenteellinen kokonaisuus, jonka ytimenä on finiittiverbi ja jonka osien välillä vallitsee erilaisia riippuvuus- ja määrityssuhteita.” Tarkoitan nyt lauseella sellaista tekstikokonaisuutta, johon sisältyy yksi finiittiverbi eli verbi, jossa on persoonan, aikamuodon ja tapaluokan merkit (Kävelin syksyisessä metsässä).

Finiittiverbiin perustuva lauseen määritelmä antaa mahdollisuuden lauseiden automaattiseen laskemiseen morfologisesti eli muoto-opillisesti analysoidusta aineistosta (ks. Lounela 2005). Tässä vertailtavista aineistoista vain kuljetuspalvelupäätökset ja Savon Sanomien paikallisuutiset on analysoitu morfologisesti, muista tekstijoukoista ei tätä tietoa ole saatavilla. Alla olevassa taulukossa tekstien, virkeiden ja lauseiden pituudet on ilmaistu sanoina ja sanojen pituus merkkeinä.

Taulukko 3. Pituustietoja.

 

Tekstien pituus

Virkkeiden
pituus

Lauseiden
pituus

Sanojen pituus

TW-S

124

11,1

-

7,6

SK 1917

320

9,8

-

8,3

SK 1972

837

11,1

-

8,2

Kpp.

194

10

8,5

9,3

SS

115

11

7,4

7,9

Sanastopiirteitä

Pituuksien lisäksi valmistelemattomasta tekstistä voi tutkia automaattisesti myös sananmuotoja. Usein on niin, että kymmenen yleisimmän perusmuodon lista ei kerro juuri mitään tekstien välisistä eroista. Yleisimmät sanat ovat olla, ja, ei ja se. Taivutetut sananmuodot kuitenkin voivat muuttaa tätä kuvaa jonkin verran. Nyt aineistojeni tekstit ovat lisäksi eri aikakausilta tai muuten keskenään erilaisia. Sanojen perusmuotolistat voidaan tehdä vain morfologisesti analysoidusta tekstistä, ja  tämä merkitsee automaattisen analysaattorin käytön ohella välttämättä käsityötä, kun analysoidaan suomenkielisiä tekstejä (ks. Lounela 2007). Pelkällä automaatilla (ks. FINTWOL) voidaan kuitenkin laskea niitä sanoja, jotka eivät kuulu suomen perussanastoon.

Vertaan seuraavaksi kymmentä yleisintä sananmuotoa ja kymmentä automaatin tunnistamatta jättämää sananmuotoa kaikista tekstijoukoista (taulukko 4). Lisäksi vilkaisen morfologisesti analysoitujen tekstijoukkojen (kuljetuspalvelupäätösten ja Savon Sanomien paikallisuutisten) yleisimpien perusmuotojen listoja (taulukko 5).

Taulukko 4. Yleisimmät sananmuodot.

TW-S

SK 1917

SK 1972

SS

Kpp.

ja
on
kuin
että
hän
se
niin
oli
hänen
ei

ja
on
että
oli
hän
joka
ovat
kuin
ei
sen

ja
on
että
ei
oli
kuin
se
ole
joka
hän

ja
on
ei
oli
myös
että
mukaan
ovat
hän
se

ja
on
päätös
kuljetuspalvelun
päätöksen
sosiaaliviraston
perusteella
tai
matkat
vapaa-ajan

 

Yleisimpien sananmuotojen lista näyttää suurimmassa osassa aineistoista melko samalta. Kuin-sanan yleisyys Turun Wiikko-Sanomissa saattaa hieman ihmetyttää, mutta on muistettava, että sillä on tekstissä sekä nykyisten kuin- ja kun-sanojen että joka-sanan funktioita.

Silmiinpistävin on kuljetuspalvelupäätösten ero lehtiteksteihin verrattuna. Päätöksissä jo kolmanneksi yleisin sananmuoto on sisältösana ja seitsemän yleisimmistä sananmuodoista liittyy kuljetuspalveluihin tai päätösprosessiin. Savon Sanomien samankokoisessa aineistossa neljäntenä oleva myös ja seitsemäntenä oleva mukaan erottavat pikku-uutiset isommista, vanhemmista ja heterogeenisemmista lehtiaineistoista.

Taulukko 5. Yleisimmät tunnistamatta jäävät sananmuodot.

TW-K


SK 1917


SK 1972


SS

Kpp.

viellä


Choralis


Jernvall


ittensä


katun


Kaupunkin


itte


Christ


Pispan


sitte

Faltin


Thomsenin


Thomsen


KuvalehtiN:o


Fredro


Fredron


niinkuin


1917Suomen


Hjelt


Valok

Wolff


McGovern


Kairento


mvös


McGovernin


PB


nvt


:n


FDP


R

pupi


tpk


sto


hirsman


hirsma


huhtimon


toivalan


kosa


iiu


rappe

a195

allekirjoitus/pöytäkirjanotteen


ww.hel.fi/rekisteriseloste


hakemus/asiaseloste


voim


sosiaalityöntek


toimistosiht


ja/tai


:n


/sopimukset


Automaattisessa morfologisessa analyysissa jää myös sananmuotoja tunnistamatta. Yleisimmät tunnistamatta jäävät sananmuodot saattavat omalla tavallaan kertoa aineistosta vähintään yhtä kiinnostavia asioita kuin yleisimmät tunnistetut muodot.

1800-luvun tekstin yleisimmät tunnistamattomat sananmuodot kertovat pääosin siitä, että silloinen ortografia poikkeaa nykyisestä. Kymmenen yleisimmän tunnistamattoman joukossa on myös muutamia nimiä. Muuten valikoimaan kuuluu lähinnä melko yleisiä sanoja, joiden ortografia on muuttunut sitten tekstien kirjoitushetken.

Suomen Kuvalehtien listat kertovat myös aineiston laadusta. Kuvalehti N:o, 1917 Suomen, mvös, nvt ja :n kertovat, että aineiston digitalisointi ei ole onnistunut parhaalla mahdollisella tavalla. Muuten tunnistamattomat sanat ovat lähinnä ajankohtaisia nimiä ja lyhenteitä.

Savon Sanomien yleisimmät tunnistamattomat sanat puolestaan kertovat, että valittuun aineistoon kuuluu paikallisia urheilu-uutisia. Lista koostuu lähinnä urheiluseurojen nimilyhenteistä ja muista paikallisnimistä.

Kuljetuspalvelupäätökset eroavat tässäkin kohdin muista teksteistä. Niissä tunnistamatta ovat jääneet enimmäkseen luokittelukoodit ja näille lomakkeille ominaiset lyhenteet.

Taulukko 6. Yleisimmät perusmuodot.


SS


Kpp.

olla
TUNTEMATON
ja
ei
se
vuosi
mies
myös
joka
että
hän
saada
euro
poliisi

olla
TUNTEMATON
ja
päätös
kuljetuspalvelu
matka
sosiaalivirasto
hakemus
tehdä
helsinki
sosiaalipalvelutoimisto
te
peruste
osoite


Kahdesta morfologisesti analysoidusta aineistosta voidaan laskea myös yleisimmät sanojen perusmuodot. Perusmuotolistan kehittymistä aineiston koon kasvaessa tarkastelin jo tekstin alkupuolella. Nyt vertaan kahden samankokoisen aineiston eli Savon Sanomien pikku-uutisten ja kuljetuspalvelupäätösten yleisimpiä sanoja. Näissä listoissa on neljätoista yleisintä perusmuotoa.

Taajuuslistoissa kiinnittää huomion esimerkiksi se, että vaikka nämä tekstijoukot monen muun muuttujan valossa ovat kovin erilaisia, Fintwolille (FINTWOL) tuntemattomien sanojen osuus kaikista sanoista on suunnilleen sama (3,8 prosenttia Savon Sanomissa ja 4 prosenttia kuljetuspalvelupäätöksissä). Toinen seikka on kahden yleisimmän tunnistetun sanan jälkeen tulevien sanojen luonne. Savon Sanomissa sanat saavat itsenäistä merkitystä harvinaisempiin sanoihin mentäessä, neljä yleisintä sanaa ovat kieliopillisia yleissanoja. Kuljetuspalvelupäätöksissä taas kahta yleisintä sanaa seuraavat viisi ovat näille teksteille ja niiden kuvaamalle toiminnalle ominaisia sisältösanoja.

Morfologisia piirteitä

Morfologisesti analysoiduista aineistoista voidaan laskea monia kieliopillisia suhteita. Tarkastelen tässä niistä muutamia. Valitsen lukuisista mahdollisuuksista yhden yleisen ominaisuuden, yhden verbimaailmaan liittyvän ominaisuuden ja yhden nominimaailmaan liittyvän ominaisuuden. Aikaisemmista vertailuista poiketen otan taajuuslistoihin mukaan tiedot vertailtavien ominaisuuksien suhteellisista osuuksista tekstijoukoissa. Näin saadaan tarkka kuvan muuttujien keskinäisistä suhteista. Suhteellisen osuuden esitän prosenttilukuina ominaisuuden nimen jäljessä.

Yleisistä ominaisuuksista katson vertailtavien aineistojen sanaluokkajakaumia. Nämä näyttävät vertailtavissa aineistoissa jokseenkin samanlaisilta, mutta tarkemmin katsottaessa huomaa, että yleisin sanaluokka (substantiivit) on kuljetuspalvelupäätöksissä neljä prosenttiyksikköä yleisempi kuin Savon Sanomien paikallisuutisissa. Tämä neljän prosenttiyksikön ero näkyy vastakkaisena verbien kohdalla, joita on puolestaan paikallisuutisissa tämän verran enemmän. Tekstien substantiivivaltaisuutta pidetään yhtenä virkateksteille ominaisena piirteenä.

Toinen huomattava ero näkyy rivillä neljä: Kuljetuspalvelupäätöksissä tässä on konjunktioiden joukko (6 prosenttia), kun taas vastaava paikka samalla osuudella on paikallisuutisissa adverbeilla. Jos sanaluokkia listaa pitemmälle, huomaa, että adverbit ovat kuljetuspalvelupäätösten sanaluokista kymmenennellä sijalla (2,3 prosenttia) ja konjunktiot paikallisuutisten sanaluokista seitsemännellä sijalla (4,5 prosenttia).

Taulukko 7. Sanaluokkajakauma.

Sanaluokkajakauma


Kpp.


SS


Substantiivi (50 %)

Substantiivi (46 %)

Verbi (12 %)

Verbi (16 %)

Numeraali (6 %)

Numeraali (6 %)

Konjunktio (6 %)

Adverbi (6 %)

Adjektiivi (5 %)

Adjektiivi (6 %)

 

 

Yhteensä 79 %

Yhteensä 80 %


Tekstien verbimaailmasta silmäilen nyt aikamuotoja. Niiden järjestys ja suhteelliset osuudet eroavat vertailtavissa tekstijoukoissa selvästi toisistaan. Kuljetuspalvelupäätösten verbeistä kolme neljästä on preesensissä, noin joka viides perfektissä ja vain kaksi sadasta imperfektissä. Uutistekstissä taas preesensiä, vaikka se onkin yleisin aikamuoto, on alle puolet, ja imperfektiä on lähes yhtä paljon kuin preesensiä. Aikaan viittaamista tutkittaessa on hyvä ottaa huomion se, että suomessa tulevaisuuteen viitataan yleensä preesens-muodolla, joten lista ei erottele nykyiseen ja tulevaan viittaavia aikamuotoja. Käytetyssä analyysissa imperatiivi ei saa aikamuotomerkintää, mikä selittää puuttuvat prosentit.

Taulukko 8. Aikamuotojakauma.

 

Aikamuotojakauma


Kpp.


SS


Preesens 75 %

Preesens 43 %

Perfekti 21 %

Imperfekti 42 %

Imperfekti 2 %

Perfekti 8 %

Pluskvamperfekti 0 %

Pluskvamperfekti 2 %


Nomineista katson sijamuotoja. Viiden yleisimmän sijamuodon vertailusta näyttää löytyvän monta kiinnostavaa kohtaa. Taulukosta 9 käy ilmi esimerkiksi se, että objektin sijoina käytetyt nominatiivi ja partitiivi ovat yhteensä 13 prosenttia yleisempiä pikku-uutisissa kuin kuljetuspalvelupäätöksissä. Paikallissijoista illatiivi on kuljetuspalvelupäätöksissä yli kaksi kertaa niin yleinen kuin uutismateriaalissa. Yleisimmät illatiivissa olevat sanat kuljetuspalvelupäätöksissä ovat te, laki ja sosiaalipalvelutoimisto.

Taulukko 9. Sijamuotojakauma.

Sijamuotojakauma


Kpp.

SS

Nominatiivi 27 %

Nominatiivi 37 %

Genetiivi 25 %

Genetiivi 24 %

Illatiivi 11 %

Partitiivi 12 %

Partitiivi 9 %

Inessiivi 6 %

Elatiivi 7 %

Illatiivi 5 %

 

 

Yhteensä 72 %

Yhteensä 79 %

Lopuksi

Olen käynyt läpi eri-ikäisiä, eri tavoin koostettuja ja valmisteltuja tekstijoukkoja sekä arvioinut, millaiset piirteet voivat erottaa niitä määrällisesti toisistaan (tai missä voi olla merkittäviä yhtäläisyyksiä). Määrälliset piirteet ovat absoluuttisia tai suhteellisia lukumääriä ja niistä johdettuja vertailulistoja. Olen tutkinut erikseen tekstin ulkoisia, tekstin pituusominaisuuksiin liittyviä, sanastollisia ja morfologiseen analyysiin perustuvia piirteitä.

Turun Wiikko-Sanomat vuodelta 1829 on näistä tekstiaineistoista vanhin, ja siinä eivät eri tekstien rajat ole aivan selkeät, puhumattakaan tekstityypeistä. Vanha kielimuoto vaikeuttaa myös automaattista morfologista analyysia, joten tekstin valmistelu tutkimusmateriaaliksi olisi työläämpää kuin nykytekstille tehtäessä. Suomen Kuvalehtien (1917, 1972) kokonainen vuosikerta on iso materiaali puoliautomaattisesti analysoitavaksi, ja vuoden 1917 teksteissä on myös joitakin vanhahtavia sananmuotoja, joita moderni analysaattori ei tunnista. Myös tekstin digitoinnin puutteet vaikuttavat mahdollisen analyysin laatuun.

Morfologisesti analysoimattomista aineistoista voimme saada kiinni vain melko yleisluontoisia määrällisiä piirteitä. Helsingin sosiaaliviraston kuljetuspalvelupäätökset ja Savon Sanomien paikallisuutiset puolestaan ovat pienehköjä, nykykielisiä tekstijoukkoja, joiden morfologinen ja rakenteellinen analyysi on ollut mahdollista. Siksi niistä on myös voitu laskea eri tavoin tekstien ominaisuuksista kertovia vertailutietoja kuten perusmuoto-, sanaluokka-, aikamuoto- ja sijamuotolistat.

Automaattisesti tuotetut luvut ja listat ovat hyvä renki, mutta huono isäntä. Aineiston valmistelussa mahdollisesti tapahtuneet virheet tai muut aineiston puutteet voivat aiheuttaa yllättäviä tuloksia varsinkin pienistä tekstimääristä tehdyissä laskelmissa. Tutkimuksissa on otettava huomioon myös aineiston koko: mitä pienempi aineisto on, sitä enemmän virheet tai yhden ison tekstin ominaisuudet voivat vaikuttaa koko joukon tuloksiin. Kustakin tekstijoukosta lasketut tulokset pätevät siihen itseensä, ja niistä voi ehkä tehdä varovaisia oletuksia sen tekstityypin, tekstilajin tai genren ominaisuuksista, jota tekstijoukko edustaa.

Tulkintoja tehtäessä on huomattava myös se, että kielen keinot ovat joustavia. Preesensillä tai nominatiivilla voi olla useita eri käyttötarkoituksia samassa tekstijoukossa ja erilaisia tyypillisiä käyttöjä eri tekstijoukoissa. Tämän vuoksi emme voi tehdä pelkkien lukujen ja listojen perusteella kovin pitkälle meneviä päätelmiä tekstijoukkojen viestinnällisistä ominaisuuksista emmekä varsinkaan päätellä kovin paljon sellaisen abstraktin olion kuin ”suomen kieli” ominaisuuksista yleensä.

Kirjallisuutta

FINTWOL: Fintwol: Suomen morfologinen jäsennin. http://www2.lingsoft.fi/cgi-bin/fintwol. Viitattu 13.3.2007.

Heikkinen, Vesa &  Outi Lehtinen & Mikko Lounela 2005: Lappeenrantalaismies löi toista nenään baarissa. Uutisia ja uutisia. – Vesa Heikkinen (toim.): Tekstien arki. Tutkimusmatkoja jokapäiväisiin merkityksiimme. Gaudeamus: Helsinki, 231–258.

HYK-DC: Dublin Core. http://www.lib.helsinki.fi/dublin_core/. Viitattu 13.3.2007.

Korhonen, Riitta & Maria Vilkuna 2005: Ison suomen kieliopin termejä. http://kaino.kotus.fi/www/verkkojulkaisut/julk1/. Viitattu 13.3.2007.

Lehtinen Outi & Mikko Lounela 2004: A model for composing and (re-)using text materials for linguistic research. – Marja Nenonen (ed.): Papers from the 30th Finnish Conference of Linguistics. Joensuu: University of Joensuu, 73–78.

Lounela, Mikko 2005: Exploring morphologically analysed text material. Inquiries into words, constraints and contexts. – Antti Arppe et al. (ed.): Festschrift in the honour of Kimmo Koskenniemi on his 60th birthday. Helsinki: Gummerus, 359–267.

Lounela, Mikko 2007: Kieliteknologia suomenkielisten tekstien tutkimisessa. Puhe ja kieli, 27:1, 47–54.

Saukkonen, Pauli & Marjatta Haipus & Antero Niemikorpi & Helena Sulkala 1979: Suomen kielen taajuussanasto. Helsinki: WSOY.

Saukkonen, Pauli 1984: Mistä tyyli syntyy? Helsinki: WSOY.