Asiantuntijoiden kirjoituksia ajankohtaisista kielikysymyksistä. Laaja blogi- ja kolumniarkisto.

Kulttuuriperintöaineistoa koko kansalle internetiin

Kotimaisten kielten tutkimuskeskuksen (Kotus) laajat kokoelmat ovat kaiken kansan käytössä. Vielä nyt aineisto on suurimmalta osin perinteisessä muodossa paperilla tai ääninauhoina mutta tulevaisuudessa yhä enemmän sähköisessä muodossa internetissä.

Kotuksen kokoelmissa on kymmeniä miljoonia arkistolippuja ja runsaat parikymmentä tuhatta tuntia äänitteitä. Kirjakielen korpuksiin eli tutkimuskäyttöön tarkoitettuihin sähköisiin kielenaineskokoelmiin on koottu lähes sata miljoonaa sanaa. Lisäksi käytettävissä on monia muita aineistoja.

Sähköisten palvelujen kehittämisellä halutaan edistää tutkimusta ja opetusta sekä tarjota kaikelle kansalle pääsy arvokkaaseen kulttuuriperintöaineistoon.

Aineistoja muutetaan jatkuvasti digitaaliseen muotoon. Tämä parantaa kokoelmien käytettävyyttä ja takaa niiden säilymisen. Avokelanauhoille tallennetut äänitteet ovat jo tuhoutumassa, joten niiden digitointia kiirehditään – eikä paperikaan ole ikuista.

Kotuksen aineistot ulottuvat 1500-luvulta Agricolan ajoista nykypäivään. Vanhimmat kokoelmat saivat alkunsa jo 1800-luvun lopussa, kun murteiden sanaston ja paikannimien kokoaminen aloitettiin Suomessa ja lähialueilla.

Äänitteiden järjestelmällinen keruu alkoi 1960-luvun alussa. Suomen murteiden ohella on tallennettu myös sukukieliä ja kulttuurihistoriaa. Sähköisiin kielenaineskokoelmiin on puolestaan koottu kattavasti tekstejä kaikilta vuosisadoilta 1500-luvulta lähtien. Nykykielen keruu jatkuu eri muodoissaan järjestelmällisenä.

Aineistot on kerätty pääosin kielitieteellisen tutkimuksen ja suurten sanakirjahankkeiden tarpeisiin. Murrearkisto on Suomen murteiden sanakirjan keskeinen lähde. Vanhan kirjasuomen sanakirjaa toimitetaan Ruotsin vallan aikaisten teksti- ja sanakokoelmien pohjalta, ja uusimpia kokoelmia on käytetty Kielitoimiston sanakirjan toimittamisessa.

Aineistojensa kautta Kotuksella on merkittävä rooli kulttuuriperinnön säilyttäjänä. Kansan parissa kerättyihin kokoelmiin on tallentunut merkittävästi tietoa kansanihmisen elinoloista, tavoista, uskomuksista, ympäristöstä ja koko maailmankuvasta.

Kokoelmia rikastuttavat piirrokset, valokuvat sekä töiden ja tapojen kuvaukset. Kielentutkijoiden lisäksi kokoelmista hyötyvät niin kansatieteilijät, historiantutkijat kuin vaikkapa luonnontieteilijätkin.

Suurin osa kokoelmista on perinteisessä muodossa arkistolippuina, mutta automaattisessa tietojenkäsittelyssäkin on pitkät perinteet. Jo 1970-luvun alussa lävistettiin reikäkorteille murteiden sanastoluetteloita, ja seuraavan vuosikymmenen lopussa oli sähköisessä muodossa usean miljoonan sanan verran eri aikojen tekstejä, sanakirja-aineistoja ja kokoelmiin liittyviä hakemistoja. Kotuksen koostamien tekstikorpusten etäkäyttö tuli tutkijoille mahdolliseksi 1990-luvun alussa.

Vanhat kokoelmat ovat pääosin käsin kirjoitettua tekstiä, joten sähköistäminen on työlästä. Lisäksi resurssit ovat varsin rajalliset. Tekniset mahdollisuudet ovat onneksi parantuneet kaiken aikaa.

Kuluvan vuoden lopulla uusitaan Kotuksen verkkosivut (www.kotus.fi) ja samalla otetaan käyttöön selaimella toimiva aineistopalvelin. Tämän jälkeen kuka tahansa pääsee lukemaan esimerkiksi Agricolan teoksia ja 1600-luvun lakitekstejä, 1800-luvun kirjallisuutta ja eri pitäjistä kerättyjä sananparsia.

Pian internetissä julkaistaan myös äänitteiden tiedot, saamen sanojen etymologinen tietokanta sekä monia pienempiä aineistoja ja luetteloita. Tulevina vuosina toimitetaan verkkoversio muun muassa Karjalan kielen sanakirjasta. Sähköisten aineistojen käytössä pyritään avoimuuteen, mutta yksityisyyden suojan ja tekijänoikeudellisten syiden vuoksi pieni osa kokoelmista pysyy tulevaisuudessakin vain luvanvaraisessa tutkimuskäytössä. Sähköiset aineistot luovat uudenlaisia tutkimusmahdollisuuksia.

Tekstikorpusten avulla voidaan seurata kielen kehittymistä 1500-luvulta tähän päivään. Sähköisiä aineistoja ei ole aina tarkoituksenmukaista tai mahdollista tarjota suuria massoja, joten myös erilaisten täsmäaineistojen tarjontaa kehitetään. Esimerkiksi Kauden murre -sarja sisältää ääninäytteitä ja tietoja suomen murteista.

On tärkeää, että tutkijat ja kaikki kiinnostuneet löytävät mahdollisimman hyvin tarvitsemansa aineistot. Luettelojen ja kokoelmien kuvailutietojen sähköistäminen onkin Kotuksen ensisijaisena tavoitteena.

Kulttuuriperinnön on säilyttävä ja pysyttävä ajan vaatimukset täyttävällä tavalla käytössä. Suurten kokoelmien digitalisointi ja menetelmien kehittäminen ovat ajankohtaisia kysymyksiä niin Kotuksessa kuin muissakin muistiorganisaatioissa maailmanlaajuisesti.

Aineistoja pyritään keskittämään ja kehittämään kokonaisvaltaisesti, ja niiden käytettävyyttä parannetaan myös yhteistyön avulla. Suomessa tarvitaan valtakunnallinen kulttuuriperinnön digitalisointiin keskittyvä ohjelma. Samalla on järjestettävä muistiorganisaatioille keskitetty rahoitus digitalisointia varten. Näin lähestyisimme eurooppalaisia johtavia tietoyhteiskuntia.

ELISA STENVALL JA TONI SUUTARI

Kirjoitus on julkaistu Helsingin Sanomien Vieraskynä-palstalla 7.8.2006.