Asiantuntijoiden kirjoituksia ajankohtaisista kielikysymyksistä. Laaja blogi- ja kolumniarkisto.

Paperikorteilta tietokantoihin ja käyttöliittymiin


Kotus sai keväällä 2010 opetus- ja kulttuuriministeriöltä 300 000 euron lisämäärärahan digitointiprojektia varten. Projektin tavoitteena on muuntaa Kotuksen arkistoaineistoja sähköiseen muotoon.

Kotuksen kellareissa on hyllykilometreittäin erilaisia paperisia dokumentteja sekä äänitteitä vahalieriöillä ja avokelanauhoilla. Vanhoja, paperisia kortteja ja asiakirjoja uhkaa kuitenkin haurastuminen. Mustekynällä ja lyijykynällä kirjoitetut tekstit alkavat levitä ja himmentyä. Nauhoitteidenkin pinta kuluu ja rapistuu ajan kuluessa.

Lisäksi tiedon tallennusmuodot ovat muuttuneet paljon 1900-luvun alusta, jolloin suuri osa arkistomateriaaleista on kerätty. Nykyisin tiedot tarvitaan sähköisessä muodossa, jotta niitä voidaan helpommin käyttää ja hyödyntää. Keväällä 2010 käynnistyneessä projektissa onkin tarkoitus muuntaa tärkeimpiä osia Kotuksen arkistoista digitaalisiksi.

”Projektissa digitoitavat aineistot valittiin niin, että viime vuonna toteutetussa pienemmässä vastaavanlaisessa projektissa aloitetut kokonaisuudet saataisiin digitoitua loppuun. Kotuksen sähköiseen aineistopalveluun Kainoon haluttiin myös saada mahdollisimman monipuolisesti materiaalia tutkijoiden käyttöön”, projektin ja Kotuksen tietohuolto-osaston johtaja, tutkija Elisa Stenvall kertoo.

”Monista projektissa digitoitavista aineistoista, esimerkiksi kielilautakunnan pöytäkirjoista ja kartantarkastusaineistosta, arveltiin myös olevan hyötyä talon omille työtekijöille”, Stenvall jatkaa.

Projekti polkaistiin rahoituksen varmistuttua käyntiin vauhdikkaasti. Projektipäälliköiksi palkattiin toukokuussa Susanna Kokko ja Henrik Domingo, jotka digitointityön ohella vastasivat muiden työntekijöiden rekrytoinnista sekä projektin käytännön järjestelyistä.

Kesäkuusta alkaen loppuvuodeksi palkattiin kahdeksan digitoijaa muuntamaan arkistoaineistoja sähköisiksi tiedostoiksi ja tietokannoiksi sekä viisi avustavaa atk-suunnittelijaa luomaan käyttöjärjestelmiä, joilla aineistot olisivat helposti tutkijoiden ja muiden niistä kiinnostuneiden saatavilla.

”Digitointiprojektissa on monenlaista työtä aina skannauksesta metatietotyöhön ja järjestelmäsuunnitteluun. Valitsimme digitointiprojektiin eri koulutustaustaisia työntekijöitä, joiden osaaminen täydensi mielestämme hyvin toisiaan”, Elisa Stenvall kertoo.


Santra Jantunen. Kuva: Linda Länsman.
Hankeessa työskentelevä Santra Jantunen skannaa vanhoja litterointeja.


Palaa otsikoihin

Skannereiden suhinaa

Suuri osa paperisista arkistomateriaaleista digitoidaan skannaamalla. Visuaalisen puolen osaamista projektissa edustaa valokuvausta opiskellut Linda Länsman, joka saikin tehtäväkseen kuvien ja piirrosten skannauksen.

”Olen skannannut jo noin 1 200 kappaletta Kotuksen valokuvia ja tauluja. Tällä hetkellä skannaan murrearkiston sanalippujen yhteydessä olevia piirroksia. Muokkaan skannattuja kuvia ja piirroksia Photoshop-kuvankäsittelyohjelmalla niin, että ne vastaisivat mahdollisimman tarkasti alkuperäisiä kuvia”, Länsman kertoo.


Nykysuomen sanakirjan julkistus. Kuva: Kotuksen arkisto.
Digitoitavassa Kotuksen valokuvakokoelmassa on kuvia muun muassa kielitieteellisistä tapahtumista vuosien varrelta.

Kotuksen arkistoihin on tallennettu kaikki suomen kielen lautakunnan ja sen edeltäjien pöytäkirjat aina vuodesta 1928 lähtien. Pöytäkirjat vuodesta 1956 eteenpäin on jo tallennettu sähköiseen tietokantaan, mutta sitä vanhemmat ovat olleet tähän asti vielä paperimuodossa. Johannes Kosken tehtävänä on ollut skannata näitä vanhimpia pöytäkirjoja sekä lautakunnan päätöksistä koottua hakusanakortistoa.

”Vaikka työ itsessään on aika mekaanista, käsittelemäni aineisto on mielenkiintoista. Kielilautakunnan pöytäkirjoista löytyy myös hauskoja esimerkkejä lautakunnan pohtimista kielikysymyksistä. Kuka olisi esimerkiksi arvannut, että lautakunta on ehdottanut vuonna 1979 jet lag -sanan vastineena käytettäväksi sanoja lentoviive, jättämä, lentoheite, heite ja viske. Lopulta lautakunta päätyi kuitenkin suosittelemaan sanaa aikaerorasitus”, Koski nauraa.

Suomen kielen lautakunnan hakusanakortti: journalisti. Kotus.
Suomen kielen lautakunnan hakusanakortti: journalisti. Kotus.Kosken skannaamissa hakemistokorteissa on tietoa suomen kielen lautakunnan antamista suosituksista.

Tärkeä osa skannaustyötä on dokumenttien hakusanoitus, jotta ne olisivat sähköisenäkin helposti löydettävissä ja yhdistettävissä oikeisiin asiayhteyksiin. Noora Korri on skannannut kesän aikana kartantarkistusaineistoa. Aineisto koostuu kortistosta, johon on dokumentoitu karttojen nimistön tarkistukset ja muutokset. Maanmittauslaitoksen karttojen nimistö tarkistetaan Kotuksen nimistönhuoltojaoksessa.

”Skannattuani ensin kartantarkistusaineiston noin 80 000 lippua olen hakusanoittanut tiedostoja. Aineiston lipuista kirjataan tietokantaan paikannimi, tarkistusvuosi, kunta ja karttalehden numero”, Korri esittelee työtään.

Palaa otsikoihin

Täydennystä tietokantoihin

Arkistot sisältävät paljon myös pahvikorteille käsin kirjoitettua tekstitietoa, jota ei tässä projektissa skannata kuviksi. Sen sijaan aineistot digitoidaan kirjoittamalla tiedot valituilla ohjelmilla sähköisiin tietokantoihin. Tällainen aineisto on esimerkiksi murrearkiston vastaajakortisto.

”Murrearkiston aineistoja alettiin digitoida vuosi sitten. Arkistossa on yhteensä kahdeksan miljoonaa sanalippua, ja niiden lisäksi on puolentoista miljoonan lipun kokoelma sananparsia. Kaikkea ei valitettavasti mitenkään ole mahdollista digitoida. Digitoitavaksi on valittu vastaajakortisto sekä arkiston kuvat ja piirrokset sillä perusteella, että ne ovat selkeitä kokonaisuuksia, joista on eniten hyötyä sanakirjojen tekijöille ja muille tietoa tarvitseville”, murrearkistosta vastaava erikoistutkija Anneli Hänninen kertoo.

Tuomas Katila, Pauliina Liuska ja Annika Alervo. Kuva: Linda Länsman.
Projektin työntekijät seuraavat, kuinka tietokantaan syötetään tietoja.

Kotus sai keväällä 2010 opetus- ja kulttuuriministeriöltä 300 000 euron lisämäärärahan digitointiprojektia varten. Projektin tavoitteena on muuntaa Kotuksen arkistoaineistoja sähköiseen muotoon.

Kotuksen kellareissa on hyllykilometreittäin erilaisia paperisia dokumentteja sekä äänitteitä vahalieriöillä ja avokelanauhoilla. Vanhoja, paperisia kortteja ja asiakirjoja uhkaa kuitenkin haurastuminen. Mustekynällä ja lyijykynällä kirjoitetut tekstit alkavat levitä ja himmentyä. Nauhoitteidenkin pinta kuluu ja rapistuu ajan kuluessa.

Lisäksi tiedon tallennusmuodot ovat muuttuneet paljon 1900-luvun alusta, jolloin suuri osa arkistomateriaaleista on kerätty. Nykyisin tiedot tarvitaan sähköisessä muodossa, jotta niitä voidaan helpommin käyttää ja hyödyntää. Keväällä 2010 käynnistyneessä projektissa onkin tarkoitus muuntaa tärkeimpiä osia Kotuksen arkistoista digitaalisiksi.

”Projektissa digitoitavat aineistot valittiin niin, että viime vuonna toteutetussa pienemmässä vastaavanlaisessa projektissa aloitetut kokonaisuudet saataisiin digitoitua loppuun. Kotuksen sähköiseen aineistopalveluun Kainoon haluttiin myös saada mahdollisimman monipuolisesti materiaalia tutkijoiden käyttöön”, projektin ja Kotuksen tietohuolto-osaston johtaja, tutkija Elisa Stenvall kertoo.

”Monista projektissa digitoitavista aineistoista, esimerkiksi kielilautakunnan pöytäkirjoista ja kartantarkastusaineistosta, arveltiin myös olevan hyötyä talon omille työtekijöille”, Stenvall jatkaa.

Projekti polkaistiin rahoituksen varmistuttua käyntiin vauhdikkaasti. Projektipäälliköiksi palkattiin toukokuussa Susanna Kokko ja Henrik Domingo, jotka digitointityön ohella vastasivat muiden työntekijöiden rekrytoinnista sekä projektin käytännön järjestelyistä.

Kesäkuusta alkaen loppuvuodeksi palkattiin kahdeksan digitoijaa muuntamaan arkistoaineistoja sähköisiksi tiedostoiksi ja tietokannoiksi sekä viisi avustavaa atk-suunnittelijaa luomaan käyttöjärjestelmiä, joilla aineistot olisivat helposti tutkijoiden ja muiden niistä kiinnostuneiden saatavilla.

”Digitointiprojektissa on monenlaista työtä aina skannauksesta metatietotyöhön ja järjestelmäsuunnitteluun. Valitsimme digitointiprojektiin eri koulutustaustaisia työntekijöitä, joiden osaaminen täydensi mielestämme hyvin toisiaan”, Elisa Stenvall kertoo.

Santra Jantunen. Kuva: Linda Länsman.
Santra Jantunen. Kuva: Linda Länsman.Hankeessa työskentelevä Santra Jantunen skannaa vanhoja litterointeja.

Palaa otsikoihin

Skannereiden suhinaa

Suuri osa paperisista arkistomateriaaleista digitoidaan skannaamalla. Visuaalisen puolen osaamista projektissa edustaa valokuvausta opiskellut Linda Länsman, joka saikin tehtäväkseen kuvien ja piirrosten skannauksen.

”Olen skannannut jo noin 1 200 kappaletta Kotuksen valokuvia ja tauluja. Tällä hetkellä skannaan murrearkiston sanalippujen yhteydessä olevia piirroksia. Muokkaan skannattuja kuvia ja piirroksia Photoshop-kuvankäsittelyohjelmalla niin, että ne vastaisivat mahdollisimman tarkasti alkuperäisiä kuvia”, Länsman kertoo.

Nykysuomen sanakirjan julkistus. Kuva: Kotuksen arkisto.
Digitoitavassa Kotuksen valokuvakokoelmassa on kuvia muun muassa kielitieteellisistä tapahtumista vuosien varrelta.

Kotuksen arkistoihin on tallennettu kaikki suomen kielen lautakunnan ja sen edeltäjien pöytäkirjat aina vuodesta 1928 lähtien. Pöytäkirjat vuodesta 1956 eteenpäin on jo tallennettu sähköiseen tietokantaan, mutta sitä vanhemmat ovat olleet tähän asti vielä paperimuodossa. Johannes Kosken tehtävänä on ollut skannata näitä vanhimpia pöytäkirjoja sekä lautakunnan päätöksistä koottua hakusanakortistoa.

”Vaikka työ itsessään on aika mekaanista, käsittelemäni aineisto on mielenkiintoista. Kielilautakunnan pöytäkirjoista löytyy myös hauskoja esimerkkejä lautakunnan pohtimista kielikysymyksistä. Kuka olisi esimerkiksi arvannut, että lautakunta on ehdottanut vuonna 1979 jet lag -sanan vastineena käytettäväksi sanoja lentoviive, jättämä, lentoheite, heite ja viske. Lopulta lautakunta päätyi kuitenkin suosittelemaan sanaa aikaerorasitus”, Koski nauraa.

Suomen kielen lautakunnan hakusanakortti: journalisti. Kotus.
Suomen kielen lautakunnan hakusanakortti: journalisti. Kotus.Kosken skannaamissa hakemistokorteissa on tietoa suomen kielen lautakunnan antamista suosituksista.

Tärkeä osa skannaustyötä on dokumenttien hakusanoitus, jotta ne olisivat sähköisenäkin helposti löydettävissä ja yhdistettävissä oikeisiin asiayhteyksiin. Noora Korri on skannannut kesän aikana kartantarkistusaineistoa. Aineisto koostuu kortistosta, johon on dokumentoitu karttojen nimistön tarkistukset ja muutokset. Maanmittauslaitoksen karttojen nimistö tarkistetaan Kotuksen nimistönhuoltojaoksessa.

”Skannattuani ensin kartantarkistusaineiston noin 80 000 lippua olen hakusanoittanut tiedostoja. Aineiston lipuista kirjataan tietokantaan paikannimi, tarkistusvuosi, kunta ja karttalehden numero”, Korri esittelee työtään.

Palaa otsikoihin

Täydennystä tietokantoihin

Arkistot sisältävät paljon myös pahvikorteille käsin kirjoitettua tekstitietoa, jota ei tässä projektissa skannata kuviksi. Sen sijaan aineistot digitoidaan kirjoittamalla tiedot valituilla ohjelmilla sähköisiin tietokantoihin. Tällainen aineisto on esimerkiksi murrearkiston vastaajakortisto.

”Murrearkiston aineistoja alettiin digitoida vuosi sitten. Arkistossa on yhteensä kahdeksan miljoonaa sanalippua, ja niiden lisäksi on puolentoista miljoonan lipun kokoelma sananparsia. Kaikkea ei valitettavasti mitenkään ole mahdollista digitoida. Digitoitavaksi on valittu vastaajakortisto sekä arkiston kuvat ja piirrokset sillä perusteella, että ne ovat selkeitä kokonaisuuksia, joista on eniten hyötyä sanakirjojen tekijöille ja muille tietoa tarvitseville”, murrearkistosta vastaava erikoistutkija Anneli Hänninen kertoo.


Tuomas Katila, Pauliina Liuska ja Annika Alervo. Kuva: Linda Länsman.
Tuomas Katila, Pauliina Liuska ja Annika Alervo. Kuva: Linda Länsman.Projektin työntekijät seuraavat, kuinka tietokantaan syötetään tietoja.

Nimiarkistosta taas digitoidaan muun muassa koululaiskilvan kortiston tiedot. Koululaiskilpa on Kalevalaseuran ja Suomen nimiarkiston vuonna 1972 järjestämä koululaisille suunnattu puhuttelunimien keruukilpa, jossa kerättiin talteen koulujen henkilönnimiperinnettä. Kilvan vastauksista koostuva aineisto sisältää yhteensä 184 574 nimilippua.

Digitoija Pinja Ruposen tehtävänä on kirjata koululaiskilvan aineistoista koulujen ja kerääjien nimet sekä kerätyt lippumäärät tietokantaan. Ruponen on käsitellyt parin ensimmäisen kuukauden aikana jo hurjan määrän arkistolippuja.

”Kahden kuukauden jälkeen tarkalleen 41 952 nimilippua”, Ruponen hymyilee.

Suomen kieltä pääaineenaan opiskelevalle Ruposelle Kotus on unelmien työpaikka. Ilmoituksia Kotuksen työpaikoista ja harjoittelupaikoista hän oli koulun kautta nähnyt aiemminkin, mutta vasta digitointiprojektista kuultuaan Ruponen uskaltautui lähettämään työhakemuksen.

”Olen haaveillut Kotuksessa työskentelyssä vuodesta 2002 asti, joten tuntuu hienolta olla täällä töissä”, Ruponen sanoo.

Palaa otsikoihin

Tallenteiden tiedot tarkemmiksi

Kotuksen ylläpitämään Suomen kielen nauhoitearkistoon (SKNA) on viidenkymmenen vuoden kuluessa kerätty 23 000 tuntia äänitteitä suomen murteista, sukukielistä sekä muista kielistä. Nauhoitearkiston vanhojen vahalieriöiden ja avokelanauhojen digitointi on aloitettu vuonna 1999 ja niistä on muunnettu digitaalisiksi tiedostoiksi jo yli 60 prosenttia.

Äänitteiden ja videoiden tiedot on kirjattu tietokantaan, jota myös täydennetään jatkuvasti muun muassa asiasanoilla ja sisällönkuvauksilla. Digitointiprojektin aikana tavoitteena on saada entisestään täydennettyä tallenteiden metatietoja.

Outi Lähteenmäki on opiskellut suomalais-ugrilaisia kieliä, joten hän sai tehtäväkseen SKNA:n etäsukukielten 1900-luvun alkupuolelta peräisin olevien vahalieriöäänitteiden tietojen kirjaamisen. Lähteenmäki on kuunnellut läpi Yrjö Wichmannin marin kieltä käsittelevän kokoelman, Antti Sovijärven tallenteet ja A. O. Väisäsen mordvaa käsittelevät tallenteet.

”Tallenteet kuunnellaan läpi ja kirjataan niissä käytetyt laulajat ja soittajat, soittimet ja äänityspaikka, laulujen ja kappaleiden nimet ja lajit”, Lähteenmäki kertoo.

Outi Lähteenmäki. Kuva: Linda Länsman.
Outi Lähteenmäki. Kuva: Linda Länsman.Outi Lähteenmäki selvittää kansanlaulujen sisältöä.

Itämerensuomalaisiin kieliin erikoistunut digitointiprojektilainen Santra Jantunen on Virtarannan arkiston litterointien skannaamisen lisäksi työskennellyt liivin, vepsän ja vatjankielisten vahalieriöiden metatietojen parissa.

”Äänitteitä on mielenkiintoista kuunnella, mutta välillä vanhoista, haurastuneista tallenteista on vaikea saada selvää”, Jantunen kertoo.

Palaa otsikoihin

Käyttöjärjestelmillä tiedot saataville

Digitoidusta materiaalista ei ole hyötyä, jos se ei ole helposti tietoa tarvitsevien saatavilla. Käyttöjärjestelmiä, joilla digitoitu materiaali voidaan julkaista esimerkiksi netissä Kotuksen aineistopalvelu Kainossa, suunnittelevat projektiin palkatut avustavat atk-suunnittelijat.

Akseli Korhonen on suunnitellut projektissa digitoidulle aineistolle ohjelmaa ja käyttöliittymää, jolla siitä voidaan poimia kaikki tekninen metadata, nimetä tiedostot uudelleen sekä siirtää ne pitkäaikaissäilytykseen. Automaatio- ja systeemitekniikkaa opiskellut Korhonen on tehnyt samantapaisia töitä aiemminkin.

”Sain melko vapaat kädet käyttöliittymän suunnittelemisessa ja toteuttamisessa”, Korhonen kertoo.

Myös atk-suunnittelijat Janne Juopperi ja Nael Shaban ovat olleet tyytyväisiä työnsä vapauteen. He ovat yhteistyössä ahkeroineet maantieteellistä tietojärjestelmää, jonka avulla voi tarkastella murresanojen ja murrepiirteiden levikkejä kartalla.

”Olen opiskellut datanomiksi ja tehnyt aiemmin hieman tämäntyyppisiä töitä, mutta tässä työssä on silti ollut paljon uutta opeteltavaa”, Shaban kertoo.

Palaa otsikoihin

Paikannimet paremmin saataville

Yksi digitointiprojektin tärkeimpiä tavoitteita on saada sekä suomen- että saamenkielinen paikannimistö julkaistua yhtenäisessä tietokannassa. Digitointiprojektilaiset Tuomas Katila ja Pauliina Liuska ovat pohjustaneet tätä muuntamalla eri tekstimuodoissa olevia paikannimitiedostoja rakenteiseen XML-muotoon.

”Olemme päässeet käyttämään käytännössä niitä taitoja, joita olemme opiskelleet aiemmin teoriassa”, kieliteknologiaa Helsingin yliopistossa opiskelleet Katila ja Liuska kertovat.

Katilan ja Liuskan käsittelemät aineistot ovat päätyneet jatkokäsittelyyn atk-suunnittelija Juha-Pekka Honkavaaralle, joka on syöttänyt tiedot tietokantaan ja suunnitellut niille käyttöliittymää.

”Tavoitteena on, että käyttöliittymä saadaan julkaistua Kotuksen verkkopalvelussa, josta paikannimitiedot olisivat helposti kaikkien saatavissa”, Honkavaara kertoo.

Juha-Pekka Honkavaara ja Akseli Korhonen. Kuva: Linda Länsman.
Juha-Pekka Honkavaara ja Akseli Korhonen. Kuva: Linda Länsman.Juha-Pekka Honkavaara testaa luomaansa käyttöliittymää. Taustalla Akseli Korhonen.

Myöhemmin on mahdollisesti tarkoitus hyödyntää Shabanin ja Juopperin murresanoille suunnittelemaa karttatietojärjestelmää myös paikannimistön kohdalla.

Projektin puitteissa on siis saatu jo kesän aikana tehtyä paljon erilaisia digitointitöitä. Kotuksen arkistoissa riittää kuitenkin digitoitavaa materiaalia, joten työt eivät varmasti lopu kesken loppuvuonnakaan.

”Yhtenä suurempana tavoitteena olisi muun muassa vielä projektin aikana saada luotua itämerensuomalaiselle kielikartastolle oma hakemistonsa”, projektia johtava Elisa Stenvall kertoo.

Digitointihankkeen työntekijät. Kuva: Linda Länsman.
Digitointihankkeen työntekijät. Takaa vasemmalta: Elisa Stenvall, Tuomas Katila, Johannes Koski, Juha-Pekka Honkavaara, Henrik Domingo, Nael Shaban, Janne Juopperi ja Akseli Korhonen. Keskellä: Noora Korri ja Pauliina Liuska. Edessä: Santra Jantunen, Pinja Ruponen, Annika Alervo, Susanna Kokko ja Linda Länsman. Kuvasta puuttuu Outi Lähteenmäki.

Teksti: Annika Alervo
Kuvat: Linda Länsman

Kirjoitus on julkaistu Kotuksen verkkosivuilla 26.8.2010.

Palaa otsikoihin