Kotuksen korpuspalvelun kehittäminen
Samalla kun mielenkiinto elektronisten tekstiaineistojen (korpusten)
käyttöön kielentutkimuksessa kasvaa, laajenevat korpusten
käyttötarkoitukset tekstintutkimukseen, kieliteknologiaan,
tietojenkäsittelytieteeseen jne. Tämän myötä
kasvavat myös laadulliset vaatimukset korpusten koostamiselle ja
käyttöympäristöille. Korpusten pitäisi olla suuria, monipuolisia,
hyvin koodattuja ja riittävin metatiedoin varustettuja pystyäkseen
vastaamaan tutkimuksen
tarpeisiin. Lisäksi tekstikokoelmien tulisi olla kattavia sekä
diakronisesti että tekstilajeiltaan. Aineistojen olisi oltava helposti
saatavilla, ja niiden käytön olisi oltava mahdollisimman
yksinkertaista.Kotus on yksi keskeinen toimija suomalaisen korpusten koostamisen ja korpustutkimuksen kentässä, ja suomalainen kielentutkimusyhteisö odottaa Kotukselta paljon suomen kielen aineistojen kehittäjänä ja tarjoajana. Korpusten parantaminen ei voi olla irrallaan korpusten valmistamiseen ja käyttöön tarkoitettujen työkalujen kehittämisestä, eikä se voi olla irrallaan korpusten käytön tutkimuksesta. Kotuksessa yhdistyy leksikografian, tekstintutkimuksen, atk:n ja suomen kielen syntaksin asiantuntemusta tavalla, joka tarjoaa ainutlaatuisen mahdollisuuden pitkäjänteiseen korpustyöhön.
Kotuksessa aloitettiin vuonna 2004 tutkimushanke, jonka tarkoituksena on ajanmukaistaa Kotuksen tarjoamaa korpuspalvelua. Hankkeessa
- otetaan käyttöön Kotuksessa kehitettyjä korpusten tietomalleja ja WWW-pohjaisia käyttöliittymiä ja kehitetään niitä edelleen,
- siirretään vanhoja tekstiaineistoja uusien mallien mukaiseen muotoon ja
- rakennetaan uusia, näiden mallien mukaisia aineistoja.
Hanke kestää vuoden 2007 loppuun, ja sen päätulos tulee olemaan Kotuksen korpuspalvelun uusiminen. Hanke työllistää yhden päätoimisen tutkijan. Vastuuhenkilö on Mikko Lounela.