Siirry sisältöön
Haku

Vesa Heikkinen


Vesa Heikkinen. Kuva: Sonja Holopainen, Kotus.
Vesa Heikkinen. Kuva: Sonja Holopainen.

Vesa Heikkinen on suomen kielen dosentti ja erityisasiantuntija Kotimaisten kielten keskuksessa sekä www.kotus.fi-sivuston päätoimittaja.


rss

15.11.2012 15.37
Vesa Heikkinen

Kieliteknologiablues

Vallankumous vai kuolema? Tämä tulee mieleen, kun lukee tuoretta raporttia Suomen kieli digitaalisella aikakaudella.

Se on pian täällä, digitaalinen vallankumous. Mutta olemmeko valmiita? Kun perehtyy alan asiantuntijoiden kirjoittamaan raporttiin aiheesta, alakulo valtaa väkisinkin alaa. Uhkaako meitä sittenkin digitaalinen kuolema?

Raportin Suomen kieli digitaalisella aikakaudella mukaan (s. 2) tieto- ja viestintätekniikka valmistautuu nyt vallankumoukseen: Tietotekniikan seuraava sukupolvi hallitsee ihmiskielen niin laajasti, että erikieliset käyttäjät pystyvät viestimään keskenään kukin omalla äidinkielellään. Laitteet tottelevat helppokäyttöisiä äänikomentoja ja etsivät tietoa maailman digitaalisista tietovarannoista. Kehittyneen kieliteknologian avulla voidaan tehdä automaattisia käännöksiä ja avustaa tulkkeja. Teknologia auttaa tekstien tiivistämisessä ja monenlaisissa opiskelutarpeissa. Se auttaa myös maahanmuuttajia oppimaan suomea.

Kieliteknologia on monessa mukana. Mahdollisuuksia on paljon niin opettamisessa kuin viihdeteollisuudessakin, niin mobiileissa tietopalveluissa kuin sosiaalisessa mediassakin. Raportissa (s. 6–7) korostetaan kieliteknologian merkitystä eurooppalaisen liike-elämän, organisaatioden ja koulutuksen kehittymisessä: kansalaisten tulee voida kommunikoida vapaasti ja ristiin rastiin kielten rajojen yli.

Mutta pelkona on, että tämä kaikki toimiikin vain niin sanotuilla suurilla kielillä, siis niillä, joiden osaajia on niin paljon, että voidaan puhua ”kaupallisesta potentiaalista”. Tässä katsannossa Suomi suomineen on – jos tässä uskaltaa käyttää talousjargonia – pieni markkina.

Jo nyt englannin ja suomen välillä on ”ammottava teknologinen kuilu, joka tätä nykyä vieläpä levenee”, kuten raportti (s. 2) maalailee. Vielä 1980- ja 1990-luvuilla kieliteknologista perustutkimusta rahoitettiin Suomessa rohkeasti ja tuloksia saavutettiin, jopa kansainvälisesti merkittäviä. Nyt tilanne on kuitenkin se, että Suomi on menettämässä rooliaan kieliteknologian edistäjänä.

Kieliteknologiakysymykset liittyvät kielten kohtaloihin. Raportissa mainitaan (s. 1) arvio, jonka mukaan vähintään 2000 maailman 6000 kielestä kuolee sukupuuttoon tulevina vuosikymmeninä.

Jotta suomen kieli pärjäisi digitaalisen vallankumouksen pyörteissä ja uudella digiajalla, tarvitaan kieliteknologista tutkimusta, siis suomen kielen ominaislaadun huomioon ottavaa kieliteknologista tutkimusta. Siihen pitäisi löytyä rahaa juuri nyt, alkaa olla jo kiire.

Raportti (s. 32) kutsuu kaikkia toimijoita mukaan: politiikkaa, tutkimusta, liike-elämää ja koko yhteiskuntaa. Vetoomus on ehkä muotoilultaan hieman mahtipontinen, mutta aiheellinen.

Kuten raportti karvaasti osoittaa (s. 33–34) kieltenvälisessä vertailussa ei suomi kovin hyvin menesty. Suomen kieleen on panostettu vähemmän resursseja kuin Euroopan suuriin kieliin.

Kieliteknologisista sovelluksista ainoastaan puheenkäsittelyssä suomi on luokassa ”kohtuullinen tuki”.  (”Tuki” viitaa tässä siihen, kuinka paljon mihinkin kieliteknologian osa-alueeseen on panostettu.) Tekstianalyysissa sekä puhe- ja tekstiaineistoissa suomi on luokassa ”osittainen tuki”. Konekäännöksissä suomi on luokassa ”heikko tai olematon tuki”. No, toisaalta luokkaan ”hyvä tuki” näissä kaikissa yltää vain – englanti.

Raportin ankeahko loppupäätelmä (s. 32) on se, että Suomessa ollaan jäämässä jälkeen keskeisten digitaalisten resurssien kehittämisessä. Huonompi homma, sillä juuri digitaaliset resurssit ovat, kuten asiantuntijat painottavat, ”oleellisia kielen säilymisen turvaamiseksi”.

LINKKEJÄ

Tästä pääsee raporttiin

Tästä pääsee META-NETin ”valkoisiin kirjoihin”: META-NET White Paper Series

Tästä pääsee Tiede-lehden artikkeliin Euroopan kieliä uhkaa digitaalinen kuolema

Palaa otsikoihin | 9 puheenvuoroa

15.11.2012 17.44
Anssi
Kieliteknologiaa
"Alan asiantuntijoiden mukaan alakulo valtaa alaa." Digitaalinen kuolema ei näköjään vain uhkaa vaan on jo iskenyt. Onneksi meillä on Kotus, joka hoitaa tutkimuksen.
16.11.2012 1.02
Analyst
Blaa blaa
Luin executive summarya. Moista lavertelua ei jaksanut kokonaan lukea, se kun oli tavanomaisen ainekirjoituksen tasoa (yrittää olla kirjallisesti ansiokas, sisältö on mitä sattuu), paitsi loppua kohti alkoi heitellä termejä isoina ryppäinä.

"Tietotekniikka muuttaa jokapäiväistä elämäämme." Hallelujaa, tätä ei kukaan vielä tiennytkään! Kun aloitus on tuollainen, ei jatkolta kannata paljoa odottaa.

Taitaa olla taas yksi write-only "selvitys".

Jos suomen kieli on tuollaisten sepustusten varassa, kannattaa ruveta jättämään jäähyväisiä. Mutta ei sentään taida olla, vaikka sellaisia esitelläänkin ikään kuin niillä olisi suurikin merkitys.
17.11.2012 0.58
Erkki (eka)
Fintwol
Aikoinaan käytin suomen kielen muoto-opin eli morfologian harjoituksissa mm. Lingsoftin suomen kielen morfologista jäsennintä Fintwolia. Sen demo löytryy täältä: http://www2.lingsoft.fi/cgi-bin/fintwol

Fintwol on hyvä havaitsemaan muun muassa suomen kielen morfologista monitulkintaisuutta. Millä tavalla monitulkintaisia ovat esimerkiksi muodot ”tarttumistapa”, ”rintalasta” ja ”kiiltonahan”? Kokeilkaa yllä mainitulla demolla.
20.11.2012 7.57
Laura Kataja
Fintwol
Ennen kaikkea Erkille (eka): Ihan kissan häntää nostaakseni totean, että tuo alun perin 1980-luvulla (Kimmo Koskenniemen väitöskirja julkaisttin 1983) tehty jäsennin on edelleen kehitystyön kohteena. Suurimmaksi osaksi kehittäminen on tietenkin sanaston päivittämistä.

Eli tekniikka rikkaan kielemme analysointiin on.
20.11.2012 8.38
Vesa Heikkinen
Hei!

Kiitos kommenteista!

Kotuksessakin on käytetty mainittua analysaattoria. Ks. esim. Mikko Lounelan julkaisuista:

http://varia.kotus.fi/~mlounela/julkaisut.html

Ks. myös tätä:

http://www.kotus.fi/files/2144/Heikkinen_Lounela_Uosukainen_Twollatun_tekstiaineiston_disambiguointi.pdf

Suomen kielen analysaattoreista lisää artikkelissa Automaattinen analysaattori tekstilajitutkimuksessa (teoksessa Heikkinen ym. toim. 2012: Genreanalyysi – tekstilajitutkimuksen käsikirja, sivut 372–391).
20.11.2012 11.29
Erkki (eka)
Lauseenjäsentimet
Kommenteista ja linkeistä päätellen Fintwol elää ja voi hyvin. Aikoinaan netissä oli myös demoja, joilla saattoi jäsentää suomenkielisiä lauseita ja virkkeitä. Näitä lauseenjäsentimiä tarvitaan kielten koneellisessa kääntämisessä. Kun on sanasto sekä morfologinen ja syntaktinen jäsennin, konekäännös tuottaa asiateksteistä sangen päteviä käännöksiä.

Suomen kielen lauseenjäsentimien demoja ei taida enää olla netissä. Konekäännösohjelmia kyllä pääsee kokeilemaan, mutta niiden osana oleviin jäsentimiin taitaa kohdistua niin vähän kiintoa, ettei niitä tarvitse pitää nähtävillä. Muutenkin lauseenjäsennys lienee sellainen kieliopin osa-alue, että sitä vain harva suomalainen enää hallitsee.
21.11.2012 14.46
Vesa Heikkinen
Automaattisia analyyseja (OMorFi = open morphology for Finnish) voi kokeilla myös tuolla:

* http://www.ling.helsinki.fi/cgi-bin/hfst-tagger/tagger-demo.pl (Demo for HFST POS-taggers)

* http://www.ling.helsinki.fi/cgi-bin/omor/omordemo.bash (HFST).
22.11.2012 14.23
Veronika Laippala
Turun yliopiston Turkulainen suomen kielen puupankki
Hei,

Olemme Turun yliopistossa kehittämässä vapaasti saatavilla olevaa puupankkia eli syntaksimerkinnöillä varustettua kieliaineistoa sekä parseria, joka analysoi virkkeen syntaksirakenteen automaattisesti. Molemmat ovat kieliteknologian perusresursseja, joita käytetään esimerkiksi hakukoneiden ja konekäännöksen kehittämiseen. Tilanne ei siis ole niin huono miltä se saattaa vaikuttaa!

Kaikki ryhmämme aineistot ovat vapaasti saatavilla kotisivuillamme bionlp.utu.fi, ja puupankin tämänhetkistä versiota voi selailla osoitteessa http://bio3-ett.utu.fi/view/tdt/ . Tervetuloa kokeilemaan!



27.11.2012 14.13
Väinämöinen
Jäsentimen käyttö
Veronika Laippalan kertoma tieto Turussa kehitettävästä jäsentimestä (engl. parser) vaikuttaa kiinnostavalta, mutta mainitussa osoitteessa ei näytä olevan toimintoa, jota voisi kokeilla.

Siellä on englanninkielistä kuvausta ja valmiita jäsennyksiä, joissa käytetyt merkinnät eivät kyllä ihan oppikoulupohjalta avaudu; peruskoulupohjalta tilanne lienee vielä huonompi.