TekstiversioPå svenska | Sámás | Romani tšimbaha | Viittomakielellä | In English
Etusivulle
- + Tulosta sivu
Kotimaisten kielten keskus
 

Nykykielen aineistot


Nykysuomen sanakokoelmat

Suomen yleiskielen sanoista tekstiyhteyksineen on yli 5,5 miljoonan sanalipun kokoelma. Sanalipussa on hakusanan lisäksi tekstikatkelma ja tieto siitä, mistä katkelma on poimittu, usein myös tieto erikoisalasta. Sana-aineisto on koottu ja sitä kootaan jatkuvasti lähinnä eri alojen kirjallisuudesta sekä sanoma- ja aikakauslehdistä ja myös kaunokirjallisuudesta.

Vanhin aineisto on vuosien 1880–1950 lähteistä kerätty 4,5 miljoonan sanalipun kokoelma (850 000 eri sanaa), joka koottiin Nykysuomen sanakirjan toimittamista varten. Vuoden 1950 ja sitä myöhemmistä lähteistä sanalippuja on noin 700 000. Vuoden 1984 ja sitä myöhemmät sanatiedot ovat myös sähköisessä muodossa. Arkistotietokantaa voi käyttää Kotuksen intranetissä, mutta käyttö vaatii luvan. Paperimuotoinen nykysuomen arkisto on vapaasti käytettävissä.

Mikrokortteina on tekstiotoksia eri lehdistä ja kirjallisuudesta pääasiassa 1970-luvulta noin 1 400 000 sanaa sekä Lauseopin arkiston yleiskielen aineisto.

Lönnrotin juhlavuoden Sanaseppo-kilpailun vastaukset on arkistoitu Suomen murteiden sana-arkistoon.

Aineistojen pohjalta toimitetaan nykykielen sanakirjoja.

Palaa otsikoihin

Muita nykysuomen kokoelmia

Suomen kieltä koskevia lehtikirjoituksia on koottu vuodesta 1940 alkaen. Lehtileikkeistä on hakemisto, joka on vuoden 1997 aineistosta alkaen sähköisenä.

Kielitoimiston tutkija Taru Kolehmainen selaili ensimmäisiä leikekirjoja ja selvitti, millaiset kielikysymykset ovat innoittaneet lehti- ja etenkin yleisönosastokirjoittajia osallistumaan yhteisen kielemme huoltoon. Hän kirjoitti tästä artikkelin Kansa kielen asialla Kielikelloon 2/1995.

Suomen kielen lautakunnan ja sen edeltäjien pöytäkirjat vuodesta 1928 ovat tutkijoiden käytettävissä. Lautakunnan päätökset vuodesta 1956 alkaen ovat sähköisessä tietokannassa, vanhemmista päätöksistä on tehty hakusanakortisto.

Nykysuomen kokoelmiin kuuluvat myös muun muassa Sakari Virkkusen Suomalaista fraasisanakirjaa varten keräämä fraasikokoelma ja Suomen murteiden sana-arkistossa säilytteillä olevat slangikokoelmat. Lisäksi Suomen kielen nauhoitearkiston kokoelmissa on nykysuomea sekä äänitteinä että videoina.

Palaa otsikoihin

Korpukset

Nykysuomesta ja -ruotsista on koottu laajoja tekstikorpuksia. Suurimmat ovat Suomen kielen tekstipankki (n. 180 miljoonaa sanaa) ja Suomenruotsin tekstipankki (n. 34 miljoonaa sanaa), jotka ovat käytettävissä CSC – Tieteellinen laskenta Oy:n Kielipankki-palvelussa. Aineistojen käyttö vaatii luvan. Myös ruotsalais-suomalainen rinnakkaiskorpus (n. 4 miljoonaa sanaa) ja 1900-luvun suomea sisältävä aikakauslehtikorpus (n. 8,6 miljoonaa sanaa) ovat tulossa tutkijoiden käyttöön.

Oulun korpus on 1960-luvun suomen yleiskielen sähköinen tutkimusaineisto, joka on tutkimuskeskuksessa muunnettu SGML-muotoon. Ulkopuoliset tutkijat voivat käyttää Oulun korpusta tutkimustarkoituksiin CSC:n Kielipankissa.

Aineistopalvelu Kainossa ovat vapaasti luettavissa tasavallan presidenttien uudenvuodenpuheet.

Palaa otsikoihin

Sanalistat

Aineistopalvelu Kainossa on käytettävissä kirjoitetun suomen kielen sanojen taajuuslista ja ajantasainen Nykysuomen sanalista.

Sähköisenä ovat myös vuosina 1951–1961 ilmestyneen Nykysuomen sanakirjan kaikki hakusanat (myös yhdyssanat) sekä tieto hakusanan sanaluokasta ja taivutustyypistä. Tietueita on noin 210 000. Uudissanasto 80 -julkaisun hakusanat (noin 5 800 tietuetta) on koodattu samalla tavalla kuin Nykysuomen sanakirjan hakusanakorpuksessa  Kielitoimistossa laaditun Uudissanasto 80:n sanat ovat (50-), 60- ja 70-luvuilla syntyneitä sanoja, joita ei ole Nykysuomen sanakirjassa. (Valtaosa niistä on sittemmin otettu mukaan Suomen kielen perussanakirjaan.) Nykysuomen sanakirjan hakusanaston ja Uudissanasto 80:n käyttö vaatii luvan.

Palaa otsikoihin


Päivitetty 12.4.2013

Tiedote

Arkisto tilapäisesti poissa käytöstä

Nykysuomen arkisto on tilajärjestelyjen vuoksi tilapäisesti poissa käytöstä. Kokoelmat on pakattu ja sijoitetaan toukokuussa toukokuussa murrearkistolta vapautuvaan tilaan yhdessä muiden ns. päätearkistossa olleiden aineistojen kanssa. (Murrearkisto siirtyy huhtikuussa alakellarista yläkellariin kirjastolta vapautuneeseen tilaan.) Aikatauluista tiedotetaan tarkemmin viimeistään viikolla 17.


 
Poutapilvi web design Oy