För svenska samlingar se Svenska textkorpusar
Nufinska arkivet
Nufinska ordsamlingarna
Samlingen med standardspråkliga nufinska ord i kontext omfattar 5,5 miljoner ordsedlar. På varje ordsedel anges stickordet, ett textutdrag med källuppgifter, och ofta också uppgifter om i vilket specialområde ordet hör till. Ordmaterialet är excerperat framför allt ur facklitteratur från olika områden, ur tidningar och tidskrifter och ur skönlitteratur. Excerperingsarbetet pågår fortfarande.
Det äldsta materialet är en samling med 4,5 miljoner ordsedlar (850 000 olika ord) från 1880–1950, som upprättades för den nufinska ordboken Nykysuomen sanakirja. Från senare källor finns en samling på ca 700 000 ordsedlar. Från och med 1984 finns excerptsamlingen att tillgå också elektroniskt. Användningen av arkivet och databasen är licensbelagd.
På mikrokort finns textutdrag ur olika skriftliga källor i huvudsak från 1970-talet (ca 1 400 000 ord), samt Syntaxarkivets standardspråkliga material.
Svaren från Sanaseppo-tävlingen som ordnades under Lönnrots jubileumsår är arkiverade i Finska dialektarkivet.
Materialet i samlingarna används som källmaterial för nufinska ordböcker.
Tillbaka till rubrikerna
Andra nufinska samlingar
I arkivet finns en samling artiklar om det finska språket. Artiklarna är från 1940 och senare år, och de är listade i ett register. Artiklarna från och med 1997 finns registrerade elektroniskt.
Språkbyråns
forskare Taru Kolehmainen har undersökt de första klippböckerna i arkivet. Hennes
artikel Kansa kielen asialla som
baserar sig på dessa ingår i Kielikello 2/1995. Artikeln handlar om vilka typer
av språkfrågor som har inspirerat journalister och insändarskribenter att delta
i den finska språkvården.
Protokollen från Finska språknämndens och språknämndens föregångares möten är tillgängliga för forskare från och med 1928. Nämndens beslut från och med 1956 finns i en elektronisk databas, och tidigare beslut är tillgängliga genom ett sökordskartotek.
Till de nufinska samlingarna hör också bland annat Sakari Virkkunens frassamling, som samlades in för den finska frasordboken Suomalainen fraasisanakirja, och slangsamlingarna som ingår i Finska dialektarkivet. Dessutom finns det både ljud- och videoinspelningar med nufinskt material i Finska bandarkivet.
Korpusar
Focis har samlat omfattande korpusar över såväl nufinskan som nusvenskan i Finland. De största korpusarna är Suomen kielen tekstipankki (ca 180 miljoner ord) och den finlandssvenska textsamlingen Språkbanken i Finland (ca 34 miljoner ord). Korpusarna är licensbelagda och de är tillgängliga via CSC (Centre for Scientific Compting). Också den svensk–finska parallellkorpusen (med ca 4 miljoner ord) och korpusen med finska tidningstexter från 1900-talet (ca 8,6 miljoner ord) kommer senare att bli tillgängliga för forskare.
Korpusen över finskt standardspråk från 1960-talet, "Oulun korpus", är en elektronisk textsamling som har konverterats till SGML-format på Focis. Utomstående kan använda korpusen för forskningsändamål via CSC:s Språkbank.
De finländska
presidenternas nyårstal är fritt tillgängliga via materialbanken Kaino.
Ordlistor
I materialbanken Kaino finns en frekvensordlista över det finska skriftspråket och en aktuell nufinsk ordlista (Nykysuomen sanalista).
Också sökorden i Nykysuomen sanakirja från 1951–1961 (inklusive sammansättningar), samt uppgifter om ord- och böjningsklass finns tillgängliga elektroniskt. Antalet poster är ca 210 000. Uppslagsorden i den finska nyordspublikationen Uudissanasto 80 är kodade på samma sätt som för Nykysuomen sanakirja. Uudissanasto 80 är publicerad av Focis, och tar upp sådana nyord från (50-), 60- och 70-talen som inte finns i Nykysuomen sanakirja. Antalet poster är ca 5 800. Största delen av orden har senare tagits med i Suomen kielen perussanakirja. Både Nykysuomen sanakirja och Uudissanasto 80 är licensbelagda.






