Universaalimerkistö suomalais-ugrilaisessa tarkekirjoituksessa
Universaalimerkistö sisältää kaikki suomen ja sen sukukielten niin diakronisessa kuin synkronisessa tutkimuksessa tarvittavat merkit. Merkistö kattaa myös ympäröivien kielikuntien nykyisten ja historiallisten kielten merkit.Universaalimerkistön käyttöönotto kielentutkimuksessa mahdollistaa nykyaikaisten sähköisten tutkimusmenetelmien soveltamisen myös tarkekirjoituksella tallennettuun aineistoon. Suurin mahdollinen hyöty saavutetaan, jos universaalimerkistöä käytetään alallamme yhtenäisellä tavalla. Silloin aineistojen tallennustavat eivät poikkea toisistaan ja yhteistyö sekä sähköinen yhteydenpito sujuvat mahdollisimman helposti.
Universaalimerkistöä standardoivien julkaisujen (Unicode ja standardi IEC/ISO 10646) esittämät merkkikuvat, glyyfit, ovat joissain tapauksissa harhaanjohtavia, ja joskus eri merkeillä on samat merkkikuvat. Tästä syystä on olennaisen tärkeää, että merkit tunnistetaan niiden nimen ja koodipaikan perusteella eikä merkkien identifioimiseen käytetä pelkkiä merkkikuvia.
Suomalais-ugrilaisen tarkekirjoituksen merkkien kirjoittamiseksi on kehitetty näppäimistö. Tämä ”UPA-näppäimistö” (nimestä Uralic Phonetic Alphabet, vrt. IPA) perustuu suomalaiseen näppäimistöön ja on vapaasti näiltä sivuilta ladattavissa.
Suomalais-ugrilaisen tarkekirjoituksen perusta on latinalainen aakkosto, jota täydentävät kreikkalaisesta ja kyrillisestä aakkostosta lainatut merkit. Lisäksi on käytössä lukuisia perusmerkkeihin liitettäviä tarkkeita. Universaalimerkistö sisältää IPA-osion (0250–02AF) ja foneettisen laajennusosion (1D00–1DFF), jossa on lähinnä suomalais-ugrilaiseen tarkekirjoitukseen kuuluvia merkkejä.
Oikean merkin valinta
Universaalimerkistön
kehitys on aloitettu jo vuonna 1986. Mukaan hyväksyttiin yhä enemmän
merkkejä, ja joskus kävi niin, että jokin uusi merkki oli lähes
samannäköinen tai jopa täysin samannäköinen kuin merkistössä jo ollut
merkki. Eri syistä on ollut kuitenkin tarkoituksenmukaista hyväksyä
tällaisia merkkejä, koska niiden taustat olivat erilaisia. Esimerkkinä
mainittakoon ylösalainen e:01DD ə LATINALAINEN PIENAAKKONEN YLÖSALAINEN E
04D9 ə KYRILLINEN PIENAAKKONEN ŠVAA
Merkit kuuluvat eri aakkostoihin, ja ne on sen takia pidettävä erillään. Merkkien asemakin latinalaisissa ja kyrillisissä aakkostoissa on erilainen: jälkimmäisellä on iso vastine (Ә), edellisellä ei. Universaalimerkistöstä löytyy kuitenkin vielä kolmaskin aivan samannäköinen merkki:
0259 ə LATINALAINEN PIENAAKKONEN ŠVAA
Merkki on otettu mukaan ja koodattu erikseen, koska se kuuluu IPA-merkkeihin ja sen asema ja käyttötapa ovat sen takia erilaisia kuin edellä mainittujen merkkien. Vastaavia duplikaateilta näyttäviä tapauksia on universaalimerkistössä muitakin. Yhtenäisen ja yhteensopivan tallentamisen nimissä on huolehdittava siitä, että merkkejä ei käytetä sekaisin. Näissä tapauksissa merkin nimi ratkaisee.
Niinpä tapauksissa, joissa tietyn näköinen merkki on olemassa (universaalimerkistöön koodattuna) sekä latinalaiseen aakkostoon että johonkin muuhun aakkostoon kuuluvana, suositellaan ensimmäistä vaihtoehtoa. Jos latinalaisen aakkosten sisällekin jää vielä vaihtoehtoja, niin suositellaan IPA-merkkeihin kuuluvaa merkkiä. Suomalais-ugrilaisessa tarkekirjoituksessa näin muodoin käytetään redusoituneen vokaalin merkkinä seuraavaa merkkiä:
0259 ə LATINALAINEN PIENAAKKONEN ŠVAA
UPA-näppäimistö ohjaa oikeiden merkkien käyttöön. Mainituista kirjaimista näppäimistöllä voidaan kirjoittaa vain IPA-merkistöön kuuluva merkki 0259 ə.
Kirjainten ja tarkkeiden yhdistäminen
Tarkekirjoituksen
kannalta voidaan universaalimerkistössä erottaa kahden tyyppiset
merkit: kirjaimet ja tarkkeet. Tarkekirjoituksessa käytetään kirjaimia
ja niihin mahdollisesti liitettäviä tarkkeita. Historiallisista syistä
universaalimerkistössä on kuitenkin olemassa myös jonkin verran
valmiita kirjain-tarke-yhdistelmiä. Nämä yhdistelmät voi siis
periaatteessa kirjoittaa kahdella eri tavalla, joko kirjoittamalla
suoraan yhdistelmä tai kirjoittamalla yhdistelmän osat yksitellen.Valmiiden kirjain-tarke-yhdistelmien olemassaolon universaalimerkistössä selittää lähinnä se, että haluttiin varmistaa yhteensopivuus aikaisempien suppeiden merkistöjen kanssa. Tällainen suppeampi merkistö on esimerkiksi Länsi-Euroopassa laajasti käytössä ollut Latin-1. Kun nämä suppeammat merkistöt on aikanaan laadittu lähinnä kirjakielten merkkejä varten, universaalimerkistön valmiit yhdistelmät ovat nimenomaan kirjakielten merkkejä. Jonkin kirjakielen rajattua merkkivalikoimaa lueteltaessa onkin luontevaa mainita kaikki kirjaimet; suomen kirjakielen merkit ovat esim. a…š…z, ž, å, ä, ö.
Valmiita kirjain-tarke-yhdistelmiä voidaan ja pitääkin käyttää kirjakielten kirjoittamiseen, sen sijaan tarkekirjoituksessa valmiita kirjain-tarkeyhdistelmiä ei pidä käyttää, koska tarkekirjoitus on tässä suhteessa erilainen kuin jokin kirjakieli. Perusidea tässä järjestelmässä on kirjainten ja tarkkeiden yhdistely kuvattavaa äännettä varten kulloinkin vaadittavalla tarkkuudella. Edellä kuvattuja kirjakielisiä valmiita kirjain-tarke-yhdistelmiä ei ole. Tästä syystä tässä oppaassa ohjataan tarkekirjoitukselle luontevaan kirjoittamiseen, jossa kirjaimet ja mahdolliset tarkkeet kirjoitetaan erikseen. Tästä on tosin yksi poikkeus, joka koskee tiettyjen (etu)vokaalien merkintää. Taka- ja etuvokaalien ero on uralilaisissa kielissä niin merkittävä ilmiö, että kirjaimet ä, ö, ü ovat tarkkeettomia peruskirjaimia (näin myös E. N. Setälä 1902 ehdotuksessaan suomalais-ugrilaiseksi tarkekirjoitukseksi, FUF 1: 36). Tarkkeettomaksi peruskirjaimeksi käsitetään tässä myös ruotsalainen oo, å.
Yhteensopivuuden ja oikean tuloksen varmistamiseksi on ehdottomasti noudatettava seuraavia kirjoitussääntöjä:
- Kirjain, perusmerkki, kirjoitetaan ensin, sen jälkeen siihen liitettävät tarkkeet.
- Tarkkeista kirjoitetaan ensin kirjaimen alle sijoittuvat, sen jälkeen kirjaimen päälle sijoittuvat.
- Ensin kirjoitetaan kirjainta lähimpänä oleva tarke, jonka jälkeen edetään kirjaimesta poispäin.
Tiukasti määrätty järjestys on edellytys typografisesti tyydyttävien kirjain-tarke-yhdistelmien aikaansaamiseksi. Koodaus ei ole tieteellinen tulkinta kuvattavan äänteen laadusta, vaan keino mahdollistaa kirjoitetun aineksen elektroninen prosessointi.
Universaalimerkistö sisältää kaikki tarvittavat merkit ja perusmerkkejä ja tarkkeita voi vapaasti yhdistellä. Tähän yhdistämiseen liittyy kuitenkin eräs rajoitus, joka on otettava huomioon. Tarkkeiden yhdistäminen perusmerkkeihin tapahtuu vain pinoamalla tarkkeita pystysuunnassa, tarkkeita ei voida sijoittaa vaakasuunnassa vierekkäin.
Normalisaatio
Edellisessä kohdassa perustellaan, miksi kirjakieltä kirjoitetaan eri periaattein kuin tarkekirjoitusta. Jotakin (standardoitua) kirjakieltä kirjoitettaessa käytetään ns. valmiita yhdistelmiä, esim. kirjaimia á tai ù. Tarkekirjoituksessa nämä kirjaimet on syytä kirjoittaa kahtena merkkinä, esim. a ja aksentti ´ tai u ja gravis `.Universaalimerkistölle on kuitenkin kehitelty tekniikka nimeltään normalisaatio, jota erilaiset ohjelmat ja tietojärjestelmät ovat vähitellen soveltamassa. Normalisaatiota tukevassa ympäristössä on aivan samantekevää, kummalla tavalla tietty merkki kirjoitetaan, yhtenä merkkinä á vai kahtena merkkinä a + ´. Normalisaatio tunnistaa nämä syötökset yhdeksi ja samaksi merkiksi.
Normalisaatio on suomalais-ugrilaisen tarkekirjoituksen kannalta sekä hyvä että huono asia. Hyvää on se, että kirjoittajan ei tarvitsekaan miettiä, kummalla tavalla hän kirjoittaa tarkkeellisen kirjaimen. Huonoa taas on, että kirjoittajalla ei yleensä ole mahdollisuutta vaikuttaa siihen, miten hänen tekstinsä tallentuu, tallentuuko siis á yhtenä merkkinä á vai kahtena merkkinä a + ´. Tavallisesti tällä asialla ei ole merkitystä, mutta kielikorpusten laadinnassa ja käytössä sekä sähköisten kieliaineisten prosessoinnissa normalisaatio voi olla ongelmallinen.
Koodaus ja typografia
Universaalimerkistön käytössä on hyvin tärkeää ymmärtää, että koodipaikkansa kautta yksiselitteisesti määritelty merkki voi olla eri fonteissa hyvinkin eri näköinen. Juuri tästä syystä oikean merkin valinta ei voi missään tapauksessa perustua pelkästään universaalimerkistön taulukoissa esitettyihin merkkikuviin (glyyfeihin) tai jonkin tietyn (erikois)fontin sisältämiin merkkeihin. Aivan erityisesti tämä on otettava huomioon silloin, kun tarkkeita yhdistetään perusmerkkiin.Koodauksen kannalta on eduksi, jos sama asia ilmaistaan aina samalla tavalla. Niinpä tässä oppaassa on esim. päädytty siihen, että liudennuksen merkki on kaikkien merkkien yhteydessä aina sama (0301 YHDISTYVÄ AKUUTTI-KORKOMERKKI), vaikka tämä merkki ei sijoitukaan korkeiden perusmerkkien (lähinnä b, d, f, h, k, l, t, β, δ) kanssa totuttuun tapaan kirjaimen ylimmän osan viereen (ĺ, t́ eikä ľ, ť jne.). Liudennusmerkin oikea sijoitus ja myös sen oikea kulma onkin typografinen asia, joka on ratkaistava kussakin fontissa ja fonttileikkauksessa erikseen. Tavallisella kirjoittajalla ei ole keinoja ratkaista tämäntapaisia typografiaan liittyviä seikkoja.
Universaalimerkistön yhtenäinen käyttö tarkekirjoituksessa avaa aivan uusia tutkimusmahdollisuuksia. Samalla (asiaan vihkiytynyt) voi huolehtia myös huolitellusta typografiasta julkaisuissa.
Fonttien typografiset ominaisuudet
Tarkekirjoituksen kannalta on olennaista, että peruskirjaimeen liitettävä tarke pysyy ulkonäöltään tunnistettavana eikä muutu jonkin muun merkin näköiseksi. Joidenkin fonttien typografisiin ominaisuuksiin kuuluu kuitenkin juuri tällaisia suomalais-ugrilaiselle tarkekirjoitukselle sopimattomia ratkaisuja. Ongelmallisia ovat tässä suhteessa ennen kaikkea kirjaimet d, l ja t, kun niihin liitetään hattu.Standardissa eli universaalimerkistössä valmiiksi koodatut yhdistelmät hatun kanssa poikkeavat odotuksen mukaisesta hahmosta. Useimmissa fonteissa hattu on nimittäin näissä tapauksissa pilkun tai jopa liudennuspilkun näköinen. Tämä typografinen ratkaisu palvelee tšekin ja slovakin kielten typografisia käytänteitä. Joissain harvoissa fonteissa hattu pysyy hattuna kombinoituessa mainittujen kirjainten kanssa. Tämä typografinen erikoisratkaisu on yhtenä vahvana argumenttina, miksi tarkekirjoituksessa ei tule käyttää valmiiksi koodattuja kirjain-tarke-yhdistelmiä. Samalla tämä osoittaa, että standardeissa oleviin kirjainhahmoihin eli glyyfeihin ei ole luottamista, vaan merkin oikeellisuus on aina varmistettava merkin nimen kautta.
Tšekin ja slovakin kielten käytäntöä tukevilla fonteilla merkit
010F ď LATINALAINEN PIENAAKKONEN D JA HATTU
013E ľ LATINALAINEN PIENAAKKONEN L JA HATTU
0165 ť LATINALAINEN PIENAAKKONEN T JA HATTU
tuottavat siis sellaiset kirjain-tarke-yhdistelmät, jotka (nimistään huolimatta) suomalais-ugrilaisittain muistuttavat liudentuneen konsonantin merkkiä. Typografinen seikka, että tulos näyttää joissain fonteissa hyvin kauniilta suomalais-ugrilaiselta liudennukselta (ľ ľ ť ť), ei muuta taustalla olevaa tosiasiaa, että koodaukseltaan nämä kirjaimet ovat nimenomaan hatullisia (ja hattuhan ei ilmaise liudennusta vaan se on voimakkaan hankaushälyisyyden merkki). Myöskään se, että oikein kirjoitetut (= koodatut) liudentuneet konsonantit (esim. l + 0301 YHDISTYVÄ AKUUTTI-KORKOMERKKI: ĺ) eivät näytä suomalais-ugrilaisessa tarkekirjoituksessa yhtä hyviltä, ei muuta asiaa.
Liudennuspilkun oikea paikka ja ylimalkaan tarkkeiden ulkonäkö ovat typografisia seikkoja eivätkä ne saa vaikuttaa siihen, mitä merkkejä milloinkin käytetään (so. miten aines koodataan). Ensisijaisen tärkeää on
- kirjoittaa (= koodata) kirjaimia ja tarkkeita loogisesti ja aina samalla tavalla ja
- käyttää fonttia, jonka typografiset ominaisuudet vastaavat suomalais-ugrilaisen tarkekirjoituksen vaatimuksia.
Ohjelmien typografiset ominaisuudet
Eri ohjelmien typografiset ratkaisut tai niiden puuttuminen vaikuttavat myös siihen, miten oikein kirjoitettu (= koodattu) tarkekirjoitus tulostuu ruudulle tai paperille. Se, että käytetty käyttöjärjestelmä ja sovellusohjelma pystyvät käsittelemään universaalimerkistöa (= ”tukevat Unicodea”) ei valitettavasti vielä riitä. Useimmat sovellusohjelmat eivät osaa pinota tarkkeita oikein (esim. Word).Taitto-ohjelmat ja tietyt muutkin ohjelmat (esim. Mac OS X:ssä Mellel) pystyvät hallitsemaan tarkekirjoitusta myös typografisesti oikein.
Kapiteelit sekä ylä- ja alaindeksit
Perinteellisesti kapiteeleja ja pienikokoisia kirjaimia on saatu aikaan pienentämällä fonttikokoa. Vastaavasti ylä- tai alaindeksit eli rivinyliset tai rivinaliset merkit ovat perusviivaan nähden nostettuja tai laskettuja merkkejä. Nämä ovat typografisia keinoja, mutta tarkekirjoituksen kannalta kyse on merkitystä kantavista piirteistä. Kapiteeli kuvaa eri äännettä kuin pienaakkonen. Tästä syystä kapiteeleilla ja indekseillä on omat koodipaikat universaalimerkistössä. Näitä käyttäen puolimedia ʙ (0299) ja media b (0062) erottuvat toisistaan jo koodaukseltaan.Vuosituhannen vaihteen tienoilla lisättiin universaalimerkistöön suuri määrä suomalais-ugrilaisen tarkekirjoituksen merkkejä, jotka vielä puuttuivat. Merkkien joukossa oli myös monia rivinylisiä kapiteeleja. Suomalais-ugrilaisen tarkekirjoituksen kannalta nämä rivinyliset kirjaimet eivät ole ”isoja” vaan kapiteeleja. Näitä rivinylisiä kapiteeleja ei tule käyttää, ja niiden valikoimakin on suomalais-ugrilaista tarkekirjoitusta ajatellen riittämätön. UPA-näppäimistöllä näitä rivinylisiä kapiteeleja ei voi kirjoittaa.