Fraasihaku, sanankatkaisu ja korvausmerkit

Fraasihaulla tarkennetaan hakua

Sanaliitto eli fraasi (phrase) on kahden tai useamman sanan muodostama kokonaisuus, jolla on tietty merkitys. Esimerkiksi ”yliopiston kirjasto” ja ”yliopiston kirjaston verkkosivusto” ovat fraaseja, joilla tarkoitetaan eri asioita.

Tiedonhaussa haun aihetta voidaan tarkentaa fraasin avulla. Samalla myös hakutulosten määrä pienenee. Jotta fraasin sanat pysyisivät haussa peräkkäin ja halutussa järjestyksessä, pitää sanojen järjestys ilmaista hakukoneelle. Tiedonhaussa fraasin merkkinä käytetään yleisesti lainausmerkkejä ”   ”.

Ilman lainausmerkkejä kahden sanan välillä on usein AND-operaattori, vaikka sitä ei näkyville kirjoittaisikaan. Poikkeuksen tähän tekee esimerkiksi lääketieteen kotimainen tietokanta Medic, jossa sanojen välissä on OR-operaattori. Lisää muun muassa AND- ja OR-operaattoreista kerrotaan seuraavassa luvussa: Hakusanojen yhdistäminen hakulauseeksi.

Ilman fraasia hakusanat voivat esiintyä missä tahansa tekstin joukossa: eri kentissä tai lähellä tai kaukana toisistaan.

Sanankatkaisulla hakuun saadaan mukaan taivutusmuodot

Luonnollisen kielen sanat taipuvat tai esiintyvät yhdyssanojen osina. Sanoista saa myös muokattua erilaisia johdoksia.

Tiedonhaussa on aika harvinaista, että hakutuloksiin halutaan vain tietyssä taivutusmuodossa olevia hakusanoja. Tietokantojen hakukoneet taas eivät yleensä osaa päätellä sanan perusmuotoa, vaan tekevät haut hakusanalauseen täsmällisen kirjoitusmuodon perusteella. Siksi osa hyvistä hakutuloksista voi jäädä vahingossa haun ulkopuolelle. 

Tietokannan hakukoneelle on kerrottava erikseen, että hakulauseella halutaan hakea kaikkia erilaisia hakusanan taivutusmuotoja (esim. opiskelija, opiskelijan, opiskelijaksi, opiskelijana) ja mahdollisesti johdoksiakin. Tämä tehdään käyttämällä sanankatkaisua.

Sanankatkaisu tapahtuu käyttämällä hakusanana sanan taipumatonta vartaloa, johon liitetään katkaisumerkki (truncation mark). Katkaisumerkkinä käytetään asteriskia (tähtimerkki): *

Yleissääntö on, että käyttämällä sanankatkaisua saadaan lisää hakutuloksia. Yhtä hakusanaa käyttämällä haetaan kerralla lukuisia erilaisia taivutusmuotoja, johdoksia ja muita variantteja.

Miten sanat katkaistaan?

Katkaisukohdan kanssa pitää olla tarkkana. Jos katkaisee liian aikaisin (esim. comp*), tulee myös vääriä osumia. Jos katkaisee liian myöhään (esim. computer*), osa jää löytymättä.

Sanavartalo  on hyvä yleissääntö, mutta ei pidä paikkaansa aina, esim. jos vartalo on hyvin lyhyt, kuten sanassa työ. Haun kannalta ongelmallisesti taipuu myös esimerkiksi sana lapset -> lasten.

Korvausmerkit avuksi, kun hakusanan kirjoitusasu vaihtelee

Korvausmerkkejä (wildcards) tarvitaan useimmiten hakusanoissa, joiden kirjoitusasu vaihtelee. Esimerkiksi brittiläisessä englannissa käytetään sanaa organisation ja amerikanenglannissa organization. Jotta molemmat sanat saadaan mukaan hakuun, ongelmallisen kirjaimen kohdalle hakusanaan voi sijoittaa korvausmerkin.

Sananhakuautomatiikan erityistapauksia

Fraasihaku toimii myös Googlessa.

Sanankatkaisun kanssa on hyvä pitää mielessä, että erilaiset sananhakuautomatiikat, kuten sanankatkaisu ja korvausmerkit, eivät yleensä toimi oikein, jos hakusana on kirjoitettu lainausmerkkien sisään (fraasihaku).

Esimerkiksi UEF-Primo ei osaa taivuttaa suomen kieltä. Siksi UEF-Primossa pitää aina muistaa käyttää sanankatkaisua. UEF-Primossa et kuitenkaan voi tehdä sanankatkaisua lainausmerkkien sisällä oleville sanoille.