N-grammeilla toimiva hakukone

Pelisivuillani on jo 92 arvostelua. Tuollaisen paljouden kanssa on jo tekemisissä, kun yrittää keksiä näppäriä tapoja esittää aineistoa helposti löydettävässä muodossa. Tulin siihen tulokseen, että tarvitsen hakukoneen.

Ihan tavallista hakukoneesta ei tullut, vaan hyödynsin kieltenvälisen tiedonhaun kurssilla opittua n-grammitäsmäytystä. Systeemi on näppärä ja hallitsee kirjoitusvirheet ja kirjoitusasun vaihtelut tyylikkäästi. Esimerkiksi hakusanoilla "Eufrat ja Tigris" löytyy Tigris & Euphrates. Ei onnistuisi yksinkertaisella sanahaulla!

Kirjoitin teknisestä toteutuksesta englanninkieliselle puolelle jutun N-Gram String Matching, sieltä löytyy tarkempia yksityiskohtia ja PHP-koodia.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *