1. august 2000

Internetis ronivad Àmblikud ja muud elukad

Andmete puhul on ĂŒks tĂ€htsamaid asju, et nad oleks pĂ€rast sisestamist ka leitavad — olgu siis failinime, kataloogi, spetsiaalse identifitseerimiskoodi vĂ”i muu vĂ”rdvÀÀrse informatsiooni abil. Igatahes on selge, et andmed peavad olema arukaks tarvitamiseks mĂ”nel viisil struktureeritud. See on lihtne isikliku telefoniraamatu puhul, ka riikliku autoregistri puhul, kuid mida varieeruvamaks muutuvad kirjed andmebaasis, seda raskemaks lĂ€heb vastava andmekogu otstarbekas liigendamine. Hajusa andmebaasina kĂ€sitletav Internet oma kasvava kodulehtede arsenaliga paneb inimese vĂ”ime asju enda korra jĂ€rgi sĂ€ttida karmilt proovile.

Kes iganes on Internetiga lÀhemalt kokku puutunud, see teab umbkaudugi, mis on otsingumootor ehk search engine ja milleks see vajalik on. NÀiteks suutis minu 14-aastane Ôde tulla lagedale jÀrgmise mÀÀratlusega:

Otsingumootorid töötavad nii, et sisestad, mida sa otsida tahad, ja siis tuleb vÔimalikult palju neid saite, kus on see sÔna kas pealkirjas vÔi nii, arvuti ekraanile.

Suurem jagu kasutajaid enamasti sellega piirdubki. Et aga orienteeruda otsimisvÔimaluste suhteliselt kirjus valikus, on tarvis veidike tÀpsemalt teada, mis tööpÔhimÔtted kindlustavad otsimootoritele nende eksistentsi.

Kataloog ja indeks

Kuna lehekĂŒlgi sĂŒnnib ja sureb Internetis iga pĂ€ev lugematu arv, siis pole mĂ”eldav, et keegi suudaks nende kĂ”ikide ĂŒle arvet pidada. Ka ei ole kujuteldav selline tsentraliseeritud infokogumisorgan, kellele tuleks alati teada anda, kui lood vĂ”i eemaldad mĂ”ne lehekĂŒlje. SellepĂ€rast peavad Internetis leiduvale informatsioonile arukalt liigendatud ligipÀÀsemise eest vĂ”itlejad tegelema lehekĂŒlgede registreerimise ja annulleerimisega omal jĂ”ul.

Üldiselt on selliseks liigendamiseks kaks vĂ”imalust. Esiteks, leida hulk inimesi, kes sirviks veebilehti, kirjutaks neis leiduvast kokkuvĂ”tteid ja paigutaks vastavatesse kataloogidesse. Sellist inimeste (toimetajate) poolt loodud andmebaasi nimetatakse tavaliselt kataloogiks.

Teine vÔimalus on lasta sama töö teha Àra selleks otstarbeks kirjutatud programmil (Àmblik ehk spider), mis loomulikult suudab sellist suhteliselt mehhaanilist indekseerimise (ronimine ehk crawling) tööd teha mÀrksa odavamalt ja kiiremini kui inimene.

Milles on aga andmebaaside erinevused? Inimestest kataloogijate tegevus peaks olema hÔlpsasti ette kujutatav. Aga digitaalsed Àmblikud?

Ämblik liigub mööda vĂ”rku ja registreerib selle, mis saadaval. JĂ€lgides lehekĂŒlgedel leiduvaid viiteid, suudab ta jĂ”uda nende lehtedeni, mis pole veel indekseeritud. LehekĂŒlje registreerimisel vĂ”ib Ă€mblik (olenevalt oma intelligentsuse tasemest) luua indeksi kĂ”igist lehekĂŒljel leiduvatest sĂ”nadest, viidetest teistele lehekĂŒlgedele ning pĂŒĂŒda eristada olulist ebaolulisest (nt sidesĂ”nad, parasiitsĂ”nad jne).

Olulistest mĂ€rksĂ”nadest, mida Ă€mblik eristab ĆĄrifti suuruse ning eripĂ€ra jĂ€rgi, mĂ€rksĂ”na asukoha jĂ€rgi lehekĂŒljel vĂ”i spetsiaalse mĂ€rksĂ”nade kirjelduse jĂ€rgi, luuakse dokumendile paik temaatilises kataloogis. Viidete abiga saab aga luua vĂ”rgust tervikliku kaardi, mida saab kasutada nĂ€iteks lehekĂŒlgede asjakohasuse ja kvaliteedi mÀÀramisel — mida rohkem viiteid vastava teema lehekĂŒlgedelt mĂ”nele kindlale paigale leidub, seda kvaliteetsem ja autoriteetsem too paik siis ka on. KĂ”ikide sĂ”nade kohta peetav indeks aga lubab kasutada tĂ€istekstotsingut.

Tihti on lehekĂŒlgedel ka muud peale teksti — nĂ€iteks pilt ja heli. VĂ€hemalt seni ei suuda ĂŒkski levinum otsimootor nendega korralikult hakkama saada, vaid lĂ€htutakse ikkagi neis sisalduvatest kirjeldavatest tekstidest.

Paistab olevat ilmne, et inimese loodud kataloog sisaldab teatud olulist infot, mis on mĂ€rgatav just inimesele, sellises kataloogis on kirjas lehekĂŒlje “mĂ”te”, kuigi ka toimetajad on erinevad ja erinevate lehekĂŒlgede mĂ”tted erinevalt tĂ”lgendatavad. Aga selline kataloog pakub vĂ€hemasti ĂŒht inimesele mĂ”istetavat struktuuri, kus on vĂ”imalik oma inimliku pĂ”hikogemuse baasil orienteeruda.

Digitaalse Ă€mbliku loodud indeks on seevastu pĂ”hjalikum ja pisiasju mĂ€rkavam, kuid pĂ”hiline otsimine on siiski jĂ€etud inimese teha, nimelt on sellise indeksi puhul vajalik tunda Ă€mblike “hingeelu”, et pĂ€ringuid töötlevale mootorile anda edasi just see Ă”ige pĂ€ring, mis kindlustab juba mĂ”istliku ja inimliku vastuse. Arvata vĂ”ib, et infotehnoloogia arenedes ja tehisintellekti loomisele ĂŒha lĂ€henedes suudavad varsti ka Ă€mblikud inimestega peaaegu vĂ”rdvÀÀrselt katalogiseerida.

PĂ€ring

PĂ€ring koosneb kogu vĂ”rguavarust hĂ”lmata pĂŒĂŒdvate sĂŒsteemide puhul tavaliselt mĂ€rksĂ”nadest, fraasidest ja nende mĂ”lemate loogilistest ĂŒhenditest, vĂ€iksemate sĂŒsteemide puhul lisaks veel teksti suvaliste osade pĂ€ringutest. Tavaliselt saab kasutada fraaside ja sĂ”nade komplekside puhul loogilist “ja”-d ja “vĂ”i”-d, samuti eitust ja jaatust. See tĂ€hendab, et pĂ€ringus vĂ”ib nĂ”uda:

  • kas ĂŒhe vĂ”i teise sĂ”na esinemist lehekĂŒljel;
  • selle ja veel teise sĂ”na esinemist lehekĂŒljel,
  • mĂ”ne sĂ”na mitte-esinemist lehekĂŒljel,
  • kolme eelneva omavahelisi kombinatsioone.

Samas on mĂ”ne sĂŒsteemi puhul vĂ”imalik otsida sĂ”nade nimekirja alusel ning lĂ€htuda erinevate sĂ”nade vĂ”imalikult suurest esindatusest lehekĂŒljel.

PĂ€ringu efektiivsus sĂ”ltub Ă€mblike loodud andmebaasi puhul suurelt jaolt kasutatavast indeksist ja sellega ĂŒmberkĂ€ivast pĂ€ringuhaldurist, toimetajate poolt loodud kataloogi puhul Ă”igupoolest ainult toimetajate vilumusest ja korrektsusest.

KĂ”igepealt on pĂ€ringule loodetud tulemuse saamine seoses loodud indeksi suurusega, kuid sugugi mitte ainult. Nimelt pole suurest indeksist kasu, kui otsides Internetist infot pirnisortide kohta serveeritakse meile hoopis valgusteid tootvate ja turustavate firmade kodulehekĂŒlgi. Tuleb kas tĂ€psustada pĂ€ringut vĂ”i loota, et pĂ€ringusĂŒsteem suudaks pĂ€rija soovist paremini aru saada. Sellist ĂŒlesannet tĂ€idab nt mĂ”nda mootorisse kaasatud pĂ€ringute arhiiv, kust iga uue pĂ€ringu puhul vaadatakse, kas sarnaseid pĂ€ringuid on juba tehtud ja kui on, siis teavitatakse otsijat vastavatest valdkonnaga seotud mĂ€rksĂ”nadest ning kataloogi rubriikidest. Loomulikult registreeritakse seal ka vastne pĂ€ring, et aidata edasisi pĂ€ringuid paremini sooritada. Selline sĂŒsteem aitab palju kaasa sagedaste pĂ€ringute puhul, kuid on kasutu ja peaaegu eksitav eksootilisemate soovide puhul.

Teiseks on kasulik juba mainitud viidetest lĂ€htuv kaart, mis laseb mÀÀrata Interneti sĂ”lmpunkte — need on autoriteetsed viitajad vĂ”i sisuka teabega lehed. See kindlustab, et pĂ€rides mootorilt lambipirnide jĂ€rele, ei kuvata sobivate lehekĂŒlgete kirjeid mitte suvaliselt ega ka mĂ€rksĂ”na esinemise rohkuse jĂ€rgi (mis on kergelt saboteeritav ja laialdaselt kasutatav), vaid autoriteetsuse jĂ€rgi. SeetĂ”ttu saavad esmalt Ă€ra mĂ€rgitud pirnide prestiiĆŸsemad ja tĂ€htsamad tootjad ning novaatorlikud ja kĂ”mulised ĂŒksused valgustitehnoloogias, mitte ebatĂ€htsad kohalikud edasimĂŒĂŒjad ega ka see artikkel, kus sĂ”na “pirn” tegelikult pĂ€ris mitmel korral esineb.

Loomulikult rakendatakse pĂ€ringutele ka elementaarset Ă”igekirjakontrolli. MĂ”nikord eemaldatakse sĂ”nadelt mitmuse lĂ”ppe ja muid eksitavaid ning pĂ€ringu tulemuslikkust kahandavaid elemente. Saadakse aru mĂ”istetest ja osatakse vastata kĂŒsimustele.

Laborist reaalsusse

Esimene ĂŒldine otsingumootor Yahoo! sai tuntuks 1994. aastal, koosnedes inimeste loodud kataloogist ja mĂ€rksĂ”naotsingust. Temaga on tihedalt seotud ka praegune esirinnas olev mittetulundusĂŒhinguna Netscape’i korporatsioonile kuuluv kataloog www.dmoz.org (directory+mozilla, muide, lipukirjaks on sel “HUMANS do it better!” — “INIMESED teevad paremini!"). See loodi 1998. aastal GNUHoo nime all alternatiivina Yahoo!-le, peatselt muutis aga nime Newhoo’ks. Kui Netscape Newhoo enda hĂ”lma alla haaras, siis sai nimi jĂ€llegi muudetud — kes teab, mida Yahoo! oma rahadega oleks kohtus taotlema vĂ”inud hakata — seekord ODP-ks (Open Directory Project) ja paralleelselt kannab ta tĂ€napĂ€eval ka juba mainitud nime “dmoz”. ODP on mĂ€rkimisvÀÀrne sellepĂ€rast, et ta on vabatahtlike toimetajate koostatud kataloog ja ĂŒhtlasi suurim inimeste koostatud vĂ”rgukataloog ĂŒldse. Andmeid on seal rohkem kui kahe miljoni lehekĂŒlje kohta ja kataloogi koostasid enam kui 28 tuhat toimetajat. Ka on ta spetsialistide arvates kĂ”ige pĂ”hjalikum ja kvaliteetsemalt katalogiseeritud, kuigi Ă”elaid pilke ei suuda tĂ€ielikult peletada ka see projekt.

ODP vÀgevuse kinnituseks kasutab aga suur osa mainekaid otsingumootoreid ODP vabalt jagatavat kataloogi oma pÀringute toimetamiseks.

Automaatikal pĂ”hinevaist otsingumootoreist vÀÀrib Ă€ramĂ€rkimist Google, mis kasutas esimesena reaalselt Ă€ra lehekĂŒlgedel leiduvate viidete voorusi saitide relevantsuse mÀÀramisel. Ka on Google’il suurim arv lehekĂŒlgi indekseeritud — kokku ĂŒle miljardi (mis kaasab ka lihtsalt kaardistatud lehti, kus Ă€mblik tegelikult kĂ€inud pole, kuid on viidatavat nĂ€inud; reaalselt indekseeritud lehti on praegu 600 tuhande ringis). VĂ”rgus arvatakse olevat ĂŒle miljardi kodulehe. Seega on siis indekseeritud maksimaalselt 60%, kuid see on minu arvates vĂ€ga optimistlik pakkumine.

Soovitusi otsijale

  • Esita pĂ€ring vĂ”imalikult ĂŒksikasjalikult ning paljude asjakohaste mĂ€rksĂ”nadega.

  • Loe otsingumootorite kasutusjuhendeid ja tee selgeks nende kĂ”ik erinevad vĂ”imalused, sest neid teades vĂ”ib osa asju, mis muidu kadunuks jÀÀks, lihtsalt kĂ€tte leida.

  • Kui otsid mingil kitsamal populaarsel teemal, siis on vĂ”ibolla olemas eraldi otsingumootor vĂ”i kataloog selle teema kohta. Ülevaateid spetsiifiliste kataloogide ja otsingumootorite kohta leiab nĂ€iteks aadressidelt www.invisibleweb.com vĂ”i www.searchengineguide.com.

Kataloogid on sirvitavad, Ă€mblike koostatud indeksid aga reeglina mitte kuigi ladusalt. Kui otsida nĂ€iteks kĂ”iki mingi ĂŒhe liigi esindajaid (nĂ€iteks mĂ”ne geograafilise punkti teatud valdkonna firmasid), siis on kasulik vĂ”tta otsingumootorites paratamatult esineva desinformatsiooni vĂ€ltimiseks hoopis lahti inimeste koostatud kataloog.

NĂ€ide praktikast

Mina kasutan peamiselt Google’it ja Altavistat. Esimest hindan ma, sest ta on kiirete, lihtsate ning populaarsete otsingute puhul parim, teine lubab seevastu praktiseerida eriti rafineeritud otsimist — nimelt ei nĂ”ua see, et pĂ€ringus esitatud mĂ€rksĂ”na oleks vastaval lehekĂŒljel kindlasti olemas. See kuvab lehed vĂ”imalikult suure hulga mĂ€rksĂ”nade esindatuse jĂ€rjekorras ning lubab eristada ka mĂ€rksĂ”nu, mis peavad tingimata lehekĂŒljel esinema.

Artikkel ilmus ajakirja Arvutimaailm 2000. aasta augusti/septembri numbris.