Artikelen



Tekortkomingen Google … en oplossingen

Jeroen Bosman, vakreferent Ruimtelijke Wetenschappen bij de Universiteitsbibliotheek Utrecht en docent bij GO, opleidingscentrum voor Dienstverlening, en Vogin, de Nederlandse Vereniging van Gebruikers van Interactieve Informatiesystemen, zette tijdens de IP-lezing uiteen hoe en waarom zoeken met Google soms niet voldoet. In onderstaand overzicht vindt u de punten waarop hij Google tekort vindt schieten plus de door hem genoemde oplossingen!

Wie vroeger op zoek was naar informatie over een bepaald onderwerp was aangewezen op de bibliotheek. Daar kon gezocht worden in boeken, en wie meer wilde weten moest op zoek gaan naar informatie in databases. Dat zoeken in databases werd vaak overgelaten aan informatiespecialisten, omdat het bepaald geen eenvoudige klus was. Je moest op de hoogte zijn welke databases er waren, en iedere database kende zijn eigen zoektaal. Tegenwoordig beperken veel mensen hun zoektocht naar informatie tot een speurtocht op het World Wide Web. Zoekmachines zijn zo eenvoudig te gebruiken, en leveren vaak zoveel informatie op, dat veel mensen daarna niet meer verder zoeken. De zoekmachine Google is ongelooflijk populair: het invoerscherm is duidelijk, het aantal geïndexeerde pagina’s is hoog (2.469.940.685 pagina’s, maar ook dat is nog maar een heel klein deel van het totale aantal pagina’s op internet!), en de meest populaire pagina’s (lees: de pagina’s die het meest gelinkt worden door veel bezochte pagina’s) staan bovenaan. Waarom zou je nog verder zoeken, is vaak de redenering. Onderstaand vindt u 24 redenen om u niet te beperken tot Google, maar ook nog eens op andere manieren het web te doorzoeken. 

1. Google indexeert alleen de eerste 101 kB van een webpagina (excl. afb.) Als een pagina langer is, worden de trefwoorden die in dat gedeelte voorkomen dus niet geïndexeerd. Google indexeert dus ook niet altijd alle niveaus van een website, maar stopt na een aantal niveaus. Als een website dus ver doorklikt, dan worden de diepst onderliggende pagina’s niet bezocht.

Oplossing: gebruik andere zoekmachines, bijvoorbeeld Alltheweb

Voorbeeld: Handleiding voor geografen, http://www.library.uu.nl/bcu/cursus/handleidingen/www/geografi.htm.

2. Google is lang niet altijd actueel. Sommige pagina’s worden vaker bezocht dan andere. Amerikaanse pagina’s bijvoorbeeld worden over het algemeen vaker bezocht dan niet-Amerikaanse pagina’s. Daardoor kan  bij sommige webpagina’s tussen het ene en het daaropvolgende bezoek vrij veel tijd liggen.

Oplossing: gebruik gespecialiseerde zoekmachines of onderwerpsgidsen. Je kunt ook een kijkje nemen op www2.google.com. Daar vind je soms meer actuele resultaten van de zoektochten van de ‘spiders’ van Google.

3. Google indexeert alleen het zichtbare gedeelte van het internet en niet het zogenoemde ‘diepe web’. Veel informatie op het internet staat niet rechtstreeks op websites, maar is verstopt  in een database. Bijvoorbeeld: catalogi van bibliotheken staan niet integraal op het web. Je kunt die database doorzoeken door een zoekterm op te geven. Google kan deze informatie niet ontsluiten. Alleen informatie die je kunt vinden door ‘klikken’ wordt in de database van Google opgenomen,

Oplossing: zoeken in gespecialiseerde zoekmachines voor het diepe web, bijvoorbeeld CompletePlanet, InvisibleWeb,

Zoeken in gidsen,

Zoeken in bronnen die je kent (bijvoorbeeld catalogi of andere databases),

4. Google beperkt zich voor wat betreft indexering van nieuwsbronnen tot Engelstalig nieuws

Oplossing: zoek in Alltheweb of in Daypop. Deze laatste zoekmachine doorzoekt ook weblogs

5. Het is onbekend hoe vaak Google webpagina’s bezoekt. Je kunt dus nooit tevoren je kans op succes inschatten en je weet niet of de gevonden informatie van recente datum is

Oplossing: zoek in professionele databases. Daar wordt actief gecollectioneerd. Als er nieuws is, wordt dat gesignaleerd en in de database opgenomen. 

6. De zoekmachine Google werkt niet volledig met Booleaanse operatoren. Standaard werkt Google met de term AND. Je kunt ook OR gebruiken. De overige Booleaanse operatoren (NOT en NEAR) worden niet herkend door Google. Ook geneste termen (waarbij zoektermen d.m.v. haakjes bij elkaar worden gezet) zijn niet mogelijk. Voor ervaren zoekers, die goed in staat zijn om een zoekvraag te bepalen, is dit zeker een beperking. Bovendien kun je in Google kun je niet met meer dan tien zoektermen tegelijk invoeren.

Oplossing: zoek met Altavista. Altavista heeft als extra mogelijkheid het zoeken met NEAR (het ene woord staat maximaal 10 woorden van het andere woord af in de tekst) en WITHIN. Met deze term, gevolgd door een cijfer, geef je aan dat de volgende term niet verder af mag staan van de volgende dan dat aantal woorden.

Bijvoorbeeld: middelbaar WITHIN 3 onderwijs. In dit geval mogen tussen de woorden middelbaar en onderwijs niet meer dan 3 woorden staan.

7. Als je veel treffers hebt bij een speurtocht, is het fijn als de zoekmachine tips geeft hoe je de zoekoperatie kunt verfijnen. Google biedt een dergelijke mogelijkheid niet.

Oplossing: zoek met Teoma. De tips die Teoma geeft zijn niet altijd even zinvol, maar in sommige gevallen is het een goed hulpmiddel om te bepalen hoe je de zoektocht verder kunt verfijnen, zodat je het aantal treffers verkleint

8. Wie wil zoeken op een exacte datum, of binnen een beperkte periode, kan bij Google niet terecht. Google biedt alleen de mogelijkheid om te zoeken op de afgelopen 3, 6 of 12 maanden. Wie de zoektocht wil beperkten tot bijvoorbeeld informatie na 11-9-2002, kan dat bij Google niet ingeven

Oplossing: zoek met Alltheweb.

9. Wie plaatjes zoekt met Google kan feitelijk alleen zoeken op de tekst achter de afbeeldingen. Het is niet mogelijk om als ‘zoekterm’ een afbeelding in te voeren en te zoeken naar soortgelijke afbeeldingen

Oplossing: voor zover bekend geen gratis oplossingen op het web. Diggit.com was een zoekmachine die deze mogelijkheid bood, maar deze software wordt op dit ogenblik te koop aangeboden

10. Zoeken afbeeldingen met bepaalde bestandsformaten is bij Google beperkt tot GIF en JPG-bestanden. Wie op zoek is naar bijvoorbeeld bitmap-bestanden of alleen zwart-wit afbeeldingen zoekt, kan niet terecht bij Google.

Oplossing: Gebruik de afbeeldingenzoeker van Alltheweb

11. Weinigen zullen het gebruiken, maar soms kan het handig zijn om te zoeken op IP-adres. Dat is een uniek adres in de vorm van getallen, waarmee een computer geïdentificeerd kan worden. Het nummer bestaat uit twee delen: het eerste deel (netwerkadres) bepaalt het netwerk waar het IP-adres voorkomt. Het tweede deel (hostadres) geeft aan welke computer wordt bedoeld

Dit kan, naast de URL, zekerheid geven of de gezochte site inderdaad afkomstig is van een bepaalde persoon of instantie. Binnen Google kan niet gezocht worden op IP-adres.

Oplossing: maak gebruik van Alltheweb

12. Vaak wordt de homepage (startpagina) van een website gebruikt om een korte inhoud te geven van de totale website. Wie zoekt op woorden die voorkomen op de homepage, krijgt dus vaak pagina’s die dat begrip als onderwerp van de totale website hebben, m.a.w. deze sites hebben vaak meer informatie over dat onderwerp, dan sites waar het betreffende begrip pas voorkomt in bijvoorbeeld een derde laag of nog verder. Bij Google kun je niet aangeven op welke ‘diepte’ het gezochte woord moet voorkomen

Oplossing: zoek met Alltheweb of met Hotbot

13. Wie informatie zoekt over een bepaald land of gebied, kan er verstandig aan doen om informatie te zoeken in de taal van dat land of gebied. Het is niet vreemd om te bedenken dat een Friestalige site meer of betere informatie biedt over fierljeppen dan een Nederlandstalige site. Met Google kan gezocht worden op ca. 35 verschillende talen; Fries valt daar bijvoorbeeld niet onder.

Oplossing: Alltheweb biedt 50 talen waaruit geselecteerd kan worden, waaronder Fries.

14. Wie zoekt met Google, kan de zoektermen niet trunceren (afkorten m.b.v. bijvoorbeeld een *). Dat kan natuurlijk ondervangen worden door alle relevante termen zelf op te sommen met OR (bijvoorbeeld fysiotherapie OR fysiotherapeut OR fysiotherapeuten OR fysiotherapeutes), maar het is natuurlijk veel makkelijker om als zoekterm in dat geval fysioth* te gebruiken

Oplossing: zoek met Altavista.

15. In Google kan geen onderscheid gemaakt worden tussen hoofd- en kleine letters. Vooral als namen ook voorkomen als zelfstandig naamwoord (bijvoorbeeld Bush of bush), kan dit een goed onderscheidingscriterium zijn.

Oplossing: de zoekmachines MSN, Hotbot en Altavista bieden deze mogelijkheid wel. Bij Altavista moet in dat geval de zoekterm wel tussen aanhalingstekens geplaatst worden, dus ‘Bush’

16. Als je een pagina hebt gevonden die relevant is, kan je zoeken naar soortgelijke informatie door op zoek te gaan naar pagina’s die een link naar deze pagina bevatten. Dat kan met Google, maar je kunt niet dan ook nog de opdracht geven dat ook nog een bepaald woord op de pagina moet voorkomen. (bijvoorbeeld webpagina’s waar het woord vakblad op voorkomt én die linken naar informatieprofessional.nl)

Oplossing: zoek met Alltheweb.

17. De zoekmenu’s (pull-down menu’s) van Google-geavanceerd zoeken zijn soms niet compleet. Zo zou je volgens de menu’s alleen kunnen zoeken naar de bestandsformaten .pdf, .ps, .doc, .xls, .ppt en .rtf. Maar wie de helpbestanden goed doorleest, ziet dat Google ook kan zoeken naar andere bestandsformaten, zoals WordPerfect wpd), Lotus 1-2-3 (.wku) en Text-bestanden (txt)

Oplossing: lees de helpteksten van de Engelstalige Google-site goed door. Het biedt veel extra mogelijkheden!

18. Google laat niet alle webpagina’s zien: ‘Om de relevantste resultaten te tonen, hebben we een aantal ingangen weggelaten die heel sterk lijken op de reeds weergegeven 20’

Oplossing: Klik aan: ‘de zoekbewerking herhalen met de weggelaten resultaten’ of zoek met MSN.

19. Google laat per website maximaal  twee pagina’s zien: de homepage en één pagina van een niveau daaronder.

Oplossing: Klik aan: ‘Meer resultaten van ….’ of zoek met MSN. Zorg dat er dan in de modus ‘geavanceerd zoeken’ geen vinkje staat voor ‘per domein één resultaat weergeven’.

20. Google sorteert de webpagina’s op populariteit. De pagina waarnaar het meest gelinkt wordt door de meest-bezochte pagina’s, staat bovenaan. Er is geen ordening in de treffers aangebracht in mappen of folders. Als een woord meer betekenissen heeft, kan een dergelijke verdeling in folders handig zijn.

Oplossing: zoek met Vivissimo. Een zoektocht naar het begrip ‘bank’geeft daar treffers in o.a. de folders ‘stoelen’, ‘centrale bank’, ‘lenen, financiering’ etc.

21. Impopulaire pagina’s komen altijd onderaan. Nieuwe pagina’s, waarnaar (nog) niet veel gelinkt wordt, zullen altijd onderaan de lijst met treffers komen.

Oplossing: probeer zo specifiek mogelijk te zoeken. Hoe minder treffers, des te groter de kans dat ook de niet-populaire pagina’s redelijk bovenaan in de lijst komen. ………dus bijv. zoeken met AltaVista in de advanced search

22. Met Google kunnen zoekacties en de gevonden treffers niet bewaard worden.

Oplossing: zoek met Copernic of Bull’s Eye.

23. Wil je een search regelmatig herhalen,  bijvoorbeeld om te zien of er ontwikkelingen zijn in een bepaald gebied, kan bij Google niet terecht.

Oplossing: of zoek met Copernic  en klik aan ‘track search’.

24. Het kan handig zijn als je op de hoogte wordt gehouden als er wijzigingen zijn op een site, bijvoorbeeld een site van een uitgever i.v.m. nieuw verschenen uitgaven. Google heeft daarvoor geen mogelijkheden.

Oplossing: geef op bij Trackengine welke sites je wil volgen of download het gratis programma C4U.

 Wil dit alles nu zeggen dat zoekers voortaan de zoekmachine Google moeten afzweren? Is Google dan zo beperkt dat we deze zoekmachine voortaan links moeten laten liggen? Natuurlijk niet; er is ook veel goeds over Google te vertellen. Het geeft u immers in korte tijd de meest populaire pagina’s. Je kunt zoeken in de index van Google, maar je kunt ook (desgewenst via Google) kiezen om te zoeken in (één van de rubrieken van) het Open Directory Project, een uitstekende onderwerpgids op het internet. Is een pagina inmiddels van het internet verdwenen, dan kun je de betreffende pagina zoals hij was toen hij werd geïndexeerd, ophalen uit het geheugen (de cache) van Google. Soms kun je op die manier nog achterhalen of de pagina inmiddels elders te vinden is. In het nieuwsgroepenarchief van Google kun je bijvoorbeeld heel goed terecht als je vragen hebt over software, virussen, computerfoutmeldingen etc.  En Google heeft heel veel pagina’s geïndexeerd. Ter vergelijking: Google heeft op het moment van schrijven 2.469.940.685 pagina’s geïndexeerd, terwijl dat er bij Alltheweb, toch ook geen kleintje, 2.112.188.990 zijn en de zoekmachine Gigablast (die sterk lijkt op Google) zelfs ‘maar’ 144.536.416 webpagina’s.  Google biedt dus nog altijd een redelijke kans van slagen. Maar wie goed wil zoeken, zal niet alleen moeten zoeken met Google. Wie meer uit het internet wil halen, gaat voordat hij gaat zoeken na, welke zoekmachines of andere zoekmiddelen het beste gebruikt kunnen worden, of er misschien speciale bronnen te vinden zijn op het internet en met welke zoekwoorden het best gezocht kan worden. Een goede tip is om altijd tenminste drie zoekwoorden te gebruiken.

Wie zich houdt aan de hier gedane aanbevelingen zal in de toekomst zeker meer uit het internet kunnen halen! 

URL’s van de genoemde zoekmachines:

www.google.com en www.google.nl

www.alltheweb.com

www.teoma.com

www.scirus.com

www.daypop.com

www.msn.com en http://www.msn.nl/

http://www.hotbot.lycos.com en http://www.hotbot.lycos.nl/

http://vivisimo.com/

http://www.gigablast.com/

http://www.trackengine.com

www.completeplanet.com

http://invisibleweb.com/

www.copernic.com: off-line zoekmachine, hiervan is een gratis editie via het web te downloaden; voor de professionele versie moet betaald worden.

www.bullseye.com: off-line zoekmachine.

naar boven