Achterlijke zoekrobots
Zo, even een nerdpostje doen. Sla dit stukje dus rustig over als je niet weet wat ‘indexeren’ is. ![]()
Ik blog al sinds 2004 ofzo. Dat is inmiddels zes jaar, en dat klopt wel ongeveer, want ik begon toen ik nog op het MBO zat. Mijn allereerste stukje ging over het feit dat ik een weblog was begonnen. Het alleroudste stukje dat tegenwoordig nog online staat is een pareltje over BNN. Zonder de bijbehorende reacties, want die zijn in de loop der tijd verloren gegaan.
Waarom zijn die verloren gegaan? Verhuizingen. Ik begon ooit bij Blogger.com, de gratis blogdienst. Tegenwoordig van Google was dat destijds het beste alternatief voor de diensten van web-log, dat destijds afschuwelijk lelijke sites produceerde.
Later stapte ik over naar mijn eigen site, hier op nder.be. Ik gebruikte één van de eerste weblogprogramma’s voor op je website. Ietwat primitief, weinig opties en niet bepaald een wonder van techniek. Maar het werkte, en blog.nder.be is sindsdien hét adres geworden voor stukjes door mij geschreven. Ja, en tegenwoordig staan ze ook op Hyves. Dikke kans dat je dit daar leest.
De webadressen waarop mijn stukjes te vinden zijn zijn sinds die tijd dan ook flink veranderd. Bij Blogger.com ging het nog wel. Daar was het iets als /blog/titel.html. Mijn eerste weblog produceerde wazige dingen zoals /index.php?id=29292. De updates daarna, en wisselingen van de wacht op software gebied leverden elke keer andere links op.
Op zich was dat niet zo’n probleem. Alles werkte immers, als je op mijn weblog zat. Maar het internet zelf was wat hardnekkiger. Oude linkjes gingen stuk. Toen ik ooit van software wisselde moest ik nog maanden oude linkjes in Google fixen.
Tegenwoordig zit dat wel goed. Google pikt me goed op, net als Yahoo! en Bing. Maar er zijn nog een boel entrepeneurs met primitieve webrobots die het concept ‘pagina niet gevonden’ niet snappen. Ze duiken ergens een oud linkje op (en geen idee waar, ik kan ze niet vinden), en proberen dat te bezoeken. Ze krijgen vervolgens de keurige melding “sorry, pagina niet gevonden“.
In plaats van daar gehoor aan te geven en het linkje maar te vergeten blijven ze het proberen. Het gevolg? Ik heb soms tientallen, zo niet honderden meldingen in mijn logboeken staan van debiele webrobots die hardnekkig dezelfde oeroude link proberen te bezoeken. En meestal repareer ik de link handmatig, zodat-ie weer werkt, maar vaak ook niet. Ik heb, zeker twee dagen voor mijn afstudeerpresentatie zoals nu, wel wat beters te doen. En denk maar niet dat zulke webrobots gehoor geven aan het technische jargon dat mijn website inmiddels heeft, waar min of meer in staat dat ze op moeten donderen.
Eigenlijk kan je maar één conclusie trekken uit al dat gemier met websites. Het internet is inmiddels net zo ‘volwassen’ als ik. Meestal wel, maar met regelmaat helemaal niet.








Ach, waarom zouden zoekmachines luisteren naar HTTP status codes? Die zijn toch zo hopeloos ouderwets?
Paar tips:
- Google Webmaster Tools om te zien waar die verzoeken vandaan komen
- Yahoo Site Explorer om handmatig je inlinks af te lopen (http://siteexplorer.search.yahoo.com/search?p=blog.nder.be&fr=sfp&bwm=i, gek genoeg beter dan Google)
- mod_rewrite om je oude urls gewoon te herschrijven naar nieuwe (met een R=301 flag)
- http://www.alistapart.com/articles/perfect404/ om zowel jezelf als je users beter te voorzien in het geval van een 404
Enzo
Thx voor de tips dude. De enige links waar ik nu nog echt mee zit echter, daarvan heb ik géén idee waar die vandaan komen. De referer is ook op dit blog, en werkt perfect, maar elke vervolg link is stuk door een verneukeratief &== dingetje. Maar hoe ze op de originele link komen, dat zie je dan weer niet.
Mod_rewrite gebruik ik idd her en der.