Op dit blog schreven we eerder al over de toegangsproblemen die visuele captcha’s kunnen veroorzaken. Een captcha is een verificatiemechanisme dat website-eigenaars gebruiken om bepaalde pagina’s of functies op een websites met opzet ontoegankelijk te maken voor computerscripts. Captcha’s zijn meestal gebaseerd op een afbeelding van een paar letters of woorden die moeilijk herkenbaar zijn en enkel door mensenogen juist geïnterpreteerd kunnen worden. Je treft ze bijvoorbeeld aan op aanmeldpagina’s voor webdiensten of in het reactieformulier op sommige weblogs. Ze zijn een doeltreffend middel om ondermeer comment spam te voorkomen, maar helaas blokkeren ze ook de weg voor blinden en sommige slechtzienden en ouderen.
Eerder schreven we dat het aanbieden van een auditieve én een visuele captcha een afdoend middel is om de meeste internetgebruikers toegang te bieden tot afgschermde websiteonderdelen. Een voorbeeld van zo’n verificatiescript vind je in het artikel Audiocaptcha’s in de praktijk. Christophe van de onderzoeksgroep DocArch vestigde onze aandacht op reCAPTCHA, een ‘hosted’ captcha-oplossing die niet alleen toegankelijk is, maar ook een ander opmerkelijke eigenschap heeft die ?? in the long run ?? de toegankelijkheid van papieren bilbiotheekarchieven een duw in de rug kan geven.
Onderzoekers aan The School of Computer Science van de Carnegie Mellon Universiteit in Pittsburgh hebben becijferd dat we dagelijks met z’n allen zo’n 60 miljoen captcha’s oplossen. Als er gemiddeld 10 seconden besteed worden aan het oplossen van één captcha, dan betekent dat dat we dagelijks 17 jaar (!) aan ‘menstjjd’ vergooien die ook nuttiger besteed zou kunnen worden. Wel: als je een captcha oplost die aangeboden wordt via de reCAPTCHA-servers, draag je een steentje bij aan het digitaliseren van oude boeken.
Om menselijke kennis die enkel te boek staat, te archiveren en voor iedereen beschikbaar te maken via het internet, lopen er diverse projecten. Denk aan het Project Gutenberg en aan Google Book Search. Tienduizenden pagina’s worden aan een razend tempo ingescand en met behulp van optische tekstherkenning (OCR) doorzoekbaar gemaakt en vervolgens digitaal ontsloten. Helaas is tekstherkenning niet onfeilbaar en is de kwaliteit van de herkende tekst sterk afhankelijk van de kwaliteit van de tekst in het boek. En vaak geldt: hoe ouder het boek, hoe slechter de staat (en ook: hoe ouder het boek, hoe belangrijker de historische waarde van de inhoud!). Het manueel corrigeren van teksten is heel arbeidsintensief. reCAPTCHA verbetert het digitaliseringsproces door de moeilijk te herkennen woorden in de vorm van captcha’s voor te leggen aan internetgebruikers. Het noodzakelijke wordt hierdoor aan het nuttige gekoppeld, zeg maar.
Maar, euh, wacht eens even: als een computer een woord niet weet te herkennen, hoe kan diezelfde computer dan controleren of een gebruiker het woord juist heeft overgetypt? Dit is wat de technologie volgens mij zo uniek maakt: niet-herkende woorden worden afwisselend afgebeeld met woorden die door het OCR-programma wél met 100% zekerheid herkend werden. De gebruiker weet niet welke woorden herkend werden en welke niet. Dezelfde ‘twijfelgevallen’ worden vervolgens voorgelegd aan verschillende andere captcha-gebruikers om zo met hogere zekerheid te bepalen welk woord er precies bedoeld werd.
Iedereen kan gratis gebruik maken van reCATPCHA. Hoe eenvoudig het is om de dienst te integreren op je eigen website of blog, heb ik nog niet onderzocht. Het idee achter reCAPTCHA doet me ook heel sterk denken aan de Google Image Labeler waarbij mensen via een spelletje beschrijvingen koppelen aan foto’s om de resulaten van Google Image Search te optimaliseren.
Meer informatie op reCAPTCHA.net.