Noch mehr Clickworking: Mit Spamschutz Bücher digitalisieren

Neulich hatte ich ja bereits von einem Projekt berichtet, bei dem eine einfache aber mühselige Arbeit von vielen tausenden von Nutzern weltweit durchgeführt wird.

Der Blockbote verweist nun auf einen Artikel in der Netzwelt, in dem beschrieben ist, wie das Internet Archive sich den Spamschutz von Blogs, Foren etc. zu Nutze machen will. Man kennt ja das Prinzip von Captchas: Wenn ein User einen Kommentar oder Forenbeitrag veröffentlichen will, erscheint erst eine Grafik mit schlecht erkennbaren Buchstaben, die der Nutzer abtippen muss. Dadurch können Spambots ausgehebelt werden, denn sie werden diese Aufgabe nicht lösen können.

Jetzt bemühen sich einige Wissenschaftler der Carnegie Mellon University darum, die menschliche Intelligenz beim Ausfüllen der Spam-Fallen ein bisschen effektiver zu nutzen. Sie gehen davon aus, dass täglich weltweit mehr als 60 Millionen Captcha-Tests ausgefüllt werden. Wenn jeder dieser Tests auch nur zehn Sekunden dauert, dann entspricht das mehr als 150.000 Stunden kollektiver Arbeit pro Tag.

Mit so vielen Stunden kollektiver Arbeit will das Internet Archive nun alte Bücher digitalisieren:

Das Internet Archive bemüht sich seit Jahren darum, Bücher mit abgelaufenen Urheberrechten kostenlos ins Netz zu stellen. Das Problem: Computer können beim Scannen eines alten Buchs mit vergilbten Seiten und verwaschenen Fonts oft nicht jedes Wort erkennen. Einzelne Wörter müssen per Hand korrigiert werden. Recaptcha soll nun dabei helfen, diesen Prozess mit Hilfe des Netzes zu automatisieren. Jedes unbekannte Wort wird dabei in einer Reihe von Tests eingesetzt, um Flüchtigkeitsfehler zu minimieren.

Bin mal gespannt, was für Ideen solcher Art in Zukunft noch entstehen werden!



Ähnliche Beiträge

Auch sehr interessant:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *