Meu nome é Bacca, Chewbacca.

chamado carinhosamente de chewieb 
« Back to blog

crowdsourcing

Usuários de computadores estão digitalizando livros sem saber

Redação do Site Inovação Tecnológica
21/08/2008
Usuários de computadores estão digitalizando livros sem saber
Tela mostrando um reCaptcha, que usa o mecanismo de segurança para decifrar palavras não entendidas pelo OCR.

Milhões de usuários de computadores estão digitalizando o equivalente a 160 livros diariamente com uma precisão superior a 99%, ainda que a maioria deles não saiba que está ajudando nesta tarefa hercúlea.

Captcha útil

O trabalho começou há cerca de um ano, quando pesquisadores da Universidade Carnegie Mellon, nos Estados Unidos, colocaram no ar o reCAPTCHA. CAPTCHA é o nome daquele monte de letras e números embaralhados que se deve digitar para se cadastrar em um site ou para confirmar o envio de um correio eletrônico.

Em vez de ser uma mera medida de segurança que os sites utilizam para evitar a ação de spammers, o reCAPTCHA mostra palavras de verdade capturadas de livros por meio de scanners e que não puderam ser interpretadas pelas ferramentas de reconhecimento de caracteres, os chamados OCR (Optical Character Recognition).

Reconhecimento de palavras

Mas como o programa sabe que o usuário digitou a palavra correta? O sistema funciona assim: o software do reCAPTCHA pega uma palavra conhecida e outra que não foi reconhecida pelo OCR, e apresenta ambas ao usuário. Se o usuário interpretou corretamente a primeira, o programa assume que a segunda também foi interpretada corretamente. O mesmo conjunto é apresentado seguidamente a vários usuários, até que, estatisticamente, ele tenha certeza de que a palavra foi mesmo reconhecida.

Milhares de sites ao redor do mundo já adotaram o reCAPTCHA, que é gratuito. Durante seu primeiro ano de funcionamento, 1,2 bilhão de captchas foram resolvidos e mais de 440 milhões de palavras foram corretamente decifradas. Isso equivale à digitalização de 17.600 livros.




http://www.inovacaotecnologica.com.br/noticias/noticia.php?artigo=usuarios-de-computadores-estao-digitalizando-livros-sem-saber&id=010150080821

Comments (0)

Leave a comment...

 
To leave a comment on this posterous, please login by clicking one of the following.
Posterous-login     Connect     twitter