Categoria Tecnologia  Noticia Atualizada em 02-01-2008

Projeto 'explora' internauta para digitalizar livros
Palavras que n�o foram identificadas corretamente por scanner viram 'captcha'
Projeto 'explora' internauta para digitalizar livros
Foto: Reprodu��o

As letras distorcidas que voc� identifica para validar um cadastro on-line, seja ao criar um e-mail ou se registrar em uma rede social, podem ajudar a digitalizar livros na internet.

A rela��o parece improv�vel, mas o "ReCaptcha" j� fez a id�ia sair do papel.

Com o slogan "Acabe com o spam. Leia Livros", o projeto usa o conceito de "captchas" (Completely Automated Turing Test To Tell Computers and Humans Apart) para aproveitar a crescente "m�o-de-obra" gratuita na internet em nome do conhecimento.

Em vez de utilizar c�digos aleat�rios de letras e n�meros para testar se o internauta que preenche um cadastro � realmente humano (e n�o uma m�quina controlada por spammers), o "ReCaptcha" coloca na salada de letras palavras reais, extra�das de livros de verdade.

S�o palavras que n�o puderam ser identificadas corretamente pelo sistema de Reconhecimento �"tico de Caracteres (OCR - Optical Character Recognition), muitas vezes devido ao estado de conserva��o irregular de certas obras no papel.

Com o "ReCaptcha", uma palavra que n�o � identificada corretamente pelo OCR � automaticamente enviada aos geradores de "captcha" do sistema. Essa palavra � apresentada a um internauta que esteja, por exemplo, escrevendo seu coment�rio em um blog. Se ele identifica a palavra corretamente, ela � devolvida a seu lugar de origem, corrigida.

Segundo o site "The Real Captcha", cerca de 60 milh�es de "captcha" s�o solucionados diariamente em toda a internet. S�o c�digos aleat�rios envolvendo letras e n�meros que, quando identificados, deixam de existir. Se esse "ex�rcito" de digitadores fosse usado para corrigir as falhas do sistema OCR, 150 mil horas de trabalho de digitaliza��o de livros seriam poupadas diariamente, calcula o site do projeto.

O sistema mostra as palavras em pares, e oferece a vers�o em �udio para que deficientes visuais tamb�m possam identificar o texto. Para "passar pelo teste", o internauta deve identificar corretamente as duas palavras - uma j� conhecida do sistema, e outra in�dita.

O usu�rio que quiser incluir o sistema "ReCaptcha" em seu site ou blog pode conferir os requerimentos necess�rios no site do projeto. Por enquanto, as palavras identificadas s�o utilizadas para ajudar a digitaliza��o de livros do site "Internet Archive", organiza��o sem fins lucrativos que desde 1996 transforma livros de papel em textos na internet.

Projeto 'explora' internauta para digitalizar livros.

Fonte:

Acesse o G1

 
Por:  Felipe Campos    |      Imprimir