Fascinación por la vida

Divagaciones mentales de Alberto Gimeno

Entre todos es posible

Gracias a Internet los retos tecnológicos que requieren muchas personas para ser llevados a cabo ahora pueden realizarse.

  • Zivis, supercomputación ciudadana.
  • Google Image Labeler‘, un servicio que, en forma de competición, invita a los usuarios de Google a conseguir puntos mediante un juego que consiste en escribir las palabras que se nos ocurran cuando vemos una determinada fotografía elegida al azar de entre las millones que hay en el buscador ‘Google Images. (fuente). Se trata de un “juego” para entrenar el programa de inteligencia artificial del futuro buscador de imágenes de Google. Un programa de inteligencia artificial necesita “muestras”. Este programa por ejemplo necesita que le digamos lo que aparece en miles de fotos. Si aparece una montaña, un pájaro, una persona,… Así el programa aprenderá a reconocer patrones y ante una imagen nueva podrá deducir si lo que aparece es una montaña, un pájaro,…
  • ¿Cómo relacionar el SPAM con la digitalización de libros en un proyecto útil para todos? La respuesta es: reCaptcha. Los spammers utilizan programas que postean automáticamente en comentarios en weblogs, foros, etc. Para evitar esto se utilizan los captchas. Un Captcha es un mecanismo para diferenciar a un humano de una máquina en un proceso. Suele ser una imágen como esta . El usuario que quiera publicar un post deberá escribir en una caja de texto lo que aparece en una imagen. Si lo introduce incorrectamente el post no será enviado. Esto evita que programas de spammers automaticen la publicación de contenido basura gracias a que un programa no puede saber los caracteres que hay impresos en la imagen. ¿Seguro? Bueno, realmente sí se puede, pero no en absoluto sencillo si se hace bien. Introduciendo garabatos, volteando los caracteres o utilizando diversos colores se logra hacer muy complicado el reconocimiento de caracteres a través de un programa de ordenador. Estos programas que reconocen caracteres en imágenes se llaman OCR. Las imágenes captcha se basan, pues, en que los OCR no son perfectos y no son capaces de reconocer todo lo que una persona sí puede reconocer. Esto es una ventaja frente a los spammers. Los OCR se usan también para digitalizar libros. Los libros se escanean, se pasan por un OCR y se obtiene el contenido textual del libro. Pero el problema es que, debido a que los OCR no son perfectos, la digitalización de libros también está lejos de ser perfecta.

    Aquí es donde reCaptcha soluciona todos nuestros problemas😛. Necesidad 1.- ¿Cómo ayudar a la digitalización de libros? Se necesitarían voluntarios que manualmente reconociesen las palabras que el OCR no ha podido reconocer. Necesidad 2.- Los webmasters necesitamos implementar estos captchas en nuestras páginas web. Solución.- reCaptcha. Este proyecto nos facilita a los webmasters la implementación de un mecanismo de captcha. Nos genera captchas que constan de dos palabras: una conocida y una desconocida. La desconocida es un fragmento escaneado de un libro. Es un fragmento que un OCR no ha sido capaz de reconocer. El usuario para completar el formulario debe introducir las dos palabras que aparecen en el captcha. El usuario pasará el formulario cuando introduzca correctamente al menos la palabra conocida. ¿Y la palabra desconocida? Aquí viene lo interesante, el usuario está colaborando con este proyecto de digitalización de libros reconociendo manualmente la palabra desconocida que es una palabra que un OCR no ha sido capaz de reconocer. ¿Y si el usuario se equivoca? Bien, no se asume directamente que el usuario ha reconocido correctamente el fragmento que no reconoció el OCR. Lo que se hace es presentar el mismo fragmento a varios usuarios y se tomará el reconocimiento por válido cuando varios usuarios hayan insertado la misma palabra a partir del mismo fragmento. Así miles de usuarios en todo el mundo casi sin darse cuenta están colaborando en la digitalización de libros. Los captcha, que son un poco incordio y que no servían nada más que para evitar el spam, ahora sirven para digitalizar libros. Sencillamente fantástico😀

Written by gimenete

Viernes, mayo 25, 2007 a 5:57 pm

Publicado en internet

A %d blogueros les gusta esto: