El proceso evolutivo de los Sistemas de Recuperación de Información


Posteo un artículo muy llamativo e interesante publicado en la página web:http://irsweb.es/?q=node/558. Dicho texto llamó mucho mi atención por la forma tan atractiva en que se nos muestra la evolución de los Sistemas de Recuperación de Información.

Lesk lleva a cabo una curiosa presentación de la evolución de la recuperación de la información considerándola como un ser humano que va atravesando diversos períodos de su existencia :

1.El niño de guardería (1945-1955): el niño nace con los planteamientos teóricos de Vannevar Bush (1945) -muchos de los cuales se han alcanzado posteriormente con la evolución de la tecnología- y los índices KWIC propuestos por Luhn, el precursor de la Indización Automática (Rijsbergen, 1999).

2.El niño de colegio (1960s): es la época donde algunos de los hoy principales sistemas de recuperación de información (Dialog y BRS por ejemplo) son proyectos embrionarios. Al mismo tiempo comienzan a desarrollarse las primeras bases de datos de repertorios bibliográficos (Chemical Abstracts o ERIC por ejemplo). También en esa época tienen lugar los experimentos de Cleverdon en el Instituto Cranfield (Sparck Jones, 1981), (Cleverdon, 1991).

3.El adulto (1970s): cuando comienzan a tomar forma los primeros proyectos gracias al desarrollo de los periféricos de entrada de textos (teclados) que permitían construir grandes colecciones de textos mejor que los lectores de tarjetas perforadas. El otro factor clave son los sistemas de proceso de datos en tiempo real. En esta época surge –de forma incipiente- OCLC el mayor recolector de información bibliográfica a nivel mundial y se desarrolla el formato MARC para la catalogación automatizada de las colecciones de fondos de las bibliotecas. También es cuando se funda NSF (‘National Science Fundation’) institución que tanta importancia va a tener en las décadas siguientes. En esta época la comunidad de investigadores en recuperación de información coincide mucho con los dedicados a la Inteligencia Artificial. A nivel conceptual, el mayor avance lo constituye el modelo probabilístico de recuperación de información, introducido por ‘Keith’ Rijsbergen (1999).

4.El maduro (1980s): al mismo tiempo que aumentan las facilidades para la entrada de la información disminuye el coste de los dispositivos de almacenamiento, aunque este proceso tiene su culminación en la década siguiente. Especialmente destaca en estos años la expansión del CD-ROM, hecho que revolucionó la entonces incipiente Industria de la Información. Paralelamente a la distribución de información en este formato asistimos al desarrollo de los primeros módulos de consulta de catálogos en línea (OPAC), que también alcanzan su plena expansión en la década siguiente gracias a la World Wide Web. En esta época se afianza la investigación en la producción de algoritmos eficientes para la recuperación de la información, correspondiendo a Croft y Fox los más conocidos. Pero si algo merece ser recordado de forma prioritaria en esta época, no es otra cosa que la propuesta de aplicación del modelo del espacio vectorial de Gerard Salton en la recuperación de la información.
5.La crisis de los cuarenta (1990s): para quien no haya llegado aún a esa edad sólo decirle que no es un mito pero que se supera. En esta década el niño tiene ya 45 años aproximadamente y durante los primeros años parece funcionar con el piloto automático contentándose con los desarrollos del período anterior. Pero todo comienza a cambiar radicalmente cuando Tim Berners-Lee crea la World Wide Web, entorno que para muchos representa la plasmación de los postulados de Vannevar Bush y es cuando cabe preguntarse si el niño ha alcanzado su meta. Desde este momento todo cambia, tanto a nivel del sector industrial (surgen Netscape, Yahoo!, Lycos, Altavista y finalmente, en 1999, nace Google) como en el número de usuarios de los sistemas de recuperación de información (su volumen crece de forma exponencial). WAIS se conviertenen el estándar de los sistemas de búsqueda en bases de datos en la web, surgen los primeros índices y motores de búsqueda de recursos en los servidores web y el protocolo Z39.50 se consolida como la base para el desarrollo de las OPAC. En esta época nace, se consolida y finalmente desaparece Hytelnet, plataforma integradora para la consulta de catálogos en línea de multitud de bibliotecas de todo el mundo. La crisis de los cuarenta se supera, fijo.

6.El deber cumplido (2000s): habiendo llegado a satisfacer (y a mejorar) gran parte de las ideas originarias de Bush, bien podría considerarse que la recuperación de información ha desarrollado con éxito su tarea y puede aspirar a un merecido descanso. Aunque esta idea pueda resultar apetecible, quizá no sea aún ese momento. Si bien se han producido avances en el proceso y la recuperación de la información textual, aún se presentan muchos problemas en la Indización Automática y no digamos ya en el campo de la recuperación de información multimedia. También está por ver si los algoritmos y sistemas desarrollados en los años 80s y 90s pueden hacer frente a las grandes colecciones de documentos que se están construyendo. Finalmente, el sector industrial está haciendo grandes esfuerzos por trasladar el escritorio de trabajo de cada usuarios desde el ordenador personal hacia la red.

7.El retiro: si bien Lesk lo fija de manera muy optimista para el año 2010, es complicado que todos tengamos tanta suerte. El mismo podría resultar válido cuando todos los países del mundo posean un similar nivel en cuanto al desarrollo de los servicios y productos de la Sociedad de la Información. Aún queda mucho para ello (Lesk, 1995).

Los sistemas de recuperación de la información han evolucionado con el fin de adaptarse a este nuevo entorno, habiéndose llegado a desarrollar algunos de los sistemas más innovadores, al mismo tiempo que extensos, por no hablar de su popularidad, si bien aún no disponemos de metodologías suficientemente consolidadas que evalúen su efectividad. Esta evolución no es un proceso finalizado, sino más bien un proceso en realización, que lleva al establecimiento de nuevos términos, tales como WIS (‘web information systems’ o “sistemas de información basados en la tecnología web) destinados a integrarse plenamente con otros sistemas convencionales, llegando a ser más extendidos y de mayor influencia tanto en negocios como en la vida familiar” (Wan, 2001).

Puntuación: 2 / Votos: 3

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *