Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

INSTRUMENTOS DE RECUPERACION DE INFORMACION

No description
by

CARLOS TIJARO

on 28 August 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of INSTRUMENTOS DE RECUPERACION DE INFORMACION

DISEÑAR ESTRATEGIAS DE RECUPERACIÓN
INSTRUMENTOS DE RECUPERACIÓN DE INFORMACIÓN
Técnicas de recuperación de información aplicadas a la construcción de tesauros
El artículo propone la aplicación de un conjunto de técnicas propias del ámbito de la Recuperación de Información a la elaboración
de Tesauros. Las propuestas que se presentan se aplicaron en la selección de la terminología, en la categorización de términos
mediante clusters, y en el establecimiento de relaciones semánticas entre los términos, por procedimientos de similitud, que
dieron como resultado un Tesauro de Comercio Exterior, de 7.790 términos.
TESAUROS COMO HERRAMIENTA FUNDAMENTAL EN LA DESCRIPCION Y RECUPERACION DE DOCUMENTOS ELECTRONICOS
BÚSQUEDA Y RECUPERACIÓN DE INFORMACIÓN
Es el paso a la determinación de las necesidades de información. Se puede recuperar a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas... Conocer y manejar estas herramientas contribuye a una recuperación de calidad.
Dirección: Maria Pinto Molina
El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se almacena la información estructurada, mediante un lenguaje de interrogación adecuado.
Uno de los problemas que surgen en la búsqueda de información es si lo que recuperamos es mucho o poco.
A este fenómeno se denomina Silencio o Ruido documental.
Silencio documental:

Son aquellos documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la estrategia de búsqueda ha sido demasiado específica.
Ruido documental:
Son aquellos documentos recuperados por el sistema pero que no son relevantes.

Concepto de sistema de recuperación de información:
Proceso donde se accede a una información previamente almacenada, mediante herramientas informáticas que permiten establecer ecuaciones de búsqueda específicas. Dicha información ha debido de ser estructura previamente a su almacenamiento.
Componentes esenciales

Documentos estructurados. Es necesario establecer un proceso donde se establezcan herramientas de indización y control terminológico.
Bases de datos donde estén almacenados los documentos. Definir lenguajes de interrogación y operadores que soportará la base de datos y, establecer que tipo de ecuaciones serán permitidas.
Herramientas
Bases de datos
Internet


Revistas electrónicas
Buscadores:
son herramientas que permiten localizar y recuperar la información almacenada en internet.
Directorios:
son listas organizadas que nos permite acceder a la información de forma estructurada y jerárquica.
Metabuscadores:
son buscadores, con la cualidad de que no sólo buscan en una única base de datos, sino que al introducir los conceptos de búsqueda hace el barrido en distintas bases de datos, de esta forma la amplitud de resultados es mayor.

Lenguajes de indización y control terminológico

Índices:
Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:

Índice de materias:
términos ordenados según las materias que trata la base de datos, el buscador, etc.
Índice alfabético: listado de términos alfabéticamente
Índice KWIC:
Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.
Índice KWOC:
Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

Es un listado terminológico controlado sobre un área o
ámbito de conocimiento que mantiene entre sí relaciones
semánticas y genéricas.
Su principal característica es que los términos están ordenados
jerárquicamente, permitiendo la precisión terminológica en
la búsqueda de información
Componentes:

Descriptores admitidos o preferentes:
son aquellos
términos normalizados (donde han sufrido un proceso de expurgo
denegando plurales, evitando sinónimos, etc.) que el tesauro los
considera aptos para asignarlos a un documento y que
posteriormente facilite la recuperación
Descriptores no admitidos:
son aquellos que aun estando normalizados
no se consideran adecuado para utilizarlos (suelen ser sinónimos,
términos no utilizados en el campo de actuación, etc.)
Relaciones:
Jerárquicas: indican cuando un término es más específico que otro
Asociativas: Indican que los términos guardan alguna relación
Sinónimos: Indican que dos términos son sinónimos y cual de
ellos se utiliza como admitido
TESAUROS
Es una herramienta terminológica compuesta por un conjunto de términos relacionados entre si sobre un tema.
Se utilizan en bases de datos o sistemas de información automatizados para controlar el vocabulario y sugerir nuevos términos tanto en la indización de documentos como en la recuperación de la información.
EL LENGUAJE NATURAL Y EL FENOMENO DE LA SINONIMIA
Es aquel que se utiliza cotidianamente en la comunicación tanto oral como escrita.
Muchos conceptos pueden ser expresados por mas de un termino y este fenomeno se le llama sinonimia o equivalencia lingüistica.(lenguaje natural Repleto de sinonimos) .
Al hablar se utilizan las palabras que surgen de forma natural d ela mente y al escribir esta funcion de realiza de forma mas meditada, se evita ser repetitivo con las palabras. en ambos casos se utilizan continuamente terminos del mimo idioma con origenes lingüisticos para dar una idea del lenguaje del problema.
Ej.
Sinonima semantica, es aquella que se da entre terminos del mismo idioma con origenes lingüisticos historicos diferentes.
Nevera/Frigorífico, Tren/Ferrocarril
Variantes ortográficas
Quiosco/Kiosco, Derbi/Derby
Traduccionpalabras extrangeras
Sof ware/Programa de ordenador

USO TRADICIONAL DE LOS LENGUAJES CONTROLADOS
En una base de datos el Tesauro se ha venido utilizando para controlar el vocabulario en los campos de indizacion, estos son aquellos donde se encuentra el conjunto de terminos descriptivos del contenido tematico de un documento.
Un tesauro ante dos o mas terminos de igual significacion elige uno de ellos como representativo del concepto en cuestion, remitiendo el resto al termino elegido, con el objetivo de que indizador y usuario coincidan y utilizen siempre un unicotermino referido a un concepto.
USO AVANZADO DE LOS LENGUAJES CONTROLADOS
La generalizacion del uso de internet hace que cada vez mas haya usuarios que realizan directamente sus busquedas en base de datos y sistemas de informacion, pero, en la mayoria de los casos desconocen el funcionamineto de una base de datos deond ese controla el vocabulario.
A continuacion de resaltan algunas situaciones donde se pueden producir en una base de datos donde se indizan los documentos con lenguaje controlado con resumen del contenido de los mismos.
SITUACION A:
Uso del formula simple d euna ventana
y el lanzamiento de la consulta del registro a todos los campos de contenido.
Utilización de un término preferente,
- Recuperación d elos registros donde aparece dicho terminoen los campos de indización y/o el título/resumen.
Utilizacion de un termino no referente o sinonimo.
- Recuperación de los registros donde aparece un título/resumen
SITUACIÓN B:
Uso de los campos de indización
del formulario d ebusqueda avanzada,
- Utilización de un termino referente
-Recuperacion de los registros dond eaparece como termino de indización
-Perdida de los registros donde el término no aparece en los campos de indización, pero si en título/resumen.
- Perdida de los registros donde el termino no aparece ni en los campos de indizacion ni ele titulo/resumen, pero si aparece n) su (s) sinónimo(s) en el titulo/resumen.
EL TESAURO COMO RECURSO DE ENRIQUECIMIENTO TERMINOLOGICO
Un tesauro funciona como fuente terminologica para indizadores y ususarios de dond epueden estraer terminos complementariospara realizar el análisis del contenido de los documentos, en el caso de los primeros y para formular sus consultas en el caso d elos segundos.
En los tesauros cada termino aparece acompañado de otros terminos proximos a él con los que guarda algun tipo de relación semantica.
Se definen las relaciones jerarquica y asociativa y se describen sus principales tipos:
Realciones jerárquicas y asociativas:
La relación de jerarquía (geneíco/especifico) expresa la subordinación entre dos términos en sunción de su significación. Se da una relación jerarquíca cuando un termino (generico) engloba conceptualmente a otro (especifico).
Existen dos tipos básicos de relación jerarquíca:
1. Generica, que es aquella que se da entre una clase o categoría y sus mienbros o especies.
Frutas/ Naranjas
Desastres Naturales/Terremotos
Clases sociales/Burguesía
2. Partitiva, que es aquella que se da entre el todo y sus partes. El todo puede ser un objeto/ente o una organización social, politica administrativa, etc.
Viviendas/Dormitorios
Fuerzas armadas/Ejercito del aire
Extremadura/Cáceres
METODO
Se combinaron procedimientos automáticos con
las fases de trabajo habituales en la construcción de
Tesauros, así, se realizó el proceso de selección del léxico,
establecimiento de campos temáticos, asignación de
descriptores a campos temáticos y establecimiento de
relaciones en orden secuencial, ya que el trabajo
automatizado debía realizarse con anterioridad a la
supervisión de los expertos, y las diferentes técnicas
utilizadas crecían sobre los resultados de técnicas
utilizadas durante la fase inmediatamente anterior.
ALGORITMOS NO GERÁRQUICOS
Es un algoritmo no supervisado, aunque se pueden mejorar sus resultados aportando cierto grado de información en forma de semillas, o núcleos previosq ue sirven como base para el desarrollo de las siguientes fases. Las semillas pueden ser elegidas de forma aleatoria y en el número deseado; y cada una de ellas pasa a formar
un cluster en una primera instancia, cuyo centroide (el
vector cuyos valores suponen la media del conjunto de
los miembros del cluster) es exactamente el vector que
representa la semilla.
ASIGNACIÓN DE DESCRIPTORES A CAMPOS TEMÁTICOS
Para realizar la asignación de descriptores a
campos temáticos se aplicaron técnicas de clasificación
automática, que permiten utilizar la información previa
sobre la terminología en forma de datos de
entrenamiento, para proceder a la asignación automática
de los descriptores a los campos temáticos. Se eligió una
técnica basada en el algoritmo de k-vecinos Yang (1994).
Para realizar la clasificación de los términos de la colección
era preciso contar, en primer lugar, con las categorías en
las que iban a introducirse los descriptores, las cuales eran,
evidentemente, los campos temáticos, así como
ejemplos representativos de dichos campos.
ESTABLECIMIENTO DE RELACIONES SEMÁNTICAS
Se adoptó un enfoque en el que el
sistema hallaba la similitud entre un término y el resto
de los términos de la colección y presentaba los 10
descriptores más similares al investigador.
Al proceder a la aplicación de la fórmula se
localizaron relaciones entremezcladas: preferenciales,
jerárquicas y asociativas, ya que no es posible, a priori,
discriminar el tipo de relación resultante mediante este
sistema. Lo que sí se consiguió con éxito fue integrar la
información que proporcionaba el sistema en la
aplicación de gestión de Tesauros TemaTres (Ferreyra,
2009), que se menciona más adelante, de forma que cada
descriptor presentaba un conjunto de sugerencias para
establecer relaciones de la siguiente forma:
productos químicos*0.24059024818974784
fosfato*0.21161536786283966
sector del calzado*0.1200831737733705
RESULTADOS
Como resultado del trabajo, se consiguió
una solución específica para la gestión y actualización del Tesauro y su adaptación a las necesidades de
compatibilidad con el software diseñado para la
aplicación de técnicas automáticas. La selección
automatizada de terminología, 1) ofreció una idea
bastante aproximada del tipo de terminología utilizada
en el ámbito, sin necesidad de leer abundante
documentación acerca del área en cuestión, y sirviendo
de orientación para las fases de recopilación de
terminología posteriores; 2) permitió la selección de una
buena parte del léxico de forma casi automática, lo que
constituyó un considerable ahorro de tiempo. Por otra
parte, la consiguiente alta tasa de adaptación a las
necesidades reales de terminología para el centro
repercutió en una mejor calidad del Tesauro.
Full transcript