Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Introducción a OpenRefine

No description
by

Fernando Saldívar Pérez

on 18 September 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Introducción a OpenRefine

Introducción a OpenRefine
Trabajando sobre la aplicación
Al iniciar OpenRefine, inicia un servidor web y se inicia un navegador para abrir la interfaz de usuario web impulsado por el servidor web con la dirección http://127.0.0.1:3333/ que será desde donde se trabajará.

PRÓXIMAS FUNCIONES A REVISAR

Reconciliación
¿Qué es OpenRefine?

Es una aplicación de código abierto para trabajar con datos desorganizados (messy data), limpiándolos y transformándolos de un formato a otro y con la posibilidad de extenderlo a otros servicios web como GoogleMaps basado en hojas de cálculo.
(antes GoogleRefine)

Para obtener el programa se debe acceder a la dirección http://openrefine.org/ y descargar la versión ya sea para Windows / Mac/ Linux; la última versión es Google Refine 2.5


La aplicación es "para escritorio"; por lo que se habrá de descomprimir la app en el sistema operativo de preferencia y ejecutar el archivo.
Tutorial parte 1
CARGAR ARCHIVO Y
CREAR PROYECTO
Características
Una vez ejecutado, se elige el archivo sobre el proyecto en el que trabajaremos, la herramienta admite:
.TSV
. CSV
.SV
Excel (.xls and .xlsx)
.JSON
.XML
.RDF como .XML
documentos de Google Data
EJEMPLO
1. Identificar columnas.
2. El tipo de codificación de los caracteres (se recomienda para español UTF-8).
3. "Parsear" la siguiente primera línea, puesto que se tratan de los encabezados de las columnas.
4. Asignar el nombre del proyecto y “Create Project”.

OpenRefine se compone, como cualquier hoja de cálculo de
ROWS = FILAS
COLUMNS = COLUMNAS
Filtra la información en su faceta numérica, de texto, línea de tiempo o como diagrama de dispersión, además de hallar errores o espacios en blancos. Una vez aplicada la función aparecerá un filtro a la izquierda del área de trabajo con la opción elegida

Esta opción es útil para encontrar inconsistencias en la información y además de que permite editar de manera masiva toda la columna en entradas que sean similares.
Además se puede aplicar Facet de
star /estrella o flag/ bandera
El "parsing" o el analizador sintáctico se realiza a través de filtros llamados FACETS
Además se puede elegir a través de Star y/o Flag
EDIT
Clic en "Create Project", después "Choose Files"; seleccione el archivo desde su computadora (CatalgoFF.xls) y después haga clic en "Next"
Los datos estarán listos por lo que ahora damos en "Create Project"
Limpiando los nombres de los Formas Farmacéuticas
Los datos contienen variantes de una misma forma farmaceútica. Para repararlo se usa
Edit cells -> Cluster and edit
en la columna de Formas Farmacéuticas
Una vez elegida la opción aparecerán todos aquellos nombres que sean similares a través de 4 métodos algorítmicos: fingerprint / ngramfinger print / metaphone 3 / cologne-phonetic
Ahora filtraremos por palabra duplicada para eliminarlos
Del lado izquierdo aparecerán los filtros y podemos ver los datos como "True" o "False"
Filtramos por estrella

Y elegimos el filtro por estrella
y "false" en la columna de la izquierda
Y elegimos "Remove all matching rows"
Exportar datos refinados
Todos las acciones ejecutadas se guardan en un historial en el que podemos deshacer/rehacer
Es una función que liga nombres en forma de texto en los datos de los identificadores de la base de datos (conocidos también como database keys, IDs). Al conectar los datos con otras bases de datos, se extienden la información con valores más nutridos.
Recipes
Geocoding: Convertir direcciones de calles en coordinadas de latitud y longitud
Fetching URLs From Web Services: Agarrar a través de la Web mayores datos relacionados a los datos que se poseen.
StrippingHTML: Extrae y convierte lenguaje HTML
Understanding Regular Expressions

A través de sintaxis de expresiones regulares Java y expresiones GREL podemos:
REEMPLAZAR/ REPLACE
PARTIR / MATCH
REPARTIR / PARTITION
RPARTITION/ ?
CORTAR / SPLIT-
Full transcript