Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

No description
by

MELISSA REYES

on 3 November 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of PREPROCESAMIENTO DE DATOS ESTRUCTURADOS

Preprocesamiento
de datos estructurados

Claudia L. Hernández G.
Jorge E. Rodríguez R.

Melissa Gutierrez Reyes
El propósito del preprocesamiento de datos es principalmente corregir las inconsistencias
de los datos que serán la base de análisis en procesos
de minería de datos.
Datos con ruido
Datos irrelevantes
Datos numéricos y simbólicos
Atributos faltantes
Poca cantidad de datos
Múltiples fuentes de datos
Datos desde múltiples niveles de granularidad
Valores de atributos faltantes
Extracción de atributos
Volúmenes de datos demasiado grandes
Problemas con los datos
PROBLEMA
La gran cantidad de datos que actualmente
manejan las organizaciones ha generado
la necesidad de tener sistemas en los cuales
confl uya toda la información que es recopilada
en fuentes de datos estructuradas como
las bases de datos transaccionales.
Datos incompletos
Ruido
Inconsistencias
Tareas de preprocesamiento
Limpieza de datos
Integración de datos
Transformación de datos
Reducción de datos
Técnicas para
preprocesamiento
Las tareas de limpieza de datos involucran
llenado de los datos faltantes, suavizar los
errores de los datos, corregir los datos inconsistentes
y resolver la redundancia causada
por la integración de los datos.
MÉTODO BINNING
Integración de datos
Limpieza de datos
La redundancia de datos puede ser detectada
por el análisis correlacional.
Por ejemplo,
dados dos atributos, la correlación entre
los atributos puede ser medida por:
Algoritmo K-Medias
Normalización Min-Max
Normalización z-core
Normalización de escala decimal
Agregación de cubos de datos

Reducción de dimensión
También es utilizada la técnica de selección de
atributos relevantes basada en Bootstraping.
Compresión de datos

Reducción de numerosidad

Discretización y generación del concepto de jerarquía
Reducción de datos
Transformación de datos
OLAP
y
minería de datos
Preprocesamiento OLAP
Solucionar problemas de datos para prevenir la obtención de resultados erróneos en el análisis de datos.
Entender la naturaleza de los datos y realizar un análisis de datos más significativo
Extraer el conocimiento más significativo de un conjunto de datos.
Algoritmo
de discretización
CICLO PRINCIPAL
1. Crear lista ordenada de los valores de los atributos
2. Para cada valor:
a. Calcular las frecuencias de ocurrencia de los objetos con respecto a cada clase.
b. Asignar el nombre de la clase a todos los valores usando el procedimiento ASIGNAR.
Fin
3. Crear los intervalos a partir de los valores usando el procedimiento INTERVALO
ASIGNAR
Si para todos los valores dados de los objetos estos pertenecen a la misma clase entonces asignar el
valor de la clase
Si no, si para los valores dados de la distribución de objetos existe mucha diferencia con los miembros
de la clase entonces el valor asignado es el de la clase más frecuente.
Si no asignar el valor “desconocido”.
INTERVALO
a. Si una secuencia de valores pertenece a la misma clase entonces crear el intervalo
INTi = [Limiteinferiori, Limitesuperiori] a partir de estos valores
b. Si el intervalo INTi pertenece a la clase “desconocido” entonces
Si los intervalos vecinos INTi-1, INTi+1 pertenece a la misma clase entonces crear el intervalo INTi-1 U
INT U INTi+1
Si no, crear el intervalo INTi-1 U INT o INT U INTi+1 de acuerdo con los criterios dados.
c. Crear cubrimiento continuo de los atributos asignando Limiteinferiori = (Limiteinferiori+
Limitesuperiori-1)/2 y Limitesuperiori = Limiteinferiori
Algoritmo
de agrupamiento
CICLO PRINCIPAL
1. Para cada valor:
a. Calcular las frecuencias de ocurrencia de los objetos con respecto a cada clase.
b. Asignar el nombre de la clase a todos los valores usando el procedimiento ASIGNAR.
Fin.
2. Crea los grupos a partir de los valores usando el procedimiento AGRUPAR
ASIGNAR
Si para todos los valores dados de los objetos pertenecen a la misma clase entonces asignar el valor
de la clase.
Si no, si para los valores dados de la distribución de objetos existe mucha diferencia con los
miembros de la clase entonces el valor asignado es el de la clase más frecuente.
Si no asignar el valor “desconocido”.
AGRUPAR
Crear grupos para valores con el mismo nombre de la clase.
El preprocesamiento de datos es una etapa
en la cual los cambios hechos a un
conjunto de datos pueden brindar una
pronta solución a un problema de descubrimiento
de conocimiento.
Conclusiones
GRACIAS....
Full transcript