Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Minería de Datos

No description

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Minería de Datos

UNIVERSIDAD NACIONAL DE LOJA
Área de la energía, las Industrias y los Recursos Naturales no Renovables
Carrera de Ingeniería en Sistemas
AUTORA
María José Rodríguez Ojeda

DIRECTOR DE TESIS
Ing. Edwin René Quinche Guamán

Proyecto de Titulación previo a la obtención del título de Ingeniero en Sistemas
LOJA - ECUADOR

Introducción
Objetivo General:
Tema
"Determinación de Perfiles Profesionales mediante Técnicas de Minería de Datos"
Revisión de Literatura
RESULTADOS
Objetivos
Aplicar Técnicas de Minería de Datos para determinar patrones que orienten
los perfiles profesionales en el desempeño laboral exitoso y productivo de los graduados.

Objetivo Específicos:
Investigar las características y variables más influyentes de las fuentes de
datos a utilizar.
Comparar y seleccionar la técnica de minería de datos de acuerdo al
ambiente de estudio.
Diseñar el modelo de minería de datos en base a las técnicas seleccionadas.
Interpretar y evaluar el modelo de minería de datos aplicado en un contexto
real.
CASOS DE ÉXITO
Caso de Éxito 1: Estado actual de la aplicación de la minería de datos a los sistemas de enseñanza basados en web.
Caso de Éxito 2: Sistema recomendador colaborativo usando minería de datos distribuida para la mejora continua de cursos e-learning.
Caso de Éxito 3: Análisis del rendimiento académico en los estudios de informática de la Universidad Politécnica de Valencia aplicando técnicas de minería de datos.
Caso de Éxito 4: Predicción del fracaso escolar mediante técnicas de minería de datos.

HERRAMIENTAS DE MINERÍA DE DATOS
TÉCNICAS DE MINERÍA DE DATOS
Técnicas Supervisadas o predictivas
- Técnicas de Clasificación
Algoritmos Basados en Árboles de decisión: ID3 y CHAID
- Técnicas Basadas en Reglas de Inducción
Algoritmos: JRip, Part, Ridor, Decisión Table, DTNB y NNge.
Técnicas no supervisadas o descriptivas
- Agrupamiento (Clustering), K-Means, Reglas
de Asociación.


Recomendaciones
Conclusiones
METODOLOGÍA
CRISP-DM
FASE UNO
Comprensión del Negocio
FASE DOS
Comprensión de los datos
FASE TRES
Preparación de los Datos
FASE CUATRO
Modelamiento
FASE CINCO
Evaluación
La minería de datos hoy en día se ha convertido en una herramienta de vital importancia en el tratamiento, análisis y obtención de resultados del procesamiento de grandes cantidades de datos; para guiar la toma de decisiones tanto en las instituciones educativas como en todo tipo de organizaciones que así lo requieran.
Posterior al desarrollo del presente proyecto se puede concluir la importancia de determinar el perfil profesional de los egresados y graduados con los factores determinantes como: el récord académico que muestra el desempeño del estudiante a lo largo de la carrera y la parte cualitativa de cada individuo, ésta última se determinó mediante la aplicación de una encuesta que permitió posteriormente contrastar sus conocimientos con sus habilidades, intereses y capacidades que los hacen únicos y candidatos potenciales y competentes a diferentes Áreas y temáticas dentro del mundo laboral.
La tarea más costosa a lo largo del proyecto, tanto en tiempo como esfuerzo, fue la recolección y armado de la Base de Datos, puesto que se obtuvieron de una fuente digital así como de una física; lo que conllevó al análisis, clasificación y limpieza de la información para luego agruparlos en una sola Base de datos.
En presente trabajo de titulación desarrollado se evidenció que el perfil profesional que más predomina en los últimos egresados del año 2014 es desarrollador de software cuyos conocimientos obtenidos en las aulas universitarias serán puestos en práctica en el desarrollo de su vida profesional, ésta información es muy útil para los futuros cambios que se realicen a nivel de la malla curricular y perfil de carrera.
La metodología que se utilizó para la Minería de datos en el presente proyecto fue CRISP-DM, la misma que ayudó a organizar mediante fases, sub-fases y tareas que apoyaron a la documentación del proyecto a más de ser una guía para el desarrollo durante todo el proceso, permitiendo su culminación con éxito.
Para el proceso de minería de datos se escogió los algoritmos ID3 y CHAID que pertenecen a las técnicas de clasificación basadas en árboles de decisión y los algoritmos JRip, PART, Ridor, Decisión Table, DTNB y NNge, pertenecientes al grupo de técnicas de reglas de inducción. Ya en el desarrollo y generación de modelos, los mejores algoritmos fueron CHAID y JRip los cuáles se hicieron con el 72% de los datos y con el 28% restante se hizo la evaluación de los mismos para verificar su validez, donde CHAID resultó el más óptimo al clasificar el 96.55% de las instancias; mientras que JRip clasificó el 91,38%. Posterior a ello se realizó la aplicación de éstos algoritmos en un contexto real para validar y realizar la elección final, en donde JRip tuvo el mejor rendimiento en la predicción con el 100%; mientras que CHAID realizó la predicción del 76%, llegando a la conclusión que JRip es el modelo que se debe aplicar para la obtención de los perfiles profesionales.
De acuerdo a la experiencia adquirida en el desarrollo del presente proyecto, se recomienda actualizar, alimentar y mejorar el Sistema de Gestión Académica, puesto que se evidenció la ausencia de datos históricos de los récords académicos de los estudiantes, desde la creación de la carrera en 1999 hasta el año 2008 en el que se implementó el SGA.
Al realizar el análisis y procesamiento de la información para la minería de datos se advirtió la importancia de recomendar que las mallas curriculares se actualicen con materias en cada periodo académico, es decir, sean mejoradas de acuerdo a los avances que representa seguir una carrera que va de la mano con el progreso tecnológico.
Es importante en la fase de análisis de información, aplicar varias técnicas para la aplicación de minería de datos y en base a la comparación de resultados confirmar cuál de ellas resulta ser la más apropiada para obtener el resultado esperado.
Para la generación de los modelos de determinación de perfiles profesionales, es recomendable aplicar la técnica de reglas de inducción; puesto que se ha comprobado durante el desarrollo del presente trabajo que ésta técnica es con la que se obtiene mejores resultados en cuanto a las predicciones que se realizan en un contexto real.
Se recomienda que se integre el modelo de minería de datos obtenido para la determinación de perfiles profesionales en el Sistema de Gestión Académica para que el estudiante al culminar su carrera profesional conozca cuál es su perfil profesional, el mismo que le servirá para la toma de decisiones tanto en su vida profesional como laboral.
Se recomienda mantener el programa de seguimiento a graduados en una constante y permanente actualización, con el fin de mantener ésta información para futuros estudios y aportes en beneficio de la universidad y de los profesionales egresados de la carrera de ingeniería de sistemas.
Para la generación de modelos de forma correcta y ordenada es importante que la metodología de minería de datos sea apropiada, es por ello que se recomienda la utilización de CRISP - DM ya que se enfoca a proyectos de minería y está conformada por varias fases que permiten el desarrollo de forma ordenada del proyecto, hacia la consecución de los objetivos establecidos.
ETAPA UNO
ETAPA DOS
ETAPA TRES
ETAPA CUATRO
Interpretar y evaluar el modelo de minería de datos y su aplicación en un contexto real
Investigar sobre casos de éxito acerca de la aplicación de Minería de Datos, y específicamente respecto al ámbito educativo.

Analizar qué características sirven para determinar los perfiles profesionales de los egresados y titulados de la Carrera de Ingeniería en Sistemas.

Recoger y realizar un análisis de las fuentes de datos que se va a necesitar para realizar la minería de datos.

La minería de datos se la realiza a través de la creación de modelos y que estos a su vez se los desarrolla partiendo del reconocimiento de patrones, los mismos que pueden ser llamados características.

La determinación de los perfiles profesionales, se la realizará en base a estas características que son la representación del registro que presenta cada estudiante durante su vida universitaria.

Para la carrera de Ingeniería en Sistemas se realiza un análisis de la malla curricular base y sus distintas variaciones a través de los periodos académicos.
1. Datos del Sistema de Gestión Académica

Datos de los egresados de la carrera de ingeniería en sistemas respecto a las categorías académica, institucional y personal provenientes del Sistema de Gestión Académica de la institución creado en el 2008. Estos datos se obtuvieron a través del Web Service para su posterior explotación.

2. Datos Históricos de los records académicos

Registros de los records académicos de los estudiantes egresados de la carrera de ingeniería en sistema, que se encuentran en los Libros físicos que están en poder de la secretaría del Área de la Energía, las Industrias y los Recursos Naturales no Renovables de la institución. Estos datos se han recopilado desde el año 2003, con el fin de completar la información académica de los egresados y graduados respecto de las notas de ciertos módulos que no constan en el SGA.

3. Test de habilidades, capacidades e intereses

El test ha sido desarrollado con el uso de la herramienta django,
en base a las capacidades, habilidades e interés de 8 perfiles
planteados.

Perfiles Profesionales
En todas las instituciones de nivel superior se busca proporcionar una formación académica de excelencia, con la obtención de profesionales competentes y preparados para enfrentar los retos y aprovechar las oportunidades del mundo laboral, sin embargo la realidad es que existe un desconocimiento y falta de concienciación por parte de la mayoría egresados y profesionales.

En vista del panorama presentado y el estudio de casos de éxito, la minería de datos, surge como una alternativa de solución en base la aplicación de las técnicas adecuadas que permitan determinar el perfil profesional de cada estudiante, el cual servirá como pauta en la toma de decisiones a nivel académico y profesional.

Analista de Sistemas de Información
Arquitecto y Diseñador de Software.
Desarrollador de software
Administrador de Sistemas de Bases de Datos
Auditor Informático
Administrador de Centros de computo
Administrador de Redes computacionales.
Especialista en mantenimiento hardware y software.
Recopilación de información, evaluación y selección de las herramientas disponibles para realizar el proceso de minería de datos.

Herramientas de gestión de Bases de Datos.
Herramientas enfocadas al proceso de Minería de datos.

Hacer un análisis comparativo de las técnicas de minería de datos que se acoplen al problema de investigación planteado.

CARACTERÍSTICAS DE HERRAMIENTAS DE GESTIÓN DE BASES DE DATOS
NÚMERO DE FORMATOS EXPORTACIÓN/IMPORTACIÓN DE CADA HERRAMIENTA
NÚMERO DE SGBD QUE DA SOPORTE CADA HERRAMIENTA
SISTEMAS OPERATIVOS COMPATIBLES CON CADA HERRAMIENTA
CARACTERÍSTICAS DE LAS HERRAMIENTAS ENFOCADAS AL PROCESO DE MD
Existen diferentes herramientas gratuitas que dan apoyo al proceso de minería de datos. La información recopilada respecto de las herramientas ha sido respecto a su uso, sus características y a los objetivos que se pretende alcanzar.
COMPORTAMIENTO DE LAS HERRAMIENTAS CON DATOS DE PRUEBA
Otro criterio para la comparación de las herramientas ha sido base a su manipulación en la evaluación con datos de prueba. Tomando la base de datos Golf, que contiene variables como el clima, temperatura, humedad, presencia o ausencia de viento, que de acuerdo a sus valores reflejan las condiciones que debe existir para decidir salir o no a jugar el Golf. Tomando en cuenta tres de las herramientas analizadas, RapidMiner y weka que tienen la ventaja de la mayor cantidad de modos de manipular los datos, y KNIME cuya limitación es de menor importancia.

RESUMEN DE LAS TÉCNICAS DE MD APLICADAS EN LOS CASOS DE ÉXITO
Los servicios han sido agrupados en distintas categorías de acuerdo a la información que retornan y contienen métodos y parámetros de consultas ya predeterminados de acuerdo a sus funciones para la explotación de datos con mayor rapidez. Las categorías son Académica, Institucional, Personal, Validación y Estadística, de las cuales se ha utilizado 3 de ellas.
Caso de Éxito 1

Estado actual de la aplicación de la minería de datos a los sistemas de enseñanza basados en web.
Caso de Éxito 2

Sistema recomendador colaborativo usando minería de datos distribuida para la mejora continua de cursos e-learning.
Caso de Éxito 3

Análisis del rendimiento académico en los estudios de informática de la Universidad Politécnica de Valencia aplicando técnicas de minería de datos.
Caso de Éxito 4

Predicción del Fracaso Escolar mediante Técnicas de Minería de Datos
DISEÑAR EL MODELO DE MINERÍA DE DATOS EN BASE A LAS TÉCNICAS SELECCIONADAS.
PRIMERA FASE
SEGUNDA FASE
TERCERA FASE
CUARTA FASE
Determinar los objetivos del negocio, evaluar la situación actual y determinar el objetivo de la minería.
Comprensión de los Datos. Recopilación, Exploración y verificación de los Datos obtenidos.
Preparación de los Datos (Selección, limpieza e integración de los datos).
Selección de técnicas y generación de pruebas.
Tarea Uno: Comprensión del Negocio
Tarea Dos: Evaluación de la Situación
- Inventario de requerimientos de recursos
Talento Humano, Recursos Hardware, Recursos Software.
- Hipótesis y limitaciones
- Riesgos y contingencias
- Terminología (Glosario)
- Análisis de Costo/Beneficio
Costo del personal, costo de hardware, coto de software, materiales y servicios
- Cronograma del Proyecto
Antecedentes
Objetivos del Negocio
Criterios de éxito (factores)
Identificar los perfiles profesionales enfocados en la carrera de ingeniería en sistemas, a través de la formación de los estudiantes.
Identificar los factores que determinan el perfil profesional de los estudiantes.
Conocer los perfiles profesionales a los cuales se orienten un grupo de estudiantes.
Identificar los perfiles profesionales
Determinar el perfil profesional de los egresados de acuerdo a dos aspectos cuantitativo y cualitativo.
Comparar si los empleos actuales de un grupo de la población se ajustan a los perfiles profesionales obtenidos.

RIESGOS/CONTINGENCIAS DEL TRABAJO DE TITULACIÓN
Tarea Tres: Determinación de la meta de minería de datos
Tarea Cuatro: Elaboración del plan de Proyecto
Obtener los datos iniciales
Describir los datos
Explorar los datos
Verificar la calidad de los datos

Se pretende reducir la información a la únicamente necesaria para realizar la minería de datos, a su vez relacionarse directamente con la información para su mayor comprensión, realizando actividades como:
PERFILES PROFESIONALES
RESULTADOS DE LA DIFUSIÓN DEL TEST
Selección de los Datos




Limpieza de los Datos

Construcción de Datos
Integración de datos
El estudio está enfocado en los egresados y graduados de la CIS (2003-2013), de los cuales el 80% respondieron al test aplicado con el fin de encontrar nuestra variable dependiente o predictiva para determinar modelo de minería. De este nuevo 100% (208), el 72% (150) se tomará con el objeto de realizar el proceso de minería y el restante 28% (58) se tomará para realizar la validación de las reglas obtenidas del proceso.
Se elimina tablas innecesarias, registros duplicados, datos faltantes, etc.
Estructura Uno: Datos no agrupados
Estructura Dos: Datos agrupados
Esta estructura está conformada por 67 variables; 66 variables correspondientes al conjunto total de unidades que existen entre todos los datos; una gran cantidad de los registros contienen los atributos de las unidades con valores nulos debido al cambio en las mallas curriculares antes mencionado y finalmente la estructura contiene la variable dependiente perfil_profesional obtenida del test aplicado clave para el proceso de predicción dentro de la minería de datos.
La estructura_dos está formada por 28 variables; 18 variables correspondientes a los grupos generados en base de 47 unidades de las 66 totales; con la finalidad de eliminar la gran cantidad de valores nulos existentes y por su relación entre sí, 9 atributos de unidades que no han sido alteradas manteniéndose de la estructura_uno y la variable dependiente denominada perfil_profesional obtenida por cada estudiante de manera personal en base al test aplicado.
DISCRETIZACIÓN DE NOTAS DE CADA UNIDAD
VARIABLES UTILIZADAS Y FUENTE DE PROVIDENCIA DE LA ESTRUCTURA UNO Y DOS
Selección de técnicas de modelado
Algoritmos de Clasificación basados en árboles de decisión: ID3 y CHAID
Algoritmos Basados en Reglas de Inducción: JRip, PART, Ridor, Decisión Table, DTNB y NNge.
Diseño de pruebas
En las pruebas con el conjunto de entrenamiento se ha tomado un 72% de los datos mientras que el 28% restante será utilizado para la evaluación de los modelos. A su vez se realizará la evaluación de los modelos con el método de validación cruzada.
Construcción de modelos
(Algoritmo NNge mediante aplicación basada en librería weka.jar)
Evaluación General de Modelos
Comparación general de la evaluación de modelos con datos agrupados y no agrupados.
En las pruebas de
Validación Cruzada
todos los algoritmos muestran porcentajes bajos en la clasificación debido a la
poca cantidad de datos
y a la
presencia de
outliers o valores atípicos
que le restan calidad a los datos.
Continuando con el análisis
CHAID
presenta el 98% de instancias bien clasificadas seguido de
JRip
con el 94%, siendo los mejores en esta característica así como en el análisis del rendimiento, lógica de reglas y medidas de error por lo que han sido seleccionados como los mejores hasta el momento.
COMPARACIÓN DEL RENDIMIENTO DE ALGORITMOS CON DATOS NO AGRUPADOS
Evaluación de algoritmos CHAID y JRip
Aplicación de los modelos de minería de datos en un contexto real.
Perfiles Profesionales que se ajustan a los empleos desempeñados
QUINTA FASE:
EVALUACIÓN DE LOS RESULTADOS OBTENIDOS
RESULTADOS DE LA EVALUACIÓN DE LOS MODELOS GENERADOS CON CHAID Y JRip
Los datos utilizados para realizar estas pruebas corresponden al 28% restante de los recopilados inicialmente.
Seleccionando al algoritmo CHAID como el óptimo para predecir los perfiles profesionales de estudiantes de la CIS.
Determinación de los Perfiles Profesionales egresados de la CIS del año 2014.
De acuerdo a una encuesta aplicada en la herramienta online SurveyMonkey, de la población de egresados y graduados 100 respondieron la encuesta de los cuales el 50% aseguraron que están trabajando y colocaron el empleo en el que se están desempeñando actualmente, que corresponden al 24% de los egresados y graduados tomados para la determinación de los perfiles profesionales mediantes las técnicas de minería de datos.
EMPLEOS QUE SE AJUSTAN A LOS PERFILES PROFESIONALES
ESPECIFICACIÓN DE LOS EMPLEOS POR CADA PERFIL PROFESIONAL
Investigar las características y variables más influyentes de las fuentes de datos a utilizar.
Se tomó datos cualitativos obtenidos de un test aplicado a la población con el fin de obtener el perfil profesional y realizar la predicción obteniendo un modelo para aplicarlo en nuevos datos futuros. La parte cuantitativa fue obtenida de los records académicos almacenados en del SGA, la misma que fue completada manualmente con los datos históricos de los libros físicos que reposan el la secretaría del AEIRNNR.
Comparar y seleccionar la técnica de minería de datos de acuerdo al ambiente de estudio.
Se manipularon las herramientas de minería de datos evaluando su rendimiento con datos de prueba y evidenciando la que se destaca en características, llegando a determinar DatAdmin como herramienta gestora de la base de datos como apoyo en la preparación, limpieza y generación de estructuras de los datos y RapidMiner para el proceso de minería propiamente.

Las técnicas fueron seleccionadas en base al análisis de fuentes bibliográficas y la meta de minería de datos que se pretende alcanzar, determinando como las adecuadas las técnicas de clasificación en base a árboles de decisión y las técnicas basadas en reglas de inducción.
Diseñar el modelo de minería de datos en base a las técnicas seleccionadas.
Interpretar y evaluar el modelo de minería de datos aplicado en un contexto real.
DISCUSIÓN
Los algoritmos distribuidos en los dos grupos de técnicas seleccionadas ID3 y CHAID que son en base a árboles de decisión ubicados en las técnicas de clasificación y los algoritmos JRip, PART, Ridor, Decisión Table, DTNB y NNge que pertenecen a las técnicas de reglas de inducción.

Con estos algoritmos se realizaron dos pruebas, para el conjunto de entrenamiento que se tomó el 72% del total de ejemplos; y se aplicó el método denominado validación cruzada mediante cinco subconjuntos, para cada una de las, obteniendo los siguientes resultados:
Al agrupar las unidades los porcentajes de clasificación varían muy poco, el único algoritmo que logro tener un considerable aumento en pruebas de entrenamiento es el ID3, obtuvo con datos no agrupados un 28% y al agrupar aumento hasta 87% en clasificación. Por lo tanto se ha notado que realizar la agrupación en los datos no es tan esencial, debido a que no existe un cambio significativo en los resultados, por lo que es mucho mejor trabajar con los datos sin su alteración.
En las pruebas de
Validación Cruzada
todos los algoritmos muestran porcentajes bajos en la clasificación debido a la
poca cantidad de datos
y a la presencia de
outliers o valores atípicos
que le restan calidad a los datos, sin embargo esto no significó que los resultados obtenidos fueron descartados.
Después del análisis del porcentaje de clasificación, la matriz de confusión, la lógica de las reglas generadas, las medidas de error arrojadas, existe un algoritmo que muestra un rendimiento en clasificación del 100%, correspondiente a NNge, sin embargo no se tomó en cuenta este algoritmo ya que las reglas generadas por este toman en cuenta los
valores nulos
por lo tanto son difíciles de interpretar y de utilizar. Finalmente los mejores algoritmos de generación de los modelos antes de la evaluación final han resultado
CHAID
que está basado en árboles de decisión y
JRip
algoritmo de reglas de inducción.
Evaluación de los modelos generados
Tomando el 28% restante de los datos, con la finalidad de observar las coincidencias entre los perfiles profesionales, y verificar la validez de los algoritmos elegidos CHAID y JRip elegidos hasta este punto como lo más óptimos.

Donde el algoritmo de mejor rendimiento ha sido CHAID logrando clasificar el 96.55% de las instancias mientras que el algoritmo JRip clasificó el 91.38%; por ello el algoritmo
CHAID
continúa siendo el más óptimo para predecir los perfiles profesionales de estudiantes de la carrera Ingeniería en Sistemas.

Aplicación de los modelos en un contexto real
Se realizó la aplicación de los mismos en nuevos datos que corresponden a los egresados de la CIS año 2014. Donde CHAID realizó una predicción del 76% mientras que el modelo generado por el algoritmo JRip es el de mejor rendimiento con una predicción del 100%, el cual pertenece a las técnicas de reglas de inducción donde el perfil que se destaca es desarrollador de software.
Perfiles profesionales que se ajustan a los empleos.
Resultó que el 72% de los empleos no se ajustan al perfil profesional debido a que corresponden a otro de los perfiles planteados o a su vez se salen totalmente del contexto de especialidades de la carrera de ingeniería en sistemas. Mientras que el 28% se acercan al perfil determinado.
Artículo Científico
La organización del artículo científico es la siguiente: Sección I. INTRODUCCIÓN, en la Sección II. METODOLOGÍA, se explica la metodología utilizada para el desarrollo con todas sus fases. La Sección III. DESARROLLO, muestra un caso de estudio realizado con la herramienta RapidMiner y aplicación de técnicas de minería de datos, detallando el proceso en base a la metodología, hasta obtener los resultados. La Sección IV CONCLUSIONES. Finalmente se pueden encontrar las REFERENCIAS BIBLIOGRÁFICAS.

La Universidad de las Fuerzas Armadas ESPE, y el departamento de Ciencias de la Computación buscando impulsar el desarrollo integral de la ciencia y tecnología en el Ecuador invitan a participar en el próximo ejemplar de la Revista GEEKS DECC 2014. Trabajo remitidos hasta el 23 de noviembre para su posterior revisión y publicación.

Artículo enviado a la Revista online IEEE América Latina.

Determinar los objetivos del negocio
Evaluar la situación
Determinar la meta de minería
Desarrollar el plan del proyecto
Obtener los datos iniciales
Describir los datos
Exploración de los datos
Verificación de la calidad de los datos
Selección de los datos
Limpieza de los datos
Construcción de los datos
Integración de los datos
Formateo de datos
Selección de la Técnica de modelado
Generar el diseño de prueba
Construcción del modelo
Evaluación del modelo
Corresponde a la fase de análisis de los resultados, evaluación de los modelos escogidos como los mejores, aplicación en un contexto real.

Evaluación de los resultados
Revisar el Proceso
INVESTIGAR LAS CARACTERÍSTICAS Y VARIABLES MÁS INFLUYENTES DE LAS FUENTES DE DATOS A UTILIZAR.
Art. Dealing with Missing Values in Data. KAISER Jiri
Art. Preventing "Overfitting" of Cross-Validation Data.
Art. Técnicas de preprocesamiento para mejorar la calidad de los datos en un estudio de caracterización de ingresantes universitarios.
Basándose en un estudio comparativo entre las metodologías SEMMA, Catalyst o P3TQ y CRISP-DM se ha determinado que CRISP-DM es la más utilizada actualmente y al contar con más fases en comparación a las demás metodologías permite realizar el proceso de minería de datos de manera más organizada y comprensible.
Full transcript