Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

TESIS

No description
by

andres gomez

on 31 July 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of TESIS

TESIS DE GRADO
"Proceso de clasificación de Tweets empleando el método Naïve Bayes destinado a la obtención de información turística para la toma de decisiones"
Autores
Candia Hirt Esteban Leónidas,
Gómez Andrés Emilio
Universidad
Gastón Dachary
Año 2015
Objetivos
Marco Teórico
Metodología
Diseño de la Solución
Resultados
Conclusiones
Trabajos Futuros
Naïve Bayes
Medidas de Evaluación
1. Identificar las herramientas más adecuadas para luego efectuar la captura de tweets en el periodo definido.

2. Seleccionar las características relevantes de los tweets y las heurísticas necesarias para el preprocesamiento de los datos.

3. Definir la estructura de análisis de los tweets capturados para su clasificación.

4. Desarrollar una aplicación basada en Naïve Bayes con la finalidad de clasificar tweets vinculados a la actividad turística para la toma de decisiones.

5. Evaluar los resultados del clasificador y presentar la información obtenida para el dominio de aplicación.
Específicos
Proponer un proceso de clasificación de tweets que utilice el método Naïve Bayes destinado a obtener información del sector turístico para la toma de decisiones.
General
Tipo de investigación
Diseño de experimento
Datos reales
Recolección de Datos
Información primaria
Información secundaria
Tweet Archivist
Períodos de recolección
Proceso de Datos
Algoritmo Naïve Bayes - Estimación Gary Robinson
Lenguaje Java
Base de Datos PostgreSQL
Metodología CRISP-DM
Distribución por Destino Turístico
Distribución por Temporadas
Análisis de Sentimientos
Planteo del Problema
Heurísticas del preprocesamiento

Estructura de un tweet
Matriz de términos de Documentos
Disponibilidad de datos
Palabras clave de búsquedas
Generación del corpus de entrenamiento
Un tweet pertenece a un destino si:
Contiene nombre propio del destino
Indica desplazamiento
Indica posición
Indica deseo o intención
Si no cumple estas concidiones, es un tweet irrelevante
Un tweet es positivo si:
Pertenece a un destino y expresa calificación positiva sobre el mismo
Un tweet es negativo si:
Pertenece a un destino y expresa calificación negativa sobre el mismo
Si no expresa ninguna calificación se lo considera como neutral
El uso masivo de las redes sociales a nivel mundial genera una importante cantidad de datos acerca de numerosas temáticas.

1.4 billones de usuarios activos mensualmente
302 millones de usuarios activos mensualmente

Oportunidad de aprovechar estos recursos para conocer que es lo que opina la gente sobre un determinado tema.

El problema se define en extraer información de calidad sobre estos grandes volúmenes de datos.

Estimación Gary Robinson
Cobertura:
Clasificación para el destino Turistico:
Clasificación para la polaridad:
¡Gracias!
Necesidad de desarrollar módulos de preprocesamiento para limpieza de datos debido a la poca cantidad de software dedicado hasta el momento para el idioma español.

Dificultad para tratar con la ambigüedad y la ironía.

Línea de separacion estrecha entre clases.

Desarrollo de software exclusivo para interpretar textos informales y lenguajes regionales.

Capacidad de filtro de grandes volúmenes de textos.

Primer acercamiento a una herramienta útil para el sector turístico en Argentina, pudiendo identificar opiniones de experiencias de viaje, discriminando su sentimiento.
Otras alternativas para llevar a cabo el proceso de validación.

Tomar distintas muestras en nuevos periodos de tiempo para volver a evaluar el modelo.

Aplicar técnicas de PLN más avanzadas a nivel sintáctico, semántico y contextual.

Aplicar un proceso similar sobre otros dominios de interés.

Adaptar el modelo para otros idiomas.

Validación
Validación por sentimientos
El 29.95% de los tweets presentó información relevante al dominio.
El 70,05% se descarta.
Validación por destinos turísticos
Director
Ing. Aznar Darío
Codirectora
Dra. Dieckow Liliana
Minería de Textos
Descubrir información que hasta el momento se desconoce.
Información de alta calidad relevancia, novedad e interés.
Comprensión de todo el texto procesado, sin tener que ser leído por un ser humano.
Areas de la Minería de Texto
Modelo de Referencia CRISP-DM
(Cross Industry Standard Process for Data Mining)

Clasificador Naive Bayes
Unidad de estudio
Buenos Aires
Calafate
Cataratas del Iguazú
Salta
Tierra del Fuego
Naïve Bayes en textos
Análisis de Sentimientos
Averigüar lo que piensan los demás.
Tratamiento computaciónal de la opinión.
Establecer automáticamente si un texto expresa o no una opinión, y si es positiva o negativa.
Verdaderos Positivos (VP)
Verdaderos Negativos (VN)
Falsos Negativos (FN)
Falsos Positivos (FP)
Precisión:
Bondad:
Experimentos Segunda Etapa
Resultados de la 2da Etapa
Muestra inicial de 4.000 tweets.
Sentimientos positivos y negativos
Intenciones de conocer un destino.
Comentarios neutrales sobre viajes para estimar número devisitas
Información obtenida
Experimentos Primera Etapa
Resultados de la 2da Etapa
Resultados de la 1ra Etapa
Umbral de Aceptabilidad: 60%
Ambigüedad
Ironía
Regionalismos y lenguaje informal
Errores de mecanografiado
Expresiones no gramaticales
Configuración de parámetros de clasificación
Probabilidad asumida
Pesos palabras no relevantes
Pesos palabras relevantes
100.000 Tweets
1 - Eliminación de Retweets
2 - Lowercasing
3 - Etiquetado de URL
4 - Eliminación de Menciones
5 - Limpieza de acentuación
6 - Detección de emoticones
7 - Limpieza de caracteres especiales
8 - Limpieza de palabras vacías
9 - Etiquetado de entidades
10 - Lematización
11 - Limpieza de palabras raras
12 - Corrección de lenguajes casuales
Umbral de Aceptabilidad: 60%
Temporada Baja: 3.731 Tweet
Temporada Alta: 8.259 Tweet

TEMPORADA ALTA (28 DIC 2013 - 27 FEB 2014)
TEMPORADA BAJA (27 OCT 2013 - 27 DIC 2013)
Tweet: 11.990
VN
FP
VP
FN
Doc. relevantes recuperados
Documentos relevantes
Doc. recuperados
Configuracion del preprocesamiento
Cant. Tweet: 11.990
Exp 2.1
Exp 2.2
Exp 2.3
Full transcript