Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Los discursos (de Navidad) del Rey

Los discursos de Navidad del Rey (se emiten de forma ininterrumpida desde 1975), ¿qué nos puede decir la lingüística acerca de ellos? ¿y desde un punto de vista estadístico? ¿aparece toda la sociedad española representada? ¿evolucionan en el tiempo?
by

Carlos Ortega

on 7 March 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Los discursos (de Navidad) del Rey

Los discursos
(de Navidad)
del Rey

Desde 1975, cada 24 de diciembre, y de forma ininterrumpida el Rey realiza un discurso dirigido a todo el país.
Cada discurso repasa los hechos más relevantes del año.
Además ofrece comentarios sobre los aspectos que debieran de centrar la acción política y social.
El que el Rey sea el único autor elimina una fuente de variabilidad.
El largo período de tiempo (38 años) permite explorar un periódo de tiempo histórico único.
Pero, ¿qué preguntas nos puede responder un análisis de los discursos?
Análisis lingüístico y estadístico.
Introducción
¿Preguntas?
¿Son difíciles o fáciles de entender los discursos?
¿Muestran realmente los elementos históricos relevantes (analizados en perspectiva)?
¿Se mencionan a los colectivos más representativos de la sociedad?
¿Qué recomendaríamos para el siguiente discurso?.
¿Preguntas?
Blog de Samuel Arbesman (Social Dimension - Wired). Junio 2013.
"Reading Levels of the State of the Union Addresses".
¿De dónde sale todo esto?
http://www.wired.com/wiredscience/2013/06/reading-levels-of-the-state-of-the-union-addresses/
Incluí esta referencia en un grupo de LinkedIn (Big Data Visualization) .
Y dieron una observación sobre un paquete de R que permitía calcular el nivel de "legibilidad" de un texto:
koRpus.

Interesante.... ¿y?....
¿De dónde sale todo esto?
http://www.linkedin.com/groupAnswers?viewQuestionAndAnswers=&discussionID=248225586&gid=4737538&commentID=143684062&trk=view_disc&fromEmail=&ut=3SiMflKV9H1BY1
¿Qué tipo de discursos podría analizar con R (y koRpus) que tuvieran este largo recorrido en el tiempo...?
....
.......... ZZZZZZZZZZZZZ .......
...
¡Claro los discursos de Navidad del Rey!..
¿Estarán disponibles...?
No los encuentro....
Momento ¡Aha!
http://ripley.psycho.hhu.de/koRpus/
El 13 de junio pido a la Casa Real por los discursos en formato electrónico.
.....
El 18 de junio dan todos los detalles.
La Casa Real responde
http://ripley.psycho.hhu.de/koRpus/
Suponiendo que se pueda scrapear todos los discursos de forma automática, ¿qué podré hacer con koRpus?
Fundamentalmente se podrá calcular el índice de "legibilidad" de cada discurso.
¿Qué es un índice de legibilidad?:
un valor que pondera el número de frases, palabras y sílabas presentes en un texto.
koRpus!
http://ripley.psycho.hhu.de/koRpus/
Pero resulta que koRpus necesita un programa auxiliar ("treeTagger") para el cálculo de toda la contablidad lingüística....
Imposible hacerlo funcionar ni en Windows, ni en Mac.
Escribí al autor y nada...

¡###!*@#!%!
koRpus???
http://ripley.psycho.hhu.de/koRpus/
El índice de "perspicuidad" a aplicar es el de "Flesch" (una variante "Flesch-Kincaid").
Para "spanish" la adaptación del algoritmo es de "Fernández-Huerta".

¿Fernández-Huerta?...
Universidad Alicante.
Herramientas de legibilidad.
INFLESZ
Una esperanza
http://accesibilidadweb.dlsi.ua.es/?menu=hr-legibilidad
http://www.legibilidad.com/home/index.html
Una herramienta Windows en el que se puede copy&paste un texto y proporciona un índice de perspicuidad.
Fórmula de perspicuidad de Szigriszt-Pazos (1993).
Tesis doctoral que adapta la fórmula de Flesch.
INFLESZ
http://eprints.ucm.es/tesis/19911996/S/3/S3019601.pdf
Aunque no era posible la automatización, se calculó el índice para todos los discursos.
Previamente se habían scrapeado de forma automática:


Cada discurso en un fichero...
INFLESZ + R
¡Perspicuidad!
Son poco claros (perspicuos)...¡??!
¿Qué pasó en 1979? ¿Por qué fue el discurso más largo?
¿Y el de 2012 uno de los más cortos?
¡Más!...¡más!...
Teniendo los datos procesados (los ficheros) , limpios, puro ASCII...el aplicar algo de "text mining" es quasi-inmediato...
De forma inmediata:
tm
wordcloud
topicmodels
y veremos qué más....
¡Pero si ya lo hemos hecho con ENRON!....
Los aciertos y errores de todo lo que van a ver son tan solo de estos dos:
Disclaimer
Culturonomics?
Mapas de palabras
Comenzamos con los "wordclouds".
Aparece el problema de las "stopwords".
El paquete "tm" incluye las básicas: preposiciones (no todas), conjunciones.
Hemos crecido ese conjunto con otras adicionales: campo semántico "España".
Los resultados del lematizador "snowball" (algoritmo de Porter, 1980) no han sido satisfactorios.
Mapas de palabras - Ejemplos
1976
1983
2012
Mapas de palabras - Años
Mapas de palabras - Agrupados
Top-3 por Año
Una palabra, dos, tres, cuatro...
Hasta ahora hemos considerado cada palabra de forma individual (1-gram)
¿Pero y si consideramos parejas de palabras consecutivas (2-grams)?
¿Y 3-grams?
¿y 4-grams...?
2-grams... (top-20)
3-grams... (top-20)
4-grams... (top-20)
Análisis temporal
Análisis de frecuencias
¿Cuándo y cuántas veces aparecen?
Hemos analizado las palabras que aparecen con mayor frecuencia por año.
Una palabra (una idea) puede aparecer un año y no en los siguientes.
Hemos visto palabras con especial significado histórico que han aparecido en los '70 (patria) y que luego desaparecen.
¿desaparecen?
¿Cuál es la evolución de otras palabras especiales?
Palabras sensibles...
Carlos Ortega
cof@qualityexcellence.es
Pedro Concejero
pedroc@tid.es
Conclusiones
Se han analizado desde el punto de vista lingüístico y estadístico los 38 discursos de Navidad del Rey.
El análisis lingüístico se ha centrado en la legibilidad de los discursos.
El análisis estadístico se ha basado en:
a) el análisis de frecuencia de las palabras (wordclouds)
b) el análisis temporal (serie temporal de determinadas palabras)
¡Gracias!
Carlos Ortega
cof@qualityexcellence.es
Pedro Concejero
pedroc@tid.es
Principales Resultados
Desde el punto de vista de la legibilidad (índice Szigriszt-Pazos) los discursos son "Algo Difícil" de entender.
El análisis de frecuencias muestra tendencias de largo recorrido.
El análisis de la evolución temporal de ciertas palabras con especial sensibilidad:
muestran tendencias más a corto plazo.
se adaptan a las principales preocupaciones del momento (año).
1995
"A field of investigation which links cultural trends to a quantitative analysis of word use over a particular period of time"
"Es mejor ser rey de tu silencio que esclavo de tus palabras."
William Shakespeare


¿Te animas?
¿Y si en vez de realizar un análisis estático de la frecuencia de aparición de una palabra en cada discuso se pudiera lanzar una consulta (de una o más palabras) y se representara su evolución?
¿Shiny?
¿Web?

¿Te animas?....
Full transcript