Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

A Coruña 2013

No description
by

Gael Vaamonde

on 17 July 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of A Coruña 2013

Requisitos:
Particulares
Escritas entre los siglos XVI a XIX (hasta aprox. 1830)
Utilizadas como prueba instrumental en procesos judiciales
5. Resultados
Rationale
Escolha das ferramentas mais adequadas à anotação de cada uma das duas línguas.
Vantagens
corpora do P.S. português e do P.S. espanhol podem assim integrar outros corpora históricos que estão a ser construídos por outros investigadores;
Anotação POS do FreeLing pode converter-se na do E-Dictor, que tem categorias mais amplas
As buscas sistemáticas nos dois corpora já anotados permitem extrair listas de frases que ilustrem fenómenos particulares (exemplo: todas as frases contendo orações relativas). Estas listas de frases são úteis para um público menos especializado, pois podem ser exportadas em formato TXT, sem qualquer anotação .
Post Scriptum:
Archivo Digital de Escritura Cotidiana
en Portugal y España en la Época Moderna

1. Búsqueda de cartas
2. Transcripción

Rita Marquilhas (IP), Ana Luísa Costa, Clara Pinto,
Fernanda Pratas, Gael Vaamonde

Centro de Linguística da Universidade de Lisboa (CLUL)

I Congreso Internacional de la HDH: Humanidades Digitales Hispánicas. Sociedad Internacional.
A Coruña (España), 9-12 de julio de 2013


P. S. (Post Scriptum). 2012-2017

Foco de interés:
Cartas particulares escritas en Portugal y España durante la Época Moderna
Objetivo:
Búsqueda, edición y estudio histórico-lingüístico de 7.000 cartas
Grupo de trabajo
Portugal y España
Historiadores y lingüistas

P. S. como proyecto
interdisciplinar
P. S.
colección de cartas
Lingüística
Historia
Historia Moderna
Historia Cultural
Lingüística
de corpus
Lingüística
diacrónica
Crítica
textual
Archivos: (búsqueda en curso)
Cartas españolas
Cartas portuguesas
Archivo Histórico Nacional
Archivo Histórico del Reino de Galicia
Archivo General de Simancas
Otros archivos históricos provinciales
Asturias, Cuenca, Guadalajara, Ourense, Pontevedra, Toledo
Próximos: Sevilla, Granada, Zaragoza, Murcia, Canarias, Navarra, ...
Arquivo Nacional da Torre do Tombo
Próximos: tribunales eclesiásticos archidiocesanos (Braga, Évora, Lisboa); tribunal de Relação do Porto
3. Normalización
5. Edición digital online

PORTUGUÉS Y ESPAÑOL
Visualización del facsímile del manuscrito
Alineación de edición conservadora y normalizada
Datación de los manuscritos
Participantes (autores y destinatarios)
Palabras-clave (áreas de linguística y de historia)
Contexto situacional
INGLÉS
Traducción de la versión normalizada
Resumen del contexto situacional

Acesso libre a todos los ficheros XML, a la hoja de estilo, a la DTD, a los corpus anotados y a las extracciones obtenidas a partir de esos corpus
Edición digital (XML)
Edición filológica digital (TEI)
Edición filológica digital de cartas (DALF)
Estandarización
Extratexto
Texto
Se divide el texto en (hasta) cinco partes
Se marcan los accidentes de escritura y las características del soportes manuscrito.
Se marcan las conjeturas del editor y las dudas de transcripción.
Se normalizan las grafías i/j, u/v y la frontera de palabra (excepto en los enclíticos portugueses).
Se aporta diversa información extratextual
Datos biográficos de los participantes
Datos contextuales de la carta
Datos materiales del manuscrito: descripción, medidas, grafismo, ...
Manual
Semiautomática (en curso)
Ventajas
Mismo lenguaje de los ficheros de entrada (XML)
Alineación forma a forma de los tokens originales y de los normalizados
Exportación para los formatos XML, HTML o TXT
Creación de tablas con los contenidos de todas las intervenciones realizadas

Ensaio em curso de modernização semi-automática por adaptação ao português e ao espanhol da ferramenta VARD (VARiant Detector), apoiada nos resultados estatísticos da ferramenta DICER (Discovery and Investigation of Character Edit Rules)
1 VARD (inicialmente criado para
POS
anotación morfosintática con "parts-of-speech"
Portugués
: anotación con el programa E-Dictor, siguiendo el manual de anotación del proyecto Tycho Brahe.
Español
: anotación con el programa Freeling

Sintática
anotación sintáctica al nivel de la frase:
Portugués
: utilización del parser de Dan Bikel y anotación usando el programa CorpusDraw, siguiendo el manual del proyecto Tycho Brahe.
Español
: anotación con el programa Freeling
4. Niveles de anotación
6. Relación dinámica entre niveles
Conservación de la alineación de tokens en el tratamiento de contracciones:
Orig: abido, la Vana, deste
Trans: a bido, l aVana, d este
Norm: ha habido, l' Habana, d' este
Transcripción Normalización
Anotación Normalización
Adecuación de la puntuación del texto normalizado a las exigencias de la anotación sintáctica (tendencia al uso de frases más cortas).
La anotación morfosintáctica permite detectar errores en el proceso de transcripción y normalización (p.e. desambiguación del sentido de una palabra al atribuir una etiqueta POS)
La anotación POS y sintáctica no está condicionada por la existencia de lagunas en el texto original.
Anotación semiautomática Transcripción
Desarrollo de todas las abreviaturas, a través de la etiqueta <EXPAN> resolviendo abreviaturas ambiguas y el reconocimiento de topónimos y antropónimos (que eran problemas para VARD).

Articulación con informaciones históricas
Contexto Edición / Constitución del corpus
Creación de un subcorpus de cartas no particulares (que pueden tener interés lingüístico, pero cuyo contexto de producción oblga a su exclusión del corpus principal).
Criterios de Edición
Bibliografía
La solución respeta la tradición filológica de lectura integral y de edición del desarrollo de abreviaturas entre paréntesis.

c(art)a
DALF, Guidelines for the description and encoding of Modern correspondence material (http://ctb.kantl.be/project/dalf/).
Daybell, J.(2012).The material letter in Early Modern England. Manuscript letters and the cultura and practices of letter writing, 1512-1635.Hampshire: Palgrave Macmillan.
Dossena, M. &Camiciotti, G. (2012).Letter writing in late modern Europe. Amsterdam: John Benjamins.
FreeLing(http://nlp.lsi.upc.edu/freeling/).
Galves, C.&Britto, H. (2002). The Tycho Brahe Corpus of Historical Portuguese.Department of Linguistics, University of Campinas.Online publication, first edition (http://www.tycho.iel.unicamp.br/~tycho/).
Hendrickx, I.&Marquilhas, R.(2011) From old texts to modern spellings: an experiment in automatic normalisation, Journal for Language Technology and Computational Linguistics 26, n.º 2, 65-76.
Kroch, A.Santorini, B. &Diertani, A. (2010).The Penn-Helsinki Parsed Corpus of Modern British English (PPCMBE).Department of Linguistics, University of Pennsylvania.CD-ROM, first edition (http://www.ling.upenn.edu/hist-corpora/).
Lopes, et al. Corpus Compartilhado Diacrônico: cartas pessoais
brasileiras (http://www.letras.ufrj.br/laborhistorico/).
Padró, L. &Stanilovsky, E. (2012).FreeLing 3.0: Towards Wider Multilinguality, Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA. Istanbul, Turkey. May, 2012.
TEI, Text Encoding Initiative (http://www.tei-c.org/index.xml).

PS-FLY-CARDS
http://alfclul.clul.ul.pt/cards-fly/index.php?page=mainen
Publicación de un conjunto de recursos que se revelará útil para varios tipos de público:
público no especializado, pero interesado en episodios históricos de las cartas
profesores de enseñanza secundaria interesados en el tratamiento gramatical que dimos al corpus
historiadores interesados en el tipo de fuentes que encontramos;
lingüistas ....
Aplicación
Facsímile
Resultado del Parser de Dan Bickel
Correcciones en Corpus Draw
http://ps.clul.ul.pt/
Sitio en construcción
Sitio provisorio
http://alfclul.clul.ul.pt/cards-fly/
...cujo trabalho beneficie de buscas sistemáticas em corpora históricos, quasi-espontâneos, anotados e não fragmentários do ponto de vista textual
Full transcript