Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

Recursos digitales para la lexicografía gallega contemporánea

Realización de aplicaciones ad hoc que a partir de una DTD marcan los textos y los convierten en SGML.

Empresa/persona responsable: imaxin (CD-Rom), Xavier Gómez Guinovart (SLI- UVigo) integración RILG.

Realización de aplicaciones ad hoc que a partir de una DTD marcan los textos y los convierten en SGML.

Uso de software libre:

  • PHP: lenguaje de programación servidor
  • MySQL: base de datos información del corpus
  • Debian GNU/Linux : sistema operativo.
  • Apache: servidor web
  • jQuery: librería JavaScript

Empresa/persona responsable: imaxin, Xavier Gómez Guinovart (SLI-UVigo), César Osorio Peláez (USC), nlpGo (aplicación en pruebas)

Proyecto internacional (ILG)

IP Rosario Álvarez Blanco

Se inicia en 2007

Corpus léxico

+

Referenciación geográfica

De libre acceso a través de internet

  • Monografías etnolingüísticas

  • Atlas lingüísticos y archivos dialectales

  • Otros materiales con léxico dialectal

materiales inéditos

o

dispersos

Acceso a estas y otras aplicaciones en:

http://ilg.usc.gal/gl/recursos

Marta Negro Romero

Instituto da Lingua Galega - Universidade de Santiago de Compostela

marta.negro@usc.es

Selección del lema

El proceso de lematización

Siempre que sea posible, el lema debe de coincidir con la forma estándar:

azenheira, azinhèra: azinheira

Cuando no lo sea:

  • Familia de palabras: miniñeiro (meniño, lema meniñeiro).
  • Etimología: devanado (lat. DEPANARE, lema debanado).
  • Recurso al portugués y otras lenguas próximas: trobexar (port. trovejar, lema trobexar [trebón, torbón]).
  • Si no obtenemos información, mantenemos la forma tal y como la hemos registrado: investres ‘envolturas fetais’ lema investres

Necesidad de superar esa diversidad mediante la introducción de lemas.

El léxico de los glosarios posee una gran “diversidad formal”.

Variantes ortográficas

Variantes fónicas

Variantes flexivas

Lema esfollar

Lema petiscar

Lema laje

Lema casadeiro

Lema semana

Variantes morfológicas

Lema azinho

Lema azinheira

Posibles aprovechamientos

TRATAMIENTO DE LA INFORMACIÓN

  • Lexicográfico:
  • Conocer palabras no diccionarizadas: arreleixar
  • Conocer nuevos significados: oveiro
  • Elaborar corpus de unidades pluriverbales (búsquedas de unidades complejas)
  • Elaborar vocabularios temáticos (búsquedas por campo semántico)

  • Dialectológico:
  • Estudiar la distribución de variantes
  • Analizar procesos de cambio lingüístico

  • Etnográfico o histórico

Tratamiento lingüístico

Dicionario de dicionarios

Tratamiento informático

Financiación

  • Secretaría Xeral de Política Lingüística (Xunta de Galicia)
  • MEC (2006-2009) / Consellería de Innovación e Industria da Xunta de Galicia (2008-2011): plataforma RILG
  • Fundación Pedro Barrié de la Maza: CD-Rom

Coordinador Antón Santamarina (ILG)

Se inicia en al año 2000

En un futuro próximo...

  • Conexión de los lemarios gallego y portugués

Sistema flexible y escalable

Componentes desacoplados

Uso de software libre:

  • PHP: lenguaje de programación servidor
  • CodeIgniter: framework para construcción sistema web basado en el patrón Modelo Vista Controlador (MVC)
  • PostgreSQL: sistema de gestión de la base de datos del servicio web
  • Debian GNU/Linux : sistema operativo
  • Apache: servidor web
  • jQuery: librería JavaScript

Persona responsable: César Osorio Peláez (USC)

  • Establecimiento y conexión de geosinónimos de referencia

http://sli.uvigo.gal/ddd/index.html

Fringilla coelebs

TENTILHÃO

Fringilla coelebs

PIMPÍN

chapim

pardal-do-norte

patachim

pintarroxa

tentilhão, tintilhão, tinlhão

carballuda

chincheiro

chincho

chinchín

pimpín, pin pin

Manuel Leiras Pulpeiro

Tipología de las fuentes

Sarmiento 1745

Losada, Castro, Niño 1992

Francisco J. Rodríguez 1863

Tipo 1

ORELLON [transcrición] s.m. Bocio. "Orellón vai pra o cangón". Cuando sale la vaca del cangón tiene que meterse en él el enfermo de bocio y se cura.

Tipo 2

Nunha pedra de perpiaño témo-las seguintes partes: o leito, que é o que queda por baixo, e o sobreleito, que vai por riba; a cara que queda pra adiante é o paramento; a outra, máis estreita, que empata co do lado, é a xunta; a que queda pra atrás é o trasdóus.

Galicia

  • Atlas Lingüístico de la Península Ibérica (1930-1936, 1947-1954)
  • Atlas Lingüístico Galego (1974-1977)
  • Nomenclatura de la fauna y flora marítimas de Galicia (1977-1983)
  • Cuadernos para el Atlas Lingüístico de los marineros peninsulares (inicios década de 70)
  • Tesoro lexicográfico en papel (años 70-80)

Portugal

  • Atlas Lingüístico de la Península Ibérica (1930-1936, 1947-1954)
  • Atlas linguístico do litoral português (1987)
  • Atlas Linguístico-Etnográfico dos Açores (1977-1996)
  • Atlas Linguístico-Etnográfico de Portugal e da Galiza (1973-2004)
  • Inquérito Linguístico (1942)

Brasil

  • Atlas Linguístico do Brasil (2014)
  • Diez atlas regionales publicados
  • Numerosos trabajos de fin de máster y tesis

Trabajos pioneros

  • Ebeling, Krüger ou Schneider
  • Seminario de Estudos Galegos
  • Publicaciones descartadas en las bibliografías científicas

Tesoro lexicográfico: diccionarios + vocabularios

Obras de 32 autores (150.000 lemas diferentes)

Algunas inéditas o de difícil acceso

Lexicografía gallega

62 obras

55 obras

26 obras

Aplicación de consulta

Casi 197000 registros

http://ilg.usc.es/Tesouro/gl

Aplicación de consulta

1980 punto de inflexión historia lexicografía gallega. Se inaugura período "moderno".

Aprobación Constitución Española (1978)

Aprobación Estatuto de Autonomía de Galicia (1981)

Oficialización NOMIG del ILG y RAG (1982)

Promulgación Lei Normalización Lingüística (1983)

  • Fácil acceso a la información
  • Manejo sencillo
  • Permite copiar la información, pero no descargarla
  • Gran ventaja: formato texto y no imagen
  • Escasa interactividad. No es posible realizar búsquedas por años, autores, lexías complejas...

Ejemplos

Tesouro do léxico patrimonial galego e portugués

Consultas

Financiación

Axudas consolidación e estruturación de unidades de investigación do SUG, Secretaría Xeral Universidades, Consellería Educación (2007-2011) / AECID (2009) / FCT (Portugal), PTDC/CLE-LIN/102650/2008 (2010-2012) / MICINN (España), FFI2009-12110 (2010-2012)

Recursos Integrados

da Lingua Galega (RILG)

Período "clásico"

  • Registrar patrimonio lexical.
  • Aclarar significado de una palabra.
  • Escasos materiales, sobre todo en relación a otras lenguas.
  • Predomina diccionario bilingüe monodireccional: gallego-castellano.
  • Integración, explotación conjunta y difusión de los recursos textuales y léxicos de tecnología lingüística gallega
  • Desde orígenes lengua gallega hasta período contemporáneo
  • 75.000.000 palabras / 500.000 entradas
  • Instituto da Lingua Galega (USC) y Grupo TALG (Tecnoloxías e Aplicacións da Lingua Galega) (UVigo)

Período "moderno"

  • Vocabulario ortográfico da lingua galega (1989)
  • Seleccionar, depurar y actualizar materiales anteriores para fijar repertorio léxico de la variedad estándar.
  • Dilucidar si un vocábulo es o no correcto.
  • Tarea de actualización y modernización del léxico.
  • Gran incremento de materiales.
  • Aparición de aplicaciones informáticas.

http://sli.uvigo.gal/RILG/

TRATAMIENTO DE LA INFORMACIÓN

http://ilg.usc.gal/Tesouro/

Tesouro Informatizado

da lingua galega

Financiación

Secretaría Xeral de Política Lingüística (Xunta de Galicia) (desde inicio hasta la actualidad)

MEC (2006-2009) / Consellería de Innovación e Industria da Xunta de Galicia (2008-2011): plataforma RILG

Coordinador Antón Santamarina (ILG)

Se inicia en al año 1986

Financiación

  • Secretaría Xeral de Política Lingüística (Xunta de Galicia)
  • Fundación Pedro Barrié de la Maza: CD-Rom

http://ilg.usc.es/TILG/

  • Corpus del gallego moderno: casi 2000 obras de 704 autores y autoras
  • 26 millones de palabras, 95.409 lemas diferentes
  • Entre 1612 y 2013

Versión actual

Versión de prueba

http://ilg.usc.gal/TILG/

Aplicación de consulta

  • Fácil acceso a la información
  • Permite descargar la información (CSV)
  • Manejo sencillo
  • Búsquedas complejas: por contexto (falta contexto a la izquierda), años, categoría gramatical...
  • Ofrece información estadística (podría ampliarse)
  • No permite buscas de frases exactas (nueva aplicación hasta cinco palabras), ni combinación de elemento léxico con etiqueta categorial (comer + prep.), ni filtrado geográfico

MUCHAS GRACIAS

Aplicación actual

Aplicación en pruebas

Learn more about creating dynamic, engaging presentations with Prezi