Loading…
Transcript

References

Monika Czerepowicka

University of Warmia and Mazury in Olsztyn, Poland

Słownik elektroniczny jednostek frazeologicznych

SEJF

Monika Czerepowicka, Agata Savary

criteria of multi-word unit:

1. meaning is not compositional

2. specific distribution

biały kruk (rare avis)

po trochu (bit by bit)

po ciemku (in the dark)

Electronic Dictionary of Polish Multi-Word Units

  • Mirosław Bańko, Słownik porównań. Wydawnictwo Naukowe PWN, Warszawa 2004.
  • Monika Czerepowicka, Opis powierzchniowoskładniowy wyrażeń niestandardowych typu ‘na lewo, ‘do dziś’, ‘po trochu’, ‘na zawsze’ we współczesnym języku polskim. Akademicka Oficyna Wydawnicza EXIT, Warszawa 2006.
  • Monika Czerepowicka, Toposław jako narzędzie znakowania jednostek wieloczłonowych. In Nowe zjawiska w języku, tekście i komunikacji III. [in] Kontekst a komunikacja, Wydawnictwo UWM, Olsztyn 2011, s. 28–35.
  • Iwona Kosek, Fleksja i składnia nieciągłych imiennych jednostek leksykalnych. Wydawnictwo UWM, Olsztyn 2008.
  • Iwona Kosek, Monika Czerepowicka, Problemy opisu związków frazeologicznych w formalizmie „Multiflex” (na przykładzie rodzaju wyrażeń frazeologicznych). [in] Różne formy, różne treści. Tom ofiarowany Profesorowi Markowi Świdzińskiemu, Dorota Kopcińska, Mirosław Bańko, editors, Warszawa, s. 117-125.
  • Małgorzata Marciniak, Joanna Ragiega-Wiśniewska, Agata Savary, Marcin Woliński, and Celina Heliasz, Constructing an Electronical Dictionary of Polish Urban Names, 2009.
  • Sébastien Paumier, Unitex 1.2 User Manual, http://www-igm.univ-mlv. fr/ unitex, 2006.
  • Adam Przepiórkowski, Mirosław Bańko, Rafał L. Górski, Barbara Lewandowska-Tomaszczyk, editors, Narodowy Korpus Języka Polskiego. Wydawnictwo Naukowe PWN, Warszawa 2012.
  • Zygmunt Saloni, Włodzimierz Gruszczyński, Marcin Woliński, Robert Wołosz, Danuta Skowrońska, Słownik gramatyczny języka polskiego. Wiedza Powszechna, Warszawa 2012.
  • Agata Savary, Filip Graliński, Monika Czerepowicka, Filip Makowiecki, 2010, Computational Lexicography of Multi-Word Units: How Effiecient Can It Be? [in] Proceeding of Multi-Word Units: from Theory to Applications (MWE'10), Workshop at the International Conference on Computational Linguistics (COLING'10), Beijing, PRC, 28.08.2010.
  • Piotr Sikora and Marcin Woliński. Toposław — a dictionary creation tool. In Mieczysław A. Kłopotek, Adam Przepiórkowski, Sławomir T. Wierzchoń, and Krzysztof Trojanowski, editors, Recent Advances in Intelligent Information Systems, pages 743–749. Akademicka Oficyna Wydawnicza EXIT, Warszawa 2009.
  • Piotr Wojdak, Przysłówki polisegmentalne w modelu składniowym polszczyzny. Wydawnictwo Naukowe US, Szczecin 2002.
  • Marcin Woliński, Morfeusz — a Practical Tool for the Morphological Analysis of Polish. [in] Mieczysław Kłopotek, Sławomir Wierzchoń, Krzysztof Trojanowski, editors, Intelligent Information Processing and Web Mining, IIS:IIPWM'06 Proceedings, s. 503–512, Springer, 2006.
  • Marcin Woliński, Agata Savary, Piotr Sikora, and Małgorzata Marciniak. Usability improvements in the lexicographic framework Toposław. In Zygmunt Vetulani, editor, Proceedings of the 4th Language & Technology Conference, pages 321–325, Poznań 2009.
  • http://sgjp.pl/morfeusz
  • http://www.nkjp.pl/

An Electronic Dictionary of Polish Multi-Word Units as an Example of Using a Text and Speech Corpus in Lexicographical Studies

Toposław

a JAVA aplication prepared by Piotr Sikora

Multiflex

Morfeusz SGJP

a graph-based cross-language morphosyntactic generator of multi-word units

  • tokenizing the compound units to lemma, annotating its components and generating inflected forms of simple words
  • each unit form is seen as a particular combination of the inflected forms of its components

All inflected forms of multi-word units and their variants are presented within one graph.

Unitex graph editor

corpus processing system

Sébastien Paumier

Thank you for your attention!

Fluctuation of the grammar gender

NKJP

1. to verify existing multi-word units,

to determine their various forms,

to find new, previously undescibed connections

2. a morphosyntactic tagset from NKJP

czerepowicka@gmail.com

Description by means of graphs

some grammatical

and lexicographical problems

Multi-gender nouns

kozioł ofiarny (scapegoat)

czerwony pająk (red spider 'communist')

jam session

gender fluctuation

of a noun

multi-gender nouns

lemmatization

białe noce (white nights)

bańki mydlane (soap bubbles)

Lemmatization