Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Kieliaineiston tuotantolinja

Oulu 13.10.2014
by

Mietta Lennes

on 17 May 2017

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Kieliaineiston tuotantolinja

Kieliaineiston tuotantolinja
Aineiston kerääminen
Annotointi
Kielipankki
Haku
Tutkimus

suomalaisten yliopistojen konsortio
auttaa kieliaineistojen julkaisemisessa ja sopimuskysymyksissä
tukea ja työkaluja aineistojen käsittelyyn
kehittää Kielipankkia yhdessä CSC:n kanssa
mukana eurooppalaisessa yhteistyössä (CLARIN -> CLARIN ERIC; META-NORD)
https://lat.csc.fi
http://www.kielipankki.fi
META-SHARE-
hakemistopalvelu
Tallennussopimus
Käyttö
Valikointi
Luvat
oikeudenhaltijoilta
Käyttäjähallinto (HAKA, eduGAIN tai CSC:n tunnukset)
Tiedostopalvelut, sovelluspalvelimet
Tekninen ylläpito, ml.
Tutkijan käyttöliittymä (SUI)
Käyttöoikeuksien hakujärjestelmä
LAT, Korp, META-SHARE
myös Lemmie, DMA, ...
kielen käyttöesimerkit
analyysi (esim. mittaukset puhesignaalista)
annotaation korjaus/tarkennus!
kielioppien rakentaminen
tilastolliset mallit
jne.
Yksilöllinen PID (URN)
jokaiselle versiolle
http://meta-share.org
Kuvailutietojen
tuottaminen
Praat
Elan
LAT
XML-koodaus
Korp


video
Teksti
(Automaattiset taggerit/
jäsentimet)
morfologia (esim. OMorFi)
syntaksi (esim. puupankit)
Puhe
ääni
(Automaattinen
puheentunnistus)
Litterointi
ja kohdistus
puhe-
tallenteeseen
Selailu,
katselu, kuuntelu
Käyttöoikeuden
hakeminen tarvittaessa
Tavoitteena "yhden luukun periaate"
Julkaiseminen
yksiselitteinen, pysyvä viittauskäytäntö
tutkimuksen toistettavuus
mainetta ja kunniaa aineiston tekijälle!
Lisenssin
hyväksyminen
META-SHARE-editori
ja konkordanssit
LAT: Trova
Korp
(myös esim. unix-työkalut)
lataus
omalle koneelle
(Automaattinen
segmentointi)
Tutkittavan suostumus
Tutkimuslupa?
CLARIN-lisenssiluokat
https://korp.csc.fi
Lisäehdot: BY,NC,NoReD (LOC)
Creative Commons -lisenssit
(sopivat lähinnä tekijänoikeuden alaisille tekstiaineistoille)
Aineistot
Lajit
synkroninen, diakroninen, alueellinen jakauma
Formaatit
tekstiä, puhetta, kuvaa, videota
Lähteet
Kotus, SKS, YLE, Celia, ...
Kansalliskirjasto, Kansallinen AV-arkisto, ...
Tutkijoiden ja tutkimusprojektien tulosaineistot
Linkitysmahdollisuus
+ID
+PLAN
https://korp.csc.fi/#corpus=ftb3_europarl,ftb3_jrcacquis,ftb2&search-tab=1&page=0&search=cqp%7C%5Blemma+%3D+%22olla%22%5D+%5Blemma+%3D+%22hyv%C3%A4%22%5D
Kokeile hakua:
FIN-CLARIN + CSC
FIN-CLARIN
CSC
https://lat.csc.fi/ds/annex/runLoader?nodeid=MPI2817%23&viewType=timeline
Kokeile Annexia:
Julkaiseminen
Full transcript