Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Untitled Prezi

No description
by

Katiusha de Moraes

on 16 October 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Untitled Prezi

Corpus/Corpora
A ideia de corpus
não é nova!

Conjunto de documentos
(BERBER SARDINHA, 2004)
Critérios de um corpus
(SARDINHA, 2004)
Origem
- textos produzidos em linguagem natural
Propósito
- ser um objeto de estudo linguístico
Composição
- textos criteriosamente escolhidos
Formatação
- textos devem ser computacionalmente legíveis
Representatividade
- deve representar uma língua ou variedade
Tamanho
- deve ser vasto o suficiente para ser representativo
Critérios de um corpus
(ALUÍSIO, 2006)
Autenticidade
Representatividade
Balanceamento
Amostragem
Diversidade
Tamanho
Corpus Helenístico - Alexandre, O Grande
Corpora citações da Bíblia - Idade Média

Corpus eletrônico
Brown Corpus (1964) -1 milhão de palavras
Distinção entre corpus e
outros conjuntos de dados
(BERBER SARDINHA, 2004)
coleta

(ALUÍSIO, 2006)
Corpus para elaboração de dicionários
(secs. XVIII e XIX).
Origem
Termo de origem latina
(conjunto de "caput", "truncus", "manus" etc).
Afinal,
o que há de novo?!

(BERBER SARDINHA, 2004)
dados linguísticos textuais
extraídos computacionalmente
pesquisa
Outras definições
Conjunto finito de enunciados - Pode ser EXAUSTIVO ou seletivo (Galisson e Coste);
Amostra da língua (Dubois);
"Conjunto, tão variado quanto possível, de enunciados" - época determinada (Ducrot e Todorov);
Para a Linguística de Corpus
Formato que possa ser processado computacionalmente.
Futebol
O que é e como se contrói um corpus
Plural:
Corpora

Arquivo
- conjunto de textos sem nenhuma organização
Biblioteca
- conjunto de textos com alguma organização
Corpus
- conjunto de textos criteriosamente organizados
Banco de dados
Representar
uma língua
UTF-8
WEB
é um corpus?
Comunidade de falantes

Perfil dos consumidores
Briefing
Futebol
Etapas de compilação de um corpus
. Seleção dos textos
. Compilação e manipulação
. Nomeação de arquivos /geração de cabeçalhos
. Licenças
. Anotação

Tipologia (SARDINHA, 2004)
Modo - falado, escrito
Tempo - Sincrônico, diacrônico etc.
Seleção - amostragem, monitor, dinâmico, estático etc.
Seleção
Corpus oral
Transmissões de jogos (rádio e TV)
Textos escritos
Web
Web crowler
Jornais
impressos
eletrônicos
Regionais (O Povo, Diário etc.)
Nacionais
(Folha de São Paulo, Estadão etc.)
Cadernos de esporte
Licenças
Blogs especializados
Compilação e manipulação
Corpus
Jornais
Redes sociais
Blogs
Formato
raw text
Codificação
Wikipédia

Attribution-ShareAlike 3.0 Unported
(CC BY-SA 3.0)

Copiar
Distribuir
Modificar
o conteúdo
desde que
Cite a fonte
Distribua pela
mesma licença
Uso comercial
GNU Free Documentation
Redes sociais
Espaço
temporal
O Povo
DN
arquivos separados
por data
Textos
(.txt)
Panorama de Corpora
em Português
CRPC - Corpus de Referência
do Português Contemporâneo
CLUL
311,4 milhões
de palavras
Textos orais
e escritos
Toquenizado e etiquetado
LX-Tagger
MBT (Memory-Based
Tagger-Generator and Tagger)
CORDIAL-SIN
Corpus Dialectal para o Estudo da Sintaxe
600.000 palavras
Lácio-Web
NILC - USP
MAC-Morpho
1.167.183 tokens

fechado
anotado pelo parser
Palavras
Folha de São Paulo
(2004)
Tycho Brahe Parsed Corpus of Historical Portuguese (TBCHP)
(IEL-UNICAMP)
Textos em português, de autores
nascidos entre 1380 e 1845
Nomeação de arquivos
origem_sessao_data_texto
wikipedia_Dilma_Rousseff_16_07_2013
o_povo_esportes_10_07_2013_texto_01
Anotação
Morfossintática
Sintática
Semântica
Multidimensional
Anotações linguísticas + XML
TEI P 5
TIME ML
Programa para automatizar o preenchimento de campos XML
estagiários
Próximos passos:

1. Público-alvo
2. Pesquisa de domínios
3. Definição dos níveis de anotação
4. Criação do programa - interface XML
Obrigada!
Full transcript