Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

TIMIT

Estudio de la base de datos TIMIT.
by

Santiago Ruiz

on 20 January 2010

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of TIMIT

¿Que es TIMIT? Timit es una base de datos para el desarrollo y la evaluación de sistemas de reconocimiento de habla Contiene un total de 10 frases grabadas de 630 hablantes de toda la geografía es decir, un total de 6300 frases. TIMIT Ha sido desarrollada en colaboración: Masachusetts institute of technology(MIT): Stanford Research Institute (SRI) Texas Instruments (TI): National Institute of Standards and Technology (NIST): Donde las grabaciones fueron transcribidas Donde las grabaciones fueron tomadas Preparó el CD que contiene las grabaciones de voz Contenido: 630 hablantes de ingles (Estadounidense) 10 frases grabadas por hablante 8 principales zonas dialécticas de EEUU (departamento de lenguas de la Ohio State University) 3 tipos de sentencias grabadas por hablante Las sentencias utilizadas para los conjuntos de entrenamiento y pruebas de TIMIT consisten en: 2 sentencias de dialecto diseñadas en el SRI: (tratan deretratar las las posibles diferencias dialécticas de todos los hablantes, y fueron leidas por los 630 hablantes.)

450 frases “fonéticamente compactas” (diseñadas para proporcionar una buena cobertura - contextos complicados o de interés particular. Cada hablante leyó 5 frases, con lo que cada frase fue leida 3 veces)

1890 frases “fonéticamente diversas” (elegidas para añadir riqueza). Cada hablante leyo 3 frases, con lo que cada frase fue leida una sola vez. Subdivisión del material de voz: Entrenamiento y pruebas TEST ENTRENAMIENTO CONDICIONES DE TEST:

El material de test debe ser entre un 20% y un 30% del material disponible

Ningun hablante debe aparecer en los conjuntos de entrenamiento y test

Todas las regiones de dalecto deben aparecer en ambos conjuntos con al menos un hombre y una mujer en cada uno

No debe haber ninguna frase idéntica en los 2 conjuntos

Todos los fonemas deben ser cubiertos en el conjunto de test NUCLEO de Test 2 hombres y una mujer de cada región dialéctica (en total 24)

192 frases diferentes (5SX + 3SI por cada hablante)

para evitar solapamiento se evita el uso de las frases SA) SET COMPLETO DE TEST Se amplía el nucleo de Test
Se incluyen todos los hablantes que dijeron cualquiera de las frases (SX) leídos por otro hablante del nucleo de test El la fase de test se usa aproximadamente el 27% de los textos de TIMIT con 168 lectores de todos los dialectos. El 73% restante de la información de voz de timit se utiliza para el

Tipos de archivos que proporciona TIMIT Además de los archivos .wav que contienen las grabaciones de los hablantes, TIMIT ofrece otros 3 tipos de archivos de transcripción:

*.txt files
*.wrd files
*.phn files
.txt files .wrd files .phn files Información de trancripción ortográfica de la frase leida

Suele ser igual a la frase original

Lleva valores de identificación temporal 0 57754 She had your dark suit in greasy wash water all year. Contiene la transcripción separada por palabras

Incluye alineamiento en el tiempo

La alineación temporal de las palabras se realiza de forma dinámica a partir de los segmentos fonéticos 2255 5413 she
5413 9337 had
9337 10520 your
10520 15624 dark
15624 24431 suit
(...)
Contiene la transcripción fonética

Está también alineada en el tiempo 0 9315 h#
9315 9775 d
9775 11960 ow
11960 12508 n
12508 12736 q
12736 15320 ae
15320 16605 s
16605 17592 kcl
17592 18108 m
18108 19240 iy
19240 20010 tcl
20010 21096 t
21096 21546 ux 21546 22308 kcl
22308 24040 k
24040 25441 eh
25441 26819 r
26819 27947 iy
27947 28437 ix
28437 28741 nx
28741 29589 ax
29589 30116 q
30116 32125 oy
32125 33169 l
33169 34381 iy 34381 36177 r
36177 39048 ae
39048 39738 gcl
39738 40102 g
40102 40981 l
40981 42151 ay
42151 43780 kcl
43780 44240 dh
44240 47800 ae
47800 49700 tcl
49700 50832 t
50832 53120 h# ¿Que mas contiene TIMIT? Archivo de diccionario, donde se encuentran todas las palabras utilizadas en el material de TIMIT Archivo de prompts, donde se encuentran todas las frases que han sido leidas junto a su tipo (SA,SX,SI) e identificador. Archivo de frases por hablante, identifica que 10 frases (con la distribución previamente comentada) ha sido leida por cada hablante. GRACIAS POR SU
ATENCIÓN Santiago Ruiz Villoslada
(sruizv@vartificial.com) ID: Identificador del hablante. Esta formado por 3 letras y un número

Sex: El género del hablante

DR: Indica la región dialéctica del hablante

Use: Uso del material de voz

RecDate: Fecha de grabación

BirthDate: La fecha de nacimiento del hablante

Ht: Indica la altura del hablante.

Race: La raza del hablante. Se contemplan las siguientes razas: White, Black, American Indian, Spanish-American, Oriental y Desconocido.

Edu: Contiene la educación del hablante distinguiendose entre High School, Associate Degree, Bachelor's Degree, Master's Degree, Doctorate Degree o Desconocido.

Comments: En caso de ser necesario deja constancia de las características especiales irregularidades del hablante
Información del hablante: CÓDIGO FONÉTICO
Full transcript