Introducing
Your new presentation assistant.
Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.
Trending searches
смещения удобно представлять как дробные части периода, называемые фазой.
фаза измеряется в градусах!
один полный цикл - это 360°
получится новая синусоидальная волна той же частоты
Asin(2 ft) и Bcos(2 ft)
- 2 синусоиды с разными амплитудами и фазами, но c одинаковой частотой
В задаче распознавания диктора каждый диктор представляется моделью гауссовых смесей и ставится в соответствие со своей моделью
строение голосовых связок, трахеи, носовых полостей, манера произношения звуков, расположение зубов
Большинство компьютеров оснащены оборудованием, необходимым для ввода и вывода звука.
Это микрофон и звуковая плата
устройство для преобразования звуковых колебаний в электрические.
упругая мембрана, которая вовлекается в колебательный процесс под воздействием звуковых волн. Мембрана связана с преобразующим элементом, который преобразует колебания мембраны в электрический сигнал.
- это звук, образованный колебаниями всего диапазона частот, подобный тому, спектр которого показан на рисунке:
y(t) = V(s(t), q(t))
информационная (полезная) помеха
часть сигнала
помеха называется шумом, если предыдущее выражение представляет собой простую сумму сигнала и помехи:
y(t) = s(t) + q(t)
шумы суммируются с сигналом, не зависят от его значений и формы и не изменяют информативной составляющей самого сигнала
где Xi – набор дискретных значений звукового сигнала
Например:
yk = {0,000; 0,000; 0,330; 0,113; 0,040; 0,200; 0,056; 0,056; 0,387; 0,092; 0,008 …}.
наибольшее отклонение от равновесного значения величины,
колеблющейся по определенному закону
Амплитуда — это значение выборки
т.к. шумы уже отфильтрованы, то начало фрагмента будет характеризоваться всплеском сигнала, если искать с Х0 (если искать с Хn вниз, то всплеск будет характеризовать конец фрагмента)
мы нашли слово сказанное пользователем в микрофон.
где - это напряжение в заданный момент времени
Следовательно:
(дискретные значения)
мы сначала возводим в квадрат полученные значения, вычисляем среднее значение получившегося множества, а затем извлекаем из него корень
пусть у нас N значений и х(i) — это амплитуда i-ого дискретного значения
тогда СКЗ амплитуды =
для этого не требуются точные данные электрической мощности, так что, , нас не интересуют точные числа, скорее — относительная мощность
дБ, децибел - это одна десятая бела
если мощность одного сигнала превосходит мощность другого в два раза, то первый сигнал будет громче на
10lоg10(2) = 3,01 дБ
Следовательно:
спектр частот звуковой волны представляет собой график зависимости амплитуды от частоты.
частота – это количество полных циклов которые укладываются в одну секунду
она связана с периодом времени, необходимым для одного цикла
функция sin(t) имеет:
Преобразуем запись к виду:
A sin(2 ft)
- что соответствует синусоиде с амплитудой А и частотой f
где t представляет собой время (в секундах)
Далее будем работать в каждый момент времени с группами по N отсчетов и интересовать нас будут определенные частоты…
будем использовать записи вида:
которые представляют волны с единичной амплитудой и частотой равной fS/N.
этот эффект опирается на зависимость между частотой и временной задержкой
пусть отсчеты имеют значения s0, s1, … , st, …
t - номер отсчета (который заменяет значение времени)
тогда амплитуда частоты f в первом приближении вычисляется:
Af =
f – целое число, а реальная исследуемая частота – это частота дискретизации, умноженная на f/N
то в колебаниях этой струны будут также частоты 880, 1320 Гц и др.
A440 = 34,63739
A880 = 23,20188
A1320 = 41,59672
A440 + A880 + A1320
фазовая часть вычисляется неявно:
формула дискретного преобразования Фурье может быть представлена в виде двух сумм.
представить некоторый дискретный сигнал в виде суммы
при b=0;
при b=3.39532;
при b=10.06126.
при выполнении преобразования Фурье или при спектральном анализе «окна Hamming» уменьшает нарушения непрерывности колебаний обрезанной формы и таким образом снижается спектральная утечка
массивы чисел, одинакового размера N, содержащие значения спектральной
мощности первого и второго фрагментов соответственно
данный способ вычисления меры сходства двух фрагментов представленных в виде спектра является самым оптимальным для задачи идентификации человека по его голосу
где Mx и My - математические ожидания для массивов X[] и Y[] соответственно, вычисляющиеся по следующей формуле:
Использование моделей гауссовых смесей для задачи распознавания диктора по голосу улучшает качество распознавания.
Модель гауссовых смесей представляет собой взвешенную сумму M компонент и может быть записана выражением
Цель алгоритма оценки параметров модели — это при заданном обучающем высказывании диктора оценить параметры модели λ, которые наилучшим образом соответствуют распределению векторов признаков обучающего высказывания. Существует несколько способов оценки параметров модели, но наиболее популярным и широко используемым является метод оценки максимального правдоподобия.
где - это -мерный вектор случайных величин;
— функции плотности распределения составляющих модели;
— веса компонентов модели;
Цель оценки максимального правдоподобия — найти параметры модели, которые максимизируют правдоподобие этой модели, при заданных обучающих данных. Для последовательности обучающих векторов
Каждый компонент является -мерной гауссовой функцией распределения вида
правдоподобие модели гауссовых смесей может быть записано в виде
К сожалению, это выражение представляет нелинейную функцию от параметров λ, и ее непосредственное вычисление невозможно. Поэтому оценки параметров могут быть получены итерационно при помощи алгоритма оценки-максимизации
На каждой итерации алгоритма оценки-максимизации используются следующие формулы переоценки параметров:
Апостериорная вероятность i-го акустического класса задается выражением
Алгоритм оценки-максимизации начинается с оценки начальной модели , и затем вычисляются новые параметры модели λ, такие, что
Новая модель затем становится начальной моделью для следующей итерации, и процесс переоценки параметров повторяется, пока не будет достигнут некоторый порог сходимости.
λ
Существуют две проблемы при обучении смесей гауссовых моделей — это
Не существует теоретического решения этих задач.
Существует две причины использования моделей гауссовых смесей для идентификации диктора.
интуитивное предположением того, что отдельные компоненты модели могут моделировать некоторое множество акустических признаков/событий. Можно предположить, что акустическое пространство голоса диктора может быть характеризовано множеством классов, представляющих некоторые фонетические события/звуки как гласные, фрикативные и т.д. Эти акустические классы отражают некоторые общие, но особенные для каждого диктора конфигурации голосового тракта, и поэтому они эффективны для идентификации диктора. Спектр акустического класса может быть представлен вектором математического ожидания, а изменение среднего спектра может быть представлено ковариационной матрицей. Предполагая, что векторы признаков не зависимы друг от друга, плотность наблюдения векторов, образующих эти классы, можно считать смесью гауссовых
распределений.
Для идентификации диктора по голосу группа дикторов
представляется набором моделей гауссовых смесей
эмпирическое наблюдение, что линейная комбинация гауссовых распределений может представлять большое число классов акустических признаков. Одна из сильных сторон смеси гауссовых моделей та, что эти модели могут очень точно аппроксимировать произвольные распределения. Классическая модель представления диктора при помощи одного гауссова распределения описывается при помощи позиции распределения (вектора математических ожиданий) и формой распределения (ковариационной матрицей). Модель векторного квантования представляет диктора при помощи дискретного множества кластеров кодовой книги. В некотором смысле модель гауссовых распределений представляет собой гибрид между этими двумя моделями (векторного квантования и гауссова распределения), так как использует дискретное множество гауссовых функций. Каждая функция имеет собственную величину вектора математических ожиданий и ковариационную матрицу.
Предполагая, что все дикторы одинаково вероятны (т.е. ) и замечая, что величина значения одинакова для моделей всех дикторов, правило классификации диктора упрощается до вида
Используя логарифм и независимость между наблюдениями, система идентификации диктора вычисляет
При обучении модели гауссовых смесей существует проблема инициализации параметров модели перед началом процесса обучения. Алгоритмы обучения не гарантируют нахождение глобального максимума в пространстве векторов обучения и поэтому результат обучения системы существенно зависит от начальных значений параметов системы.
Рассмотрим метод инициализации параметров модели на основе векторного квантования.
При векторном квантовании N-мерный вектор параметров наблюдения отображается в N-мерный вектор Этот процесс называется квантованием.
Множество векторов называется кодовой книгой преобразования или просто кодовой книгой.
L— размер кодовой книги, — множество кодовых векторов.
Для построения такой кодовой книги N-мерное пространство случайного вектора
разделяется на L областей или ячеек и с каждой такой ячейкой связывается вектор
При квантовании вектора квантователь назначает кодовый вектор если x попадает в область
Для построения кодовой книги чаще всего используется алгоритм K-средних, в котором используется среднеквадратичное отклонение в качестве меры искажения:
Каждый компонент модели гауссовых смесей можно представить математическим ожиданием
и ковариационной матрицей Σi, используя выражение
Предполагается, что число компонент в модели гауссовых смесей совпадает с размером кодовой книги, т.е. М=L
Тогда математическое ожидание каждого компонента инициализируется значениями элементов кодового вектора
Ковариационная матрица Σi вычисляется на основании векторов, принадлежащих i -му кластеру кодовой книги. Веса компонентов модели инициализируются числом векторов, попавших в кластер Сi . Так как веса должны удовлетворять выражению , то каждый вес нормализуется общим числом векторов ,участвующих в обучении модели.
Алгоритм K-средних разбивает пространство обучающих векторов X на L кластеров. Заметим,что кластеры кодовой книги можно рассматривать как описание событий/звуков речи. Также отдельные гауссовы компоненты можно рассматривать как описание событий речи. На основании этого предлагается использовать кодовую книгу для инициализации моделей гауссовых смесей.
Итак, основываясь на теорию и простые примеры, мы разобрали основные этапы Идентификации человека по голосу, такие как:
Спасибо за внимание.
Модели Гауссовых Смесей демонстрирует уровень распознавания, сравнимый, а иногда и превосходящий уровень других методов, описанных в литературе. Дальнейшие исследования в этой области могут быть направлены на разработку быстрых алгоритмов обучения моделей гауссовых смесей и на разработку алгоритмов адаптации к каналу звукозаписи и окружающей среды.
это области усиленных частот