Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading content…
Transcript
  • это причина смещения волн друг относительно друга, например:

смещения удобно представлять как дробные части периода, называемые фазой.

фаза измеряется в градусах!

один полный цикл - это 360°

  • если сложить 2 синусоидальные волны одинаковой частоты:

получится новая синусоидальная волна той же частоты

  • это будет верно даже в том случае, если 2 исходных сигнала имеют разные амплитуды и фазы
  • например:

Asin(2 ft) и Bcos(2 ft)

- 2 синусоиды с разными амплитудами и фазами, но c одинаковой частотой

В задаче распознавания диктора каждый диктор представляется моделью гауссовых смесей и ставится в соответствие со своей моделью

  • уникальность голоса обусловлена физиологическими причинами:

строение голосовых связок, трахеи, носовых полостей, манера произношения звуков, расположение зубов

  • одинаковых голосов не бывает ни у близнецов, ни у пародистов, какими бы умелыми те ни были
  • т.о., при имитации в голосе имитатора сохраняется множество собственных индивидуальных характеристик

Для современного мира характерно:

  • широкое распространение компьютеров
  • использование компьютеров в различных областях жизни
  • ограничение доступа пользователей
  • все чаще стандартные парольные системы защиты заменяются или дополняются биометрическими системами идентификации пользователей

Термин "биометрия" обозначает измерение некоторых анатомических или физиологических параметров человека.

Анализ предметной

области

Введение в Идентификацию

человека по голосу рассмотрено по следующим этапам:

Идентификация основывается

  • Анализ предметной области
  • Технические средства формирования аудиоданных
  • Этапы сравнение образцов голоса
  • Фильтрация шумов
  • Спектральное преобразование сигнала
  • Фильтрация спектра
  • Сравнение с эталонными образцами
  • Повышение качества распознавания
  • Уникальность человеческого голоса
  • Заключение
  • на том, что измеренные данные сравниваются с данными, веденными при регистрации пользователя

  • и компьютер пытается на основе сравнения "узнать" человека

Дверь с голосовой защитой

Преимущества биометрических

систем:

  • уникальные человеческие качества трудно подделать
  • биометрические характеристики не могут быть забыты или потеряны
  • в силу своей уникальности они используются для предотвращения воровства или мошенничества

«Голос - второе лицо»

Жерар Боэ.

Технические средства формирования аудиоданных

Для обработки голоса необходимо:

  • предварительно записать голос в оперативную память компьютера или на машинный носитель

Большинство компьютеров оснащены оборудованием, необходимым для ввода и вывода звука.

Это микрофон и звуковая плата

Схема ввода речевых сообщений в ЭВМ:

Речевой сигнал

  • формируется и передается в пространстве в виде звуковых волн
  • источник- речеобразующий тракт, который возбуждает звуковые волны в упругой воздушной среде

Микрофон

устройство для преобразования звуковых колебаний в электрические.

  • Чувствительный элемент микрофона:

упругая мембрана, которая вовлекается в колебательный процесс под воздействием звуковых волн. Мембрана связана с преобразующим элементом, который преобразует колебания мембраны в электрический сигнал.

  • С выхода микрофона сигнал подается на вход звуковой карты компьютера. При записи звуковая карта представляет собой аналого-цифровой преобразователь.

Этапы сравнение образцов голоса

Этапы сравнения

образцов:

  • фильтрация шумов
  • спектральное преобразование сигнала
  • фильтрация спектра
  • наложение окна Кайзера
  • сравнение

Фильтрация шумов

Шум

- это звук, образованный колебаниями всего диапазона частот, подобный тому, спектр которого показан на рисунке:

Шум издает двигающийся воздух – независимо от того, дуновение ли это человека или шорох ветра в микрофоне.

Содержательный смысл шума

  • в общей форме влияние помех на сигнал записывается в виде:

y(t) = V(s(t), q(t))

информационная (полезная) помеха

часть сигнала

помеха называется шумом, если предыдущее выражение представляет собой простую сумму сигнала и помехи:

y(t) = s(t) + q(t)

шумы суммируются с сигналом, не зависят от его значений и формы и не изменяют информативной составляющей самого сигнала

Что же делать, чтобы получить четкие спектральные характеристики звука?

  • их нужно отчистить от лишних шумов
  • входной дискретный звуковой сигнал обрабатывается фильтрами, для того чтобы избавится от помех, возникающих при записи, по формуле:

где Xi – набор дискретных значений звукового сигнала

Графически это выглядит следующим образом:

Сигнал с

шумом

Сигнал без

шума

Например:

  • пусть входной сигнал(дискретные значения): xk = {0, 0, 4, 5, 5, 7, 7, 7, 11, 11, 10 …}.
  • тогда выходной сигнал:

yk = {0,000; 0,000; 0,330; 0,113; 0,040; 0,200; 0,056; 0,056; 0,387; 0,092; 0,008 …}.

  • результат фильтрации:

Амплитуда

наибольшее отклонение от равновесного значения величины,

колеблющейся по определенному закону

  • для оцифрованного сигнала:

Амплитуда — это значение выборки

  • Амплитуда - наиболее точная физическая величина, соответствующая громкости звука

После обработки:

  • в сигнале ищется начало и конец записи:

т.к. шумы уже отфильтрованы, то начало фрагмента будет характеризоваться всплеском сигнала, если искать с Х0 (если искать с Хn вниз, то всплеск будет характеризовать конец фрагмента)

  • т.о. получим начала и конца фрагмента в массиве дискретных значений сигнала.
  • в нематематическом виде это означает:

мы нашли слово сказанное пользователем в микрофон.

Мощность

  • по проводам звук передается в виде переменного напряжения
  • мгновенная мощность звука пропорциональна квадрату напряжения
  • полная мощность за период времени равна сумме всех значений моментальной мощности за этот период
  • это описывается интегралом:

где - это напряжение в заданный момент времени

А мы используем звук, представленный дискретными значениями

Следовательно:

  • не надо брать интеграл
  • достаточно просто сложить квадраты отсчетов

(дискретные значения)

  • среднее значение квадратов дискретных значений пропорционально средней мощности

Как связать среднюю амплитуду

и среднюю мощность?

  • способ заключается в определении средней амплитуды (СКЗ):

мы сначала возводим в квадрат полученные значения, вычисляем среднее значение получившегося множества, а затем извлекаем из него корень

  • алгебраически:

пусть у нас N значений и х(i) — это амплитуда i-ого дискретного значения

тогда СКЗ амплитуды = 

Как следствие:

  • мощность пропорциональна возведенной в квадрат величине дискретного значения
  • , для перехода к реальной мощности, эту величину необходимо умножить на некоторый коэффициент

для этого не требуются точные данные электрической мощности, так что, , нас не интересуют точные числа, скорее — относительная мощность

Относительная мощность

  • измеряется в белах, а чаще в децибелах

дБ, децибел - это одна десятая бела

  • чтобы сравнить 2 звука, берется отношение их мощности
  • десятичный логарифм этого отношения и есть различие в белах
  • если умножить получившееся число на десять, то получится значение в децибелах
  • например:

если мощность одного сигнала превосходит мощность другого в два раза, то первый сигнал будет громче на

10lоg10(2) = 3,01 дБ

Любой звук раскладывается на синусоидальные волны

Следовательно:

  • мы можем построить частотный спектр звука

спектр частот звуковой волны представляет собой график зависимости амплитуды от частоты.

Спектральное преобразование сигнала

Основные характеристики

Синусоиды

частота – это количество полных циклов которые укладываются в одну секунду

она связана с периодом времени, необходимым для одного цикла

  • вертикальная шкала обозначает амплитуду, которая соответствует величине отсчета, электрического напряжения, тока или давление воздуха

Математически Синусоида описывается sin() или cos()

  • амплитуда = 1
  • период = 2 сек
  • частота = 1/2 циклов в секунду

функция sin(t) имеет:

Преобразуем запись к виду:

A sin(2 ft)

- что соответствует синусоиде с амплитудой А и частотой f

где t представляет собой время (в секундах)

При работе с дискретным

сигналом:

  • в качестве t удобнее использовать номер отсчета
  • тогда запись Asin(2 ft) представляет синусоиду с:

Далее будем работать в каждый момент времени с группами по N отсчетов и интересовать нас будут определенные частоты…

  • амплитудой А
  • частотой f*S, где S - частота дискретизации

Как следствие:

будем использовать записи вида:

  • sin(2 ft/N)
  • cos(2 ft/N)

которые представляют волны с единичной амплитудой и частотой равной fS/N.

Временные задержки

Пример:

  • пусть каждый цикл сигнала в 1000 Гц занимает 1/1000 секунды
  • если задержать сигнал на 1/2000 секунды (полупериод), то получится 180-градусный сдвиг но фазе.

этот эффект опирается на зависимость между частотой и временной задержкой

  • если сигнал в 250 Гц задержать на те же самые 1/2000 секунды, то будет реализован 45-градусный сдвиг по фазе

NB !

Как измерить амплитуды одной частоты?

  • надо умножить имеющийся сигнал на синусоиду той же частоты и сложить полученные отсчеты
  • в символьном виде:

пусть отсчеты имеют значения s0, s1, … , st, …

t - номер отсчета (который заменяет значение времени)

тогда амплитуда частоты f в первом приближении вычисляется:

Af =

f – целое число, а реальная исследуемая частота – это частота дискретизации, умноженная на f/N

  • если повторить эти вычисления для различных значений f, то можно измерить амплитуду всех частот в сигнале.

NB !

  • для любого целого f < N легко определяется значение Аf, представляющее амплитуду соответствующей частоты как долю от общего сигнала
  • эти значения могут быть вычислены по той же формуле:

Вывод:

  • если мы знаем значения Af мы можем восстановить отсчеты
  • для восстановления сигнала необходимо сложить все значения для разных частот

Итак, например:

  • если возьмем на скрипке ноту «ля» (частота 440 Гц),

то в колебаниях этой струны будут также частоты 880, 1320 Гц и др.

  • пусть отсчеты имеют значения = {0, 0, 4, 5, 5, 7, 7, 7, 11, 11, 10 …}.
  • тогда амплитуда частоты f = 440 Гц:

A440 = 34,63739

  • тогда амплитуда частоты f = 880 Гц:

A880 = 23,20188

  • тогда амплитуда частоты f = 1320 Гц:

A1320 = 41,59672

  • теперь сигнал можно восстановить как:

A440 + A880 + A1320

Синусоидальный сигнал 440 Гц

Как осуществить точное преобразование Фурье?

  • помимо амплитуды и частоты необходимо измерять фазу каждой частоты

  • а для этого нужны комплексные числа

Проблема:

Решение проблемы:

  • можно изменить описанный ранее метод вычислений так, что он будет давать двумерный результат
  • простое комплексное число – это двумерное значение, поэтому оно одновременно представляет и амплитуду, и фазу

При таком подходе:

фазовая часть вычисляется неявно:

  • вместо амплитуды и фазы измеряется две амплитуды, соответствующие разным фазам.
  • одна из этих фаз представляется косинусом (соs()), другая - синусом sin()).

Используя комплексные числа:

  • можно проводить измерения одновременно, умножая синусную часть на -i

  • каждое значение Af теперь представляется комплексным числом
  • действительная и мнимая части задают амплитуду двух синусоидальных волн с разным фазами
  • тогда:

Основная идея быстрого преобразования Фурье

  • каждую вторую выборку можно использовать для получения половинного спектра
  • формально это:

формула дискретного преобразования Фурье может быть представлена в виде двух сумм.

Таким образом:

  • физический смысл преобразования Фурье

представить некоторый дискретный сигнал в виде суммы

  • путем преобразования Фурье получили спектральное представление речи
  • результат преобразования Фурье позволяет не только сжать информацию, но и дает возможность сконцентрироваться на важных аспектах речи

Фильтрация спектра

  • получив спектральное представление сигнала его требуется отчистить от шумов
  • человеческий голос обладает известными характеристиками, и поэтому те области которые не могут являются характеристиками голоса нужно погасить

Для этого:

  • применим функцию, которая получила название «окно Kaiser»
  • здесь параметр b указывает уровень ослабления боковых лепестков
  • окно Kaiser:

при b=0;

при b=3.39532;

при b=10.06126.

Таким образом:

  • увеличение параметра b расширяет главный лепесток и увеличивает затухание боковых лепестков
  • , «окна Kaiser» дает возможность выбора компромисса между шириной главного лепестка и уровнем боковых лепестков

После фильтрации спектра нужно наложить “окно Hamming”:

для сглаживания

Нормированный спектр окна Хемминга 

Окно Хемминга 

Пример использования

“окна Hamming”:

  • пусть сигнал имеет вид:
  • тогда результат спектрального анализа при использовании «окна Hamming»:

после сглаживания

истинный сигнал

Проанализируем приведенные

результаты:

Таким образом:

  • при использовании «окна Hamming» уровень боковых лепестков которого составляет -42 дБ, мы хорошо видим сигнал на частоте 220 Гц, и также слабозаметные составляющие на частоте 240 Гц
  • сигнал на частоте 240 Гц по уровню ниже боковых лепестков спектра «окна Hamming», поэтому он заметен очень слабо
  • применение «окна Hamming» улучшает спектральные характеристики дискретного сигнала:

при выполнении преобразования Фурье или при спектральном анализе «окна Hamming» уменьшает нарушения непрерывности колебаний обрезанной формы и таким образом снижается спектральная утечка

  • «окна Hamming» уменьшает амплитуду непрерывности на границах каждого периода

Сравнение 2х фрагментов

  • пусть X[1..N] и Y[1..N] -

массивы чисел, одинакового размера N, содержащие значения спектральной

мощности первого и второго фрагментов соответственно

  • тогда мера сходства между ними вычисляется по следующей формуле:

Сравнение с эталонными образцами

  • основным параметром, используемым для идентификации, является мера сходства двух звуковых фрагментов
  • для ее вычисления необходимо сравнить спектрограммы этих фрагментов

при этом сначала сравниваются спектры, полученные в отдельном окне, а затем вычисленные значения усредняются

NB !

данный способ вычисления меры сходства двух фрагментов представленных в виде спектра является самым оптимальным для задачи идентификации человека по его голосу

Пример:

где Mx и My - математические ожидания для массивов X[] и Y[] соответственно, вычисляющиеся по следующей формуле:

  • пусть входной сигнал: Х = {11, 2, 3, 15, 17, 23, 0, 10, 11, 17 }
  • эталонный сигнал: У = {11, 2, 10, 17, 15, 21, 0, 10, 11, 17 }
  • тогда  fxу = 1

Повышение качества распознания

Использование моделей гауссовых смесей для задачи распознавания диктора по голосу улучшает качество распознавания.

Смеси гауссовых моделей для распознавания диктора

Реализация алгоритмов оценки параметров моделей.

Модель гауссовых смесей представляет собой взвешенную сумму M компонент и может быть записана выражением

Цель алгоритма оценки параметров модели — это при заданном обучающем высказывании диктора оценить параметры модели λ, которые наилучшим образом соответствуют распределению векторов признаков обучающего высказывания. Существует несколько способов оценки параметров модели, но наиболее популярным и широко используемым является метод оценки максимального правдоподобия.

где - это -мерный вектор случайных величин;

— функции плотности распределения составляющих модели;

— веса компонентов модели;

Цель оценки максимального правдоподобия — найти параметры модели, которые максимизируют правдоподобие этой модели, при заданных обучающих данных. Для последовательности обучающих векторов

Каждый компонент является -мерной гауссовой функцией распределения вида

правдоподобие модели гауссовых смесей может быть записано в виде

К сожалению, это выражение представляет нелинейную функцию от параметров λ, и ее непосредственное вычисление невозможно. Поэтому оценки параметров могут быть получены итерационно при помощи алгоритма оценки-максимизации

На каждой итерации алгоритма оценки-максимизации используются следующие формулы переоценки параметров:

Апостериорная вероятность i-го акустического класса задается выражением

Алгоритм оценки-максимизации начинается с оценки начальной модели , и затем вычисляются новые параметры модели λ, такие, что

Новая модель затем становится начальной моделью для следующей итерации, и процесс переоценки параметров повторяется, пока не будет достигнут некоторый порог сходимости.

λ

Существуют две проблемы при обучении смесей гауссовых моделей — это

  • выбор числа компонентов модели
  • инициализация параметров моделей.

Не существует теоретического решения этих задач.

Существует две причины использования моделей гауссовых смесей для идентификации диктора.

Вторая

Первая

интуитивное предположением того, что отдельные компоненты модели могут моделировать некоторое множество акустических признаков/событий. Можно предположить, что акустическое пространство голоса диктора может быть характеризовано множеством классов, представляющих некоторые фонетические события/звуки как гласные, фрикативные и т.д. Эти акустические классы отражают некоторые общие, но особенные для каждого диктора конфигурации голосового тракта, и поэтому они эффективны для идентификации диктора. Спектр акустического класса может быть представлен вектором математического ожидания, а изменение среднего спектра может быть представлено ковариационной матрицей. Предполагая, что векторы признаков не зависимы друг от друга, плотность наблюдения векторов, образующих эти классы, можно считать смесью гауссовых

распределений.

Для идентификации диктора по голосу группа дикторов

представляется набором моделей гауссовых смесей

  • Цель идентификации — найти модель диктора, которая имеет наибольшее значение апостериорной вероятности для заданного высказывания:

эмпирическое наблюдение, что линейная комбинация гауссовых распределений может представлять большое число классов акустических признаков. Одна из сильных сторон смеси гауссовых моделей та, что эти модели могут очень точно аппроксимировать произвольные распределения. Классическая модель представления диктора при помощи одного гауссова распределения описывается при помощи позиции распределения (вектора математических ожиданий) и формой распределения (ковариационной матрицей). Модель векторного квантования представляет диктора при помощи дискретного множества кластеров кодовой книги. В некотором смысле модель гауссовых распределений представляет собой гибрид между этими двумя моделями (векторного квантования и гауссова распределения), так как использует дискретное множество гауссовых функций. Каждая функция имеет собственную величину вектора математических ожиданий и ковариационную матрицу.

Предполагая, что все дикторы одинаково вероятны (т.е. ) и замечая, что величина значения одинакова для моделей всех дикторов, правило классификации диктора упрощается до вида

Используя логарифм и независимость между наблюдениями, система идентификации диктора вычисляет

Инициализация параметров

модели

При обучении модели гауссовых смесей существует проблема инициализации параметров модели перед началом процесса обучения. Алгоритмы обучения не гарантируют нахождение глобального максимума в пространстве векторов обучения и поэтому результат обучения системы существенно зависит от начальных значений параметов системы.

Рассмотрим метод инициализации параметров модели на основе векторного квантования.

При векторном квантовании N-мерный вектор параметров наблюдения отображается в N-мерный вектор Этот процесс называется квантованием.

Множество векторов называется кодовой книгой преобразования или просто кодовой книгой.

L— размер кодовой книги, — множество кодовых векторов.

Для построения такой кодовой книги N-мерное пространство случайного вектора

разделяется на L областей или ячеек и с каждой такой ячейкой связывается вектор

При квантовании вектора квантователь назначает кодовый вектор если x попадает в область

Для построения кодовой книги чаще всего используется алгоритм K-средних, в котором используется среднеквадратичное отклонение в качестве меры искажения:

Каждый компонент модели гауссовых смесей можно представить математическим ожиданием

и ковариационной матрицей Σi, используя выражение

Предполагается, что число компонент в модели гауссовых смесей совпадает с размером кодовой книги, т.е. М=L

Тогда математическое ожидание каждого компонента инициализируется значениями элементов кодового вектора

Ковариационная матрица Σi вычисляется на основании векторов, принадлежащих i -му кластеру кодовой книги. Веса компонентов модели инициализируются числом векторов, попавших в кластер Сi . Так как веса должны удовлетворять выражению , то каждый вес нормализуется общим числом векторов ,участвующих в обучении модели.

Алгоритм K-средних разбивает пространство обучающих векторов X на L кластеров. Заметим,что кластеры кодовой книги можно рассматривать как описание событий/звуков речи. Также отдельные гауссовы компоненты можно рассматривать как описание событий речи. На основании этого предлагается использовать кодовую книгу для инициализации моделей гауссовых смесей.

Итак, основываясь на теорию и простые примеры, мы разобрали основные этапы Идентификации человека по голосу, такие как:

  • фильтрация шумов
  • спектральное преобразование сигнала
  • фильтрация спектра
  • наложение окна Кайзера
  • сравнение

Спасибо за внимание.

Модели Гауссовых Смесей демонстрирует уровень распознавания, сравнимый, а иногда и превосходящий уровень других методов, описанных в литературе. Дальнейшие исследования в этой области могут быть направлены на разработку быстрых алгоритмов обучения моделей гауссовых смесей и на разработку алгоритмов адаптации к каналу звукозаписи и окружающей среды.

  • усвоив полученные знания, в sci lab я рассмотрела пример фильтрации
  • в приложении А содержаться сама программа и файл.wav

Заключение

Уникальность человеческого голоса

Голос человека изменяется

с годами:

  • к старости часто тембр голоса меняется в связи с износом голосовых связок, заболеваниями горла и т.п.
  • человек может потерять(удалить) ряд зубов, влияющих на его произношение
  • в то же время навыки движения артикуляторных органов в основном сохраняются
  • это приводит к необходимости периодически обновлять хранящийся в системе эталон речи;

М. и Ж.

  • женский голос отличается от мужского не только высотой, в нем меньше формант , чем в голосе мужском

это области усиленных частот

  • у женщин три форманты, а вот у мужчины – четыре
  • женский голос на октаву выше
  • в среднем, именно поэтому он хорошо различим на фоне шумов (объявления в аэропортах и на вокзалах делаются, как правило, женским голосом)

на рисунке видно, почему так происходит: это следствие того, что длина ротоглоточного резонатора у женщин меньше, чем у мужчин. В более короткой трубке возникает меньше пиков-формант.

Learn more about creating dynamic, engaging presentations with Prezi