Мои Конспекты
Главная | Обратная связь

...

Автомобили
Астрономия
Биология
География
Дом и сад
Другие языки
Другое
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Металлургия
Механика
Образование
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Туризм
Физика
Философия
Финансы
Химия
Черчение
Экология
Экономика
Электроника

Образование согласных звуков





Помощь в ✍️ написании работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

В отличие от гласных звуков согласные отличаются гораздо большим разнообразием способов звукообразования, что усложняет их анализ и распознавание, и соответственно затрудняет работу звукорежиссеров с речевыми и вокальными сигналами. Однако именно согласные требуют особого внимания при звуковой обработке, поскольку в речи они несут основную смысловую нагрузку.

Во-первых, при образовании согласных могут использоваться все источники звука и их сочетания: фонация, турбулентный шум, импульс.

Во-вторых, месторасположение источника звука также может сильно варьироваться: если при образовании гласных резонаторы всегда находятся впереди источника звука, поскольку положение голосовых связок закреплено в гортани, то при образовании согласных источник звука может находиться в любом месте тракта (например, у зубов для звука "с"; в задней нёбной части для звуков "г", "к" и др.).

В-третьих, при образовании согласных чаще используется подключение дополнительной носовой полости (в русском языке вообще нет носовых гласных, только согласные "м", "н").

Кроме того, они отличаются значительно более короткими стационарными периодами (служат как бы переходом от одной гласной к другой), и значительно большим разнообразием спектров. Средняя длительность гласных звуков 0,15 с, средняя длительность согласных 0,08 с.

При создании согласных звуков процесс образования формантных областей значительно усложняется.

Рис. 2 Осциллограммы и спектрограммы шума при образовании глухих согласных

Поскольку источник возбуждения (вибратор) может располагаться в любом месте голосового тракта, то в этом случае резонансные полости располагаются как перед источником, так и позади него.

Резонансы полости перед источником создают пики в выходном сигнале, такие резонансы называются "полюсами" (формантами); резонансы задних полостей называются "нулями" передаточной функции, и проявляются в виде провалов. Модель тракта для согласных "к", "п", "т" и соответствующая передаточная функция тракта показана на рисунке 3. На графике отчетливо видны пики (полюса) и провалы (нули).

Когда нули и полюса находятся близко к друг к другу, происходит их нейтрализация, и на выходной характеристике не видно ни нулей, ни полюсов. В таком случае они называются "связанными".

Для описания процессов образования согласных звуков вводится понятие локусной формантной картины. При образовании гласных звуков передаточная функция тракта, как уже было отмечено выше, полностью зависит от структуры ее формант (F-картины), которые в процессе беглой речи непрерывно изменяются, поскольку непрерывно перестраиваются артикуляционные органы. Эта плавность изменения конфигурации речевого тракта и его резонансных частот имеет место и при произнесении согласных звуков, только эти резонансы не всегда видны в передаточной функции.

Под локусной F-картиной понимается совокупность резонансов (формант) ротовой полости тракта, которая соответствует положению артикуляционных органов при произнесении данного согласного звука. Таким образом, локусы – это те форманты, которые должны быть при данной конфигурации тракта, независимо от того, слышны они или нет. Их положение можно восстановить из спектрограмм сигнала, и оно имеет существенное значение для процессов восприятия согласных.

Артикуляционные возможности речевого тракта при образовании звуков чрезвычайно разнообразны, и могут быть использованы для создания огромного многообразия звуков. Однако для речи используется ограниченный набор звуков (количество фонем в разных языках мира в основном не превышает 50…70). Такой разрыв между возможностями голосового аппарата и его применением объясняется с помощью квантальной теории, в соответствии с которой из всех звуков в речи используются только те, которые создают достаточно четкие слуховые контрасты и легко различимы слуховой системой (т.е. речь была приспособлена к слуху). Например, гласные "и", "у", "а" резко контрастируют на слух, поэтому они используются почти во всех языках мира. Поэтому для разных звуков для речи были отобраны те виды артикуляции, которые создают существенные акустические и слуховые различия.

Рассмотренные выше механизмы звукообразования с учетом квантальных артикуляционно-акустических и слуховых отношений и лежат в основе классификации звуков речи, краткое ознакомление с которой необходимо для анализа акустических характеристик речи и их связи с фонетическими признаками в процессе слухового восприятия и распознавания.

Рис. 3 Форма голосового тракта и спектры звуков "к", "п", "т" (точкой отмечено место расположения источника шума)

Классификация звуков речи
В основе классификации всех звуков речи, участвующих в различении слов, лежит классификация Международной фонетической ассоциации (МФА), основанная на артикуляционных признаках. Однако, поскольку все звуки, с одной стороны, представляют собой семиотические знаки, создаваемые органами речи, а, с другой, они представляют собой акустические сигналы, восприятие которых создает сложные слуховые образы, существуют классификации, основанные на акустических признаках. Признаки, используемые в классификации МФА, делятся на группы, в зависимости от того, какой из нижеперечисленных процессов они описывают:
- способы формирования воздушного потока – генерации (инициации);
- способы участия голосовых связок в образовании звука – фонации;
- способы формирования структуры вокального тракта – артикуляции.

Все звуки речи можно разделить на две большие группы: гласные и согласные, существенно отличающихся друг от друга по всем вышеперечисленным признакам.

Поскольку согласные звуки несут основную смысловую нагрузку в тексте речи, а гласные – основную эмоциональную нагрузку, то разное количественное сочетание этих звуков в разных языках определяет различие в избыточности речи, и разные требования к их обработке в каналах звукопередачи и звукозаписи.

Классификация гласных
При образовании гласных звуков всегда используется один способ формирования воздушного потока (генерации или инициации): модуляция потока воздуха за счет колебаний голосовых связок (фонация), поэтому этот признак не может использоваться для их классификации.

В основе классификации гласных лежат другие признаки.

Дополнительная тембровая окраска гласных, которая используется в разговорной и вокальной речи требует сложной вокальной артикуляции с дополнительными движениями, модифицирующими свойства вокального тракта. Наконец, при создании гласных могут использоваться такие признаки как:
- долгота (долгий/короткий) – в русском языке они не несут смыслового различия, а в других языках, например, английском, это существенный различительный признак.
- напряженность (напряженный/ненапряженный) – этот различительный признак также используется в ряде языков. Ненапряженные гласные отличаются меньшей длительностью и интенсивностью, некоторым сдвигом в артикуляции.

Кроме чистых гласных, во многих языках используются сложные гласные, где происходит плавный переход от одного типа артикуляции к другому. Если в этом участвуют два гласных, то такой звук называется дифтонгом. Например, в русском языке: "я" [йа], "ю" [йу]. Существуют сочетания, где используются три звука (трифтонги).

Классификация согласных
Артикуляция согласных звуков связана с созданием препятствия на пути воздушного потока в различных частях голосового тракта. Кроме того, при образовании согласных используются все три типа генерации (инициации) звука: фонация, турбулентный шум и звуковой импульс (взрыв) и их всевозможные сочетания. Поэтому классификация согласных осуществляется по всем трем вышеперечисленным критериям.

По способам генерации
Основной способ создания воздушного потока у большинства согласных – легочный выдыхательный механизм (как и у гласных).

По способам артикуляции
При классификации по этим способам используются следующие основные признаки: способ образования преграды, и место ее образования.

Образование согласных может сопровождаться дополнительными сложными артикуляционными движениями. Например, можно выделить согласные, которые образуются с образованием двойной преграды (их называют иногда двухфокусными) – "ш", "ж"; если эта вторая преграда образуется за счет сближения губ, то такие согласные называются лабиальными, например, английское "w".

Кроме того, имеются согласные с дополнительной артикуляцией, например, широко распространенные в русском языке мягкие согласные "л'", "м'", которые образуются путем наложения дополнительной язычной артикуляции [и]-образного типа; этот процесс называется палатализацией.

Наконец, согласные могут различаться по длительности (долгий/краткий) и степени напряженности артикуляции (сильный/слабый). В русском языке они не несут смыслоразличительных функций.

Кроме того, все согласные, при образовании которых не образуется сильного турбулентного шума, потому что при их образовании имеется дополнительный проход для воздуха, объединяются под названием "сонорные". К их числу относятся носовые согласные ("м", "н"), аппроксиматы ("л", "р") и полугласные "й".

Все вышесказанное относится к отдельным звукам, но в беглой речи имеет место процесс коартикуляции. В процессе артикуляции любого звука имеется три фазы:
- подготовительная (экскурс), когда органы речи начинают устанавливаться в исходную позицию;
- стационарную, когда все органы (язык, губы и др.) находятся в точной позиции, соотвествующей данному звуку;
- рекурсия, когда органы речи начинают перестройку для следующего звука.

Если бы для каждого звука все эти позиции точно выдерживались, как при четком произношении отдельного звука, то речь происходила бы в слишком медленном темпе. При быстрой речи (14…18 звуков в секунду), происходит переслаивание этих фаз между соседними звуками. Этот процесс влияния артикуляции соседних звуков друг на друга называется коартикуляцией. При этом на артикуляционное положение органов речи для данного звука накладываются положения (движения) органов речи, соответствующие последующему звуку.

Эти процессы коартикуляции в беглой речи существенно влияют на акустические характеристики речи и процессы ее слухового распознавания, о чем мы поговорим в следующих статьях.

 

 

 

 

  Часть 17.3 Слух и речь, ч. 3 Акустические характеристики речиИрина Алдошина Речевой сигнал имеет двойственную природу – с одной стороны, это обычный акустический сигнал, который представляет собой процесс распространения энергии акустических колебаний в упругой среде. Как любой акустический сигнал, он может быть представлен в виде звуковых волн, представляющих собой распространение процессов сжатия и разряжения частиц среды, формы фронтов которых зависят от свойств источника и условий распространения. Поэтому, как и другие акустические сигналы, речь характеризуется определенным набором объективных характеристик: зависимостью звукового давления от времени (временной структурой звуковой волны), длительностью звучания, спектральным составом, местом расположения источника в пространстве и пр. С другой стороны, речь как физическое явление вызывает определенные субъективные слуховые ощущения (громкости, высоты, тембра, локализации, маскировки и др.), именно проблемам их взаимодействия и были посвящены предыдущие статьи по психоакустике. Речевой сигнал подвергается такой же процедуре обработки в слуховой системе, как и любой другой акустический сигнал, т. е. на основе его анализа формируются те же слуховые ощущения – например, восприятие речи на абсолютно незнакомом языке ничем не отличается от восприятия окружающей акустической информации – шума, свиста, щелчков и др. Однако если человек воспринимает речь на языке, которому он был предварительно обучен, то наряду с обработкой чисто акустической информации (громкости, высоты, тембра и пр.) происходит фонетическая, а вслед за ней и семантическая расшифровка информации, для чего подключаются специальные отделы головного мозга. На протяжении уже многих десятилетий, и особенно интенсивно в последние годы, в связи с развитием технологии и систем автоматического распознавания и синтеза речи, изучаются акустические характеристики речевых сигналов, и предпринимаются попытки установления связи между акустическими параметрами и фонетическими признаками речевых сигналов, т.е. попытки понять, как мозг, получив информацию о характере изменения звукового давления во времени, извлекает информацию о смысловом содержании речи. В этом направлении получено уже очень много результатов: количество книг и статей по этим проблемам исчисляется тысячами, в качестве примера могу привести одну из последних книг знаменитого ученого M. Шредера "Computer Speech: Recognition, Compression, Synthesis" (Берлин, 1999 г.). Однако изучение чисто акустических характеристик речевых сигналов представляет значительную самостоятельную ценность для систем звукозаписи, радиовещания, компьютерной обработки речи и др., т.е. для всех процессов записи, обработки, передачи и воспроизведения речевых сигналов, которые принципиально важны для работы звукорежиссера. Поэтому начнем с анализа акустических
Рис. 1. Уровнеграмма речевого сигнала

характеристик речевых сигналов, а затем попробуем остановиться на их связи с фонетическими признаками, и на существующих в настоящее время теориях слухового восприятия и обработки речи.
Анализ акустических характеристик речевого сигнала начинается с записи изменения звукового давления во времени с помощью микрофона – эта зависимость мгновенного значения звукового давления от времени представляется в виде осциллограммы. Обычно в техническим приложениях, в частности при компьютерной обработке, происходит запись усредненного за некоторый отрезок времени уровня звукового давления от времени, эта зависимость называется уровнеграммой. Пример уровнеграммы слова "welcome" показан на рисунке 1.

Вид уровнеграммы существенно зависит от времени и способа усреднения – во всех звуковых программах об этом запрашивается пользователь, (правда, как показывает практика, он не всегда об этом догадывается). Способ усреднения может быть равномерный или экспоненциальный (например, uniform или exponent в программе Sound Forge). Обычно выбирается время усреднения для пиковой уровнеграммы 1…2 мс, для обьективной 15…20 мс, и для субьективной 150…200 мс. В первом случае
получается точная запись пиковых значений сигнала; во втором отсутствуют излишние мелкие детали (это время обычно используется при компьютерной обработке речи); наконец, в последнем выбрано время, в течение которого слуховая система опознает тембр.

Если средние значения сигналов сохраняются равными на определенных отрезках времени, то такие сигналы называются стационарными. Звуковые сигналы (речевые и музыкальные) являются сигналами квазислучайными и нестационарными, хотя для речи можно указать приближенно такие отрезки
времени (порядка 2…3 мин), при которых речевые сигналы можно считать квазистационарными.
Полученные уровнеграммы позволяют провести статистический, корреляционный и спектральный анализы речевого сигнала, что можно делать с помощью обычных аудиопрограмм, а также с помощью специальных программ, предназначенных именно для речевых сигналов с учетом их специфики: Ultra- sound (Австралия), CSRE (Англия), Viper (Германия), Praat (Голландия), Phonograph (Россия) и др.
Поскольку речевой сигнал, как и музыкальный, представляет собой сигнал квазислучайный, т.е. предсказать его будущие значения можно только с определенной вероятностью, то для анализа его характеристик могут быть применены все известные методы статистического анализа. При этом исследуется распределение во времени следующих величин:
мгновенных значений и уровней речевого сигнала;
длительностей непрерывного существования разных уровней;
длительностей пауз;
распределение максимальных уровней по частоте;
распределение текущей и средней мощности;
спектральной плотности мощности.

Кроме того, могут быть определены такие важные для практики звукозаписи параметры, как динамический диапазон и пик-фактор, вычислено распределение основной фонационной частоты, спектральное распределение формант и др.

Знание статистических характеристик речевых сигналов необходимо для оптимальной организации систем звукового вещания, систем звукозаписи, современных систем сжатия речевого сигнала и др. Исследование этих характеристик для русской речи было выполнено в работах Фурдуева, Римского-Корсакова, Сапожкова, Белкина, Шитова и др.

Непосредственно из анализа уровнеграмм речевого сигнала прежде всего может быть получена информация о распределении мгновенных значений и уровней звукового сигнала во времени, и длительности их превышения установленного значения. Это позволяет определить динамический диапазон и пик-фактор речевого сигнала, а также установить распределение длительности пауз,
отрезков непрерывных речевых звучаний, распределения текущей и средней мощности сигнала во времени и др.

Рис. 2. Распределение плотности вероятности мгновенных значений речевого сигнала. 1 – дикторский текст; 2, 3, 4 – художественное чтение

Если очень коротко остановиться на этих данных, то можно отметить, что распределение плотности вероятности мгновенных значений речевого сигнала, показанное на рисунке 2, носит экспоненциальный характер, и существенно отличается от нормального распределения, которому подчиняется например, джазовая или хоровая музыка. Статистический анализ длительности непрерывного существования разных уровней в речевом сигнале показывает, что наиболее вероятными являются выбросы (пики) длительностью 12…17 мс, из чего следует, что максимальные уровни сигнала достигаются в кратковременные промежутки времени.

Распределение длительности пауз в речевых сигналах также носит случайный характер, их средняя длительность для речи составляет 0,4 с, а суммарная длительность пауз достигает 5% от времени передачи. Наиболее важная информация, которую позволяет получить анализ уровнеграмм – это определение динамического диапазона речевого сигнала и его пик-фактора. Динамическим диапазоном звукового сигнала называется разница между его квазимаксимальным и квазиминимальным уровнем D = Lmax – Lmin. Под квазимаксимальным Lmax понимается такой уровень сигнала, длительность пиков выше которого составляет 1% (для речи ) и 2% (для музыки) от общей длительности отрезка сигнала. Аналогично определяется квазиминимальный уровень Lmin (относительная длительность составляет 99% и 98%). Значения пик-фактора определяются как разница между квазимаксимальным и средним уровнем сигнала D = Lmax – Lср.

Значения динамических диапазонов речевых сигналов находится в пределах 35…45 дБ, значения пик-фактора 10…12 дБ.

Условия Расстояние (см) Среднее звуковое давление, Па (дБ) Пиковое значение мощности (мВт) Пик-фактор (дБ) Область максимальных уровней (Гц)
Речь телефонная 2,5        
средний уровень 2 (100) 0,24 250-500
громкий 4 (106) 500-1000
тихий 1 (94) 0,025 250-500
Разговор 0,05 (68) 0,5 250-500
Оратор 0.1 (74) 2.0 250-500

Некоторые данные для речевого сигнала по развиваемым уровням звукового давления и мощности приведены в таблице.

Если пересчитать уровни звукового давления для телефонной речи на расстояние 100 см, то получатся следующие значения: 68, 74, 62 дБ.

Следует отметить ,что для вокальной речи (пения) эти уровни существенно выше, и могут достигать значений 115 дБ на 1 м. В старом итальянском руководстве по подготовке певцов было написано, что если певец может развивать уровень от 110 дБ и выше, то он может петь в "Ла Скала", если ниже 100 дБ, то в камерном ансамбле, если ниже 90 дБ, то не надо петь вообще… Интересно, сколько народу осталось бы петь на эстраде сегодня при таком критерии?

Корреляционный анализ речевого сигнала позволяет рассчитать функцию текущей автокорреляции и установить предел однородности, которые определяются временем, в течение которого функция
автокорреляции достигает некоторого предельного значения, независящего от времени запаздывания. Для речи этот предел составляет 3…5 с.

Спектральный анализ речевого сигнала, как всякого непрерывно изменяющегося во времени акустического сигнала, может быть выполнен на основе записанной уровнеграммы с помощью преобразования Фурье. В любом музыкальном редакторе предусмотрена операция быстрого преобразования Фурье (БПФ, FFT), позволяющая из выделенного отрезка уровнеграммы рассчитать его спектр.

Анализ спектров речевых сигналов позволяет установить форму огибающей и выделить области формантных частот. Поскольку место и ширина формантных областей принципиально важны для распознавания речи, то для точного определения формантных полос в речевом сигнале созданы специальные программы на основе метода линейного предсказания или кепстрального анализа, позволяющие производить их автоматическое распознавание.

Кроме того, поскольку интонация речевого высказывания определяется изменением частоты фонации, то выделение основной частоты фонации из записанных уровнеграмм и характер ее зависимости от времени имеют принципиально важное значение.

Рис. 3. Спектральное распределение средней мощности речевого сигнала

Для интегральной оценки свойств речевого сигнала может быть рассчитан спектр мощности и построено распределение спектральной плотности мощности, которая для речевого сигнала показана на рисунке 3, что позволяет установить, что основная энергия речевого сигнала (В) сосредоточена в полосе 250…1000 Гц, спад в сторону высоких частот происходит со скоростью 7 дБ/окт после 500 Гц.

Анализ спектров дает возможность построить очень важную для практики звукозаписи кривую распределения амплитудного состава речи. Пример для диапазона 1000…1400 Гц показан на рисунке 4, (для других диапазонов распределения аналогичные). Кривая распределения показывает, что более 80% в речевом потоке составляют амплитуды с уровнем 45 дБ, и только менее10% амплитуды с уровнями 70 дБ и выше. Это значит, что при обработке речевых фонограмм стремление "вычистить шумы" может привести к потере значительной части информации, поскольку низкие уровни амплитуд связаны в основном с согласными звуками, а они являются носителями основной смысловой нагрузки в речи.

Рис. 4. Амплитудный состав речи в полосе 1000 - 1400 Гц

Кроме одномерных спектров (амплитуда-частота), современные алгоритмы позволяют построить для любого речевого сигнала его трехмерные (кумулятивные) спектры (например, ЗD-Frequency Analysis в редакторах Wave-Lab и др.), где по одной оси отложено время, по другой частота, по третьей – амплитуда. (Рисунок 5). Такие спектры позволяют получить значительно больше информации не только о спектральном составе сигнала, но и характере изменения его во времени. Трехмерные спектры широко используются в практике изучения различных акустических сигналов, однако для анализа речевых сигналов наибольшее распространение имеют трехмерные спектры особой формы-спектрограммы.

В 1940 году в лаборатории Bell Lab (США) был построен прибор, получивший название "спектрограф видимой речи", который позволял представить спектр речи в трехмерной форме, только построенной несколько иначе, чем обычный трехмерный спектр. Это своего рода "вид сверху" на трехмерный спектр: по оси абсцисс отложено время, по оси ординат – частота, а амплитуда показана интенсивностью цвета (чем интенсивнее, тем больше амплитуда). На рисунке 6 показан пример спектрограммы того же речевого сигнала, 3D-спектр которого дан на рисунке 5.

Рис. 5. Трехмерный (кумулятивный) спектр речевого сигнала

Спектрограммы могут быть узкополосные, широкополосные и слуховые. Выбор числа семплов, т.е. выбор длительности отрезка анализируемого сигнала, определяет точность развертывания по частоте (т.е. расстояние между частотами). Невозможно обеспечить одновременно "хорошее" развертывание и по частоте и по времени, поскольку они связаны некоторым соотношением Df•Dt = const,
(по аналогии с квантовой механикой называемым "принципом неопределенности"). Чем выше точность по частоте, тем хуже развертывание по времени, и наоборот. Поэтому точность развертки по частоте зависит в обратной пропорции от длительности временного окна при преобразовании Фурье (например, при ширине развертки 100 Гц развертывание по времени будет 1/100 = 10 мс).

Рис. 6. Спектрограмма речевого сигнала

В практике анализа речевых сигналов применяется два вида спектрограмм: широкополосные и узкополосные (рисунки 7а, 7б). В узкополосных спектрограммах используется частота развертки 45 Гц, это ниже, чем самые низкие фонационные частоты в голосе, что позволяет при такой точной развертке отчетливо увидеть вдоль вертикальной оси гармоники голосового источника.

Как было сказано в предыдущих статьях, речевой сигнал – это результат "свертки" (умножения) звукового сигнала, создаваемого голосовым источником, например, за счет модуляции воздуха при колебаниях голосовых связок, и огибающей, за счет резонансных свойств голосового тракта (этим и определяется его формантная структура.

Рис. 7. а) Широкополосная спектрограмма; б) узкополосная спектрограмма

На широкополосных спектрограммах, обычно с частотой развертывания 300 Гц, отчетливо видны вертикальные полосы вдоль оси времени, связанные с появлением отдельных импульсов воздушного давления при колебаниях голосовых связок, и сильно подчеркнуты темные горизонтальные полосы, соответствующие формантам. Поэтому, в зависимости от целей, которые ставятся при анализе речевого сигнала, используются или широкополосные спектрограммы (выделяются отдельные импульсы воздуха, подчеркнуты форманты), или узкополосные, где выделяются обертоны голосового источника. При этом можно проследить изменение основной частоты фонации во времени, что имеет большое значение при оценке мелодического рисунка речи, как было отмечено выше. Кроме того, полученные значения спектров позволяют оценить распределение энергии во времени.

Однако, ни широкополосная, ни узкополосная спектрограммы не учитывают специфику спектрального анализа сигнала, который производится во внутреннем отделе периферической слуховой системы на базилярной мембране. Поэтому в последние годы с учетом новейших результатов в психоакустике была разработана методика построения "слуховых" спектрограмм. При построении этих спектрограмм используются фильтры с различными полосами пропускания, ширина которых соответствует ширине "критических полос" слуха (или ширине слуховых фильтров при спектральном анализе звуков на базилярной мембране).

Ширина критических полос зависит от частоты, эта зависимость примерно соответствует ширине третьоктавных полос. В такой спектрограмме на низких частотах (первые 4…5 критических полос) происходит узкополосная обработка сигнала по частоте. На высоких частотах критические полосы становятся значительно шире, это соответствует широкополосной спектрограмме, т.е. идет очень точное развертывание по времени.

Таким образом, слуховая спектрограмма значительно точнее отражает восприятие и обработку
речевого сигнала в слуховой системе: на низких частотах основное внимание концентрируется на отдельных гармониках, на высоких производится интегральная оценка гармоник, но зато точно
отслеживается динамика изменения их огибающей во времени – аналогично тому, как это происходит при оценке высоты тона.

В итоге, в низкочастотной области слух оценивает значение основной частоты фонации и ее первых обертонов, и по ним определяет высоту голоса; в верхней части слух точно оценивает изменение огибающей во времени, что позволяет ему выделить формантную картину, которая служит базовой информацией для верхних отделов мозга при определении фонетического значения отдельных фонем, слогов и др.

Таким образом, при анализе акустических параметров речевого сигнала в современных специализированных программах оцениваются следующие характеристики:
уровнеграмма и все связанные с ней параметры
(динамический диапазон, распределение мгновенных значений сигнала, текущая мощность и др.);
одномерный спектр (распределение

Рис. 8. Пример анализа речевого сигнала

формантных областей);
трехмерный спектр (изменение формы огибающей во времени);
спектрограммы (широкополосные, узкополосные, слуховые), из которых могут быть получены такие характеристики, как изменение основной фонационной частоты во времени, изменение формантных областей, распределение гармоник голосового источника, временная структура импульсов звукового давления и др.

Кроме того, в ряде программ предусмотрена операция расчета нелинейной маскировки составляющих речевого сигнала, удаление неслышимых компонент расчет распределения формантных полос с учетом их ширины и добротности. др. Общая картина анализа речевого сигнала, обычно производимая в современных компьютерных программах, показана на рисунке 8.

 

 

 

 

  Часть 17.4 Слух и речь, ч 4. Субъективные и объективные методы оценки разборчивости речиИрина Алдошина Как уже было отмечено в предыдущих статьях "Слух и речь", речевой сигнал имеет двойственную структуру: с одной стороны - это обычный акустический сигнал, объективные акустические параметры которого вызывают определенные субъективные ощущения. Взаимодействия между ними, в соответствии с общими психофизическими законами, неоднозначны и нелинейны. С другой стороны, речевой сигнал имеет особую структуру, в которой закодирована семантическая (смысловая) информация. Поэтому процесс слухового восприятия речи представляет собой, прежде всего, процесс расшифровки и распознавания семантического и эмоционального содержания информации, содержащейся в речевом сигнале. Исследование этого процесса, то есть того, как мозг переводит акустические признаки речевого сигнала в его фонетическое и смысловое содержание, является в настоящее время одной из самых актуальных проблем в современной науке. Современные достижения в цифровой обработке сигналов позволили достичь значительных успехов в этой области, и получить практические результаты в компьютерном распознавании и синтезе речевых сигналов. Понимание процессов слухового восприятия речевого сигнала и расшифровки его смыслового содержания являются чрезвычайно важными для практики работы звукорежиссеров, поскольку в процессе работы с речью и пением необходимо понимание того, какие признаки в них являются наиболее критичными для передачи смыслового содержания. Однако, поскольку современные технологии расшифровки и синтеза речевых сигналов появились только в последние годы и еще достаточно сложны для применения, на протяжении уже нескольких десятилетий используются интегральные методы оценки правильной передачи смысловой информации, заключенной в речевом сигнале (в т.ч. и в вокальной речи - пении) , - это методы оценки разборчивости. Поэтому остановимся на субъективных и объективных методах оценки разборчивости речи, а затем уже обратимся к расшифровке спектрограмм и современным теориям восприятия речи. Оценка разборчивости необходима при разработке и использовании различных систем звукоусиления, при оценке акустического качества помещений (театральных и концертных залов, студий, кинозалов и др.) , поскольку, в конечном итоге, качество зала определяется тем, насколько слушатели хорошо понимают смысловое содержание речи, пения и музыки. Разумеется, понимание смыслового содержания не исчерпывает всех аспектов восприятия речи - в ряде случаев не менее важным является передача ее эмоционального содержания (тембра, интонации, темпа и др.). Вопрос о связи акустических характеристик речи (особенно пения) с ее эмоциональным содержанием является чрезвычайно интересной проблемой, и о ней будет рассказано в дальнейшем. Не менее важна оценка разборчивости и для построения различных коммуникационных систем (радиовещательных, телефонных и др.) . Как показывает опыт работы звукорежиссеров, вопросы, как обеспечить хорошую разборчивость в различных залах, особенно в тех, где установлены системы звукоусиления, являются чрезвычайно актуальными. В соответствии с международными стандартами, в частности ISO/TR 4870, под разборчивостью понимается "степень, с которой речь может быть понята (расшифрована) слушателями". Под этим понимается степень, с которой слушатели могут идентифицировать (понять смысл) фраз, слов, слогов и фонем. В соответствии с этим различаются виды разборчивости: фонемная, слоговая, словесная и фразовая, которые, однако, все связаны друг с другом, и могут быть пересчитаны одна в другую. При передаче речевого сигнала происходит неизбежная потеря информации. Хотя речевой сигнал обладает определенной избыточностью, однако различные шумы, искажения и реверберационные помехи могут привести к настолько значительной потере информации, что это сделает невозможным понимание смысла речи. Следует отметить, что "слышимость" и "разборчивость речи" - это разные понятия. Речь может звучать очень громко и быть прекрасно слышна, но быть при этом совершенно неразборчивой (например, в залах вокзалов, аэропортов и др.). Поэтому для оценки разборчивости речи разрабатываются специальные методы, отличные от оценок ее громкости, и разработкой этих методов занимаются крупные международные организации: ISO, AES, IEC и др. Все известные в настоящее время методы оценок разборчивости могут быть разделены на две большие группы: субъективные экспертные методы (ГОСТ 25902-83, ГОСТ 51061-97, стандарт ANSI S3.2 и др.), и объективные методы, основные из которых: %Alcons - процент артикуляционных потерь со- гласных (percentage Articulation Loss of Consonants); AI - индекс артикуляции (articulation Index); STI - индекс передачи речи (speech transmission index); RASTI - быстрый индекс передачи речи (rapid speech transmission index); SII - индекс разборчивости речи (speech intelligibility index) и др. (стандарты ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и др.) . Остановимся на том, какие основные факторы влияют на уровень разборчивости речи в различных системах коммуникации и звукоусиления. Средние интегральные характеристики речи показаны на рисунке 1. Из них видно, что основная энергия речи сосредоточена в полосе до 2 кГц. График распределения амплитудного состава речи показывает, что более 80% звуков речи имеют уровень меньше 50 дБ, и легко могут маскироваться шумами. Среди этих звуков могут оказаться согласные звуки - самые информативные. Гласные звуки имеют основную частоту фонации в пределах 80: 250 Гц, и значительная часть их энергии сосредоточена в формантных областях в пределах 450:4000 Гц. Именно по распределению формантных областей в спектре и происходит распознавание гласных звуков. Хотя гласные звуки имеют длительность 30:300 мс, и именно в них сосредоточена основная энергия речевого сигнала, основной вклад в разборчивость вносят согласные звуки, которые имеют значительно меньшую длительность, от 10 до 100 мс. Они ниже по уровню на 27 дБ и их спектр - особенно у шумовых (С, З) и взрывных (Д, Т) согласных - расположен в основном в высокочастотной области 2:10 кГц. Ключевую роль в распознавании речи играют октавные полосы в области 1, 2, 4 кГц. Они содержат до 75% речевой информации. Особо важную роль играет октавная полоса в области 2 кГц - до 33% речевой информации. Следует отметить также, что реальные речевые источники (например, диктор) имеют характеристику направленности в пределах угла покрытия 120о в горизонтальной и 90о в вертикальной плоскостях с коэффициентом направленности Q = 2,5 в области 2 кГц. Это имеет существенное значение для разборчивости.
Рис. 1 Частотная зависимость спектральной плотности речи

Среди многочисленных факторов, влияющих на разборчивость речи, прежде всего можно выделить следующие:

1. Маскирование другими звуками, в том числе шумами в реверберирующем помещении и др. Шумы могут создаваться вентиляцией, внешними проникновениями, шумами аппаратуры, публикой, электронной аппаратурой и др.

Процент потери разборчивости зависит, прежде всего, от отношения уровня речевого сигнала к уровню шума (S/N), которое должно быть выше определенного уровня, чтобы можно было понять смысловое содержание речи. Степень маскировки шумом будет зависеть от отношения S/N и от спектрального состава шума. Для широкополосного шума (20:4000 Гц) зависимость процента словесной разборчивости от S/N показана на рисунке 2. Из него видно, что процент словесной разборчивости будет больше 80% только при отношении S/N > 12 дБ.

Рис. 2 Зависимость словесной разборчивости от отношения сигнал/шум для широкополосного маскирующего шума

Если шум узкополосный, то степень маскирования речи и потеря разборчивости зависят от частотной полосы (рисунок 3), то более "опасными", чем высокочастотные (1800:2500 Гц) шумы, являются низкочастотные шумы (135:400 Гц).

Сильное воздействие на разборчивость речи оказывает шум от других голосов (шум толпы) (рисунок 4). Поскольку этот шум сходен с речью по спектральному составу, то, как следует из графика, уровень словесной разборчивости резко снижается, особенно при увеличении числа мешающих голосов. Именно поэтому "эффект близости" (proximity effect) у направленных микрофонов, связанный с увеличением чувствительности на низких частотах при приближении микрофона к источнику звука (попадание в зону сферической волны), приводит к значительной потере разборчивости за счет маскировки низкочастотными составляющими речевого сигнала. Поэтому необходимо применение высокочастотных фильтров с крутизной 12дБ/окт и с частотой среза не ниже100 Гц.

Рис. 3 Зависимость словесной разборчивости от отношения сигнал/шум для н/ч и в/ч узкополосного шума

Влияние шумов на разборчивость речи зависит также от направления их прихода: если направления речевого сигнала и шума совпадают, то степень маскировки и, соответственно, процент потери разборчивости будет наибольшим. Слуховой системе трудно провести их разделение, но чем больше расстояние между ними, тем выше разборчивость.

2. Процесс реверберации в помещении оказывается критическим для разборчивости речи, поскольку в ту же точку, где расположен слушатель, приходят со всех сторон отраженные сигналы с похожей спектральной структурой, но с большим содержанием низкочастотных составляющих. Особенно это заметно в тех местах помещения, где расстояние дальше критического "радиуса гулкости", на котором энергия прямого сигнала равна энергии отраженных сигналов. Как известно, для каждого вида музыки и речи имеется свое оптимальное время реверберации (время, в течение которого уровень сигнала спадает на 60 дБ). Примеры для некоторых видов музыки и речи в помещениях различных объемов показаны на рисунке 5. Как видно из графика, оптимальное время реверберации для речи существенно ниже, чем для музыки, и находится в пределах 0,4:0,8 с. Прослушивание речевых сообщений в помещениях с большой реверберацией приводит к значительной потере разборчивости (например, в залах вокзалов, соборах).

Рис. 4 Зависимость словесной разборчивости от отношения сигнал/шум при воздействии других голосов

Существенную роль для повышения разборчивости играет отношение прямого звука к реверберирующему звуку на всей площади слушательских мест: чем выше уровень прямого звука по отношению к уровню реверберирующего звука, тем выше процент разборчивости. Отсюда вытекают особые требования к выбору характеристик направленности систем звукоусиления. Кроме того, следует отметить, что существенную роль играет также отношение энергии ранних отражений (прибывающих к слушателю в первые 80:100 мс), к энергии поздних отражений - именно поэтому рекомендуется установка дополнительных отражающих экранов у трибуны оратора и у сцены драматических театров.

3. Параметры тракта звукоусиления, такие, как частотный диапазон, форма частотной характеристики тракта, уровень нелинейных искажений, фазовые искажения и др., имеют существенное значение для обеспечения хорошей разборчивости речи. Для высококачественной передачи речи необходимо обеспечить частотный диапазон от 80 Гц (час-тота фонации низких мужских голосов) до 10 кГц (спектры шумовых согласных). Разумеется, определенный процент разборчивости сохраняется и при ограничении полосы пропускания, например, в полосе от 300 Гц до 3 кГц (используется в телефонной связи), хотя становятся трудно различимыми согласные звуки "т" и "д", "с" и "ф", и др.

Рис. 5 Оптимальное время реверберации для помещений разного объема

Ниже 80 Гц АЧХ должна быть резко ограничена для уменьшения уровня маскировки . В пределах указанной полосы АЧХ должна быть плоской (для музыки в некоторых системах звукоусиления делается спад к высоким частотам), но для речи это уменьшает спектральный уровень согласных, который и так мал. Кроме того, должна быть малой неравномерность АЧХ, поскольку значительные пики и провалы могут привести к потере наиболее ценной информации в диапазоне формантных областей гласных, или в области максимальной энергии согласных звуков. Выполненные за последнее время исследования показали достаточное влияние фазовых характеристик тракта на разборчивость речевого сигнала, также как и на восприятие тембра и высоты тона. Поэтому требования к линейности фазовых характеристик тракта также являются существенными.

Различные виды нелинейных искажений при обработке сигнала в системах звукоусиления могут значительно снизить разборчивость речи: например, влияние клиппирования на процент словесной разборчивости речи показан на рисунке 6. При этом появляются дополнительные гармоники, которые маскируют речь. Наиболее существенное влияние на разборчивость оказывают интермодуляционные искажения в системе, так как возникают суммарные и разностные тоны, негармонические к основному тону, что существенно маскирует речевой сигнал.

Таким образом, на разборчивость речи в различных помещениях влияют следующие основные факторы: отношение сигнал/шум, время реверберации, уровень прямого звука, отношение энергии ранних и поздних отражений, частотный диапазон системы звукоусиления, формы АЧХ и ФЧХ, характеристики направленности, уровень нелинейных (особенно интермодуляционных) искажений, равномерность покрытия площади прослушивания.

Рис. 6 Влияние клиппирования сигнала на процент словесной разборчивости речи

Для количественной оценки разборчивости речи применяются как субъективные методы (экспертные оценки), так и объективные (расчет целого ряда параметров). Хотя за последние годы введено достаточно много новых объективных критериев и созданы специальные компьютерные программы для их реализации, оценки разборчивости речи с помощью квалифицированных экспертов по прежнему остаются наиболее достоверными, и все новые объективные критерии сравниваются с ними.

Доверь свою работу ✍️ кандидату наук!
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой



Поиск по сайту:







©2015-2020 mykonspekts.ru Все права принадлежат авторам размещенных материалов.