Как нейросети научились передавать эмоции в голосе

Голос — это не просто набор звуков. Это ритм, тембр и интонация, которые вместе создают смысл. Первые системы синтеза речи звучали как робот из фантастического фильма 1970-х: равномерно, механически, без малейшего намёка на жизнь. Это было не просто эстетическим недостатком — монотонная речь хуже воспринимается, быстрее утомляет и плохо удерживает внимание.

Сегодня лучшие нейросетевые системы способны говорить с теплотой, напряжением, иронией, торжественностью — и делать это убедительно. Разберём, как именно это работает.

Что такое эмоция в голосе на самом деле

Прежде чем учить машину передавать эмоции, нужно было понять, из чего они состоят акустически. Исследования показали: эмоциональная окраска речи складывается из нескольких взаимосвязанных параметров.

Параметр	Что меняется	Пример
Фундаментальная частота (F0)	Высота тона, диапазон, мелодический контур	Радость — выше и шире; грусть — ниже и монотоннее
Темп и ритм	Скорость речи, длина пауз, ударения	Тревога ускоряет; усталость замедляет
Интенсивность	Громкость, динамический диапазон	Гнев — громче и резче; нежность — тише
Качество голоса	Напряжённость, придыхание, хрипота	Страх даёт придыхание; злость — напряжение
Формантная структура	Артикуляция гласных и согласных	Счастье делает гласные «открытее»

Сложность в том, что все эти параметры взаимодействуют нелинейно — и зависят ещё от языка, культуры, контекста и индивидуальных особенностей говорящего. Именно поэтому запрограммировать эмоции вручную оказалось практически невозможным.

Как это делали раньше — и почему не работало

История синтеза речи — это история борьбы с монотонностью. Каждое поколение технологий делало шаг вперёд, но упиралось в новое ограничение.

1980-е

Конкатенативный синтез

Речь собиралась из заранее записанных фрагментов. Эмоции требовали отдельной записи каждой фразы в каждой интонации — масштабировать невозможно.

2000-е

Параметрический синтез (HMM)

Скрытые марковские модели позволяли задавать параметры речи. Эмоции пытались кодировать через теги разметки — результат был искусственным и деревянным.

2016

WaveNet (DeepMind)

Первая нейросеть, генерирующая речь на уровне сырых аудиосэмплов. Качество резко выросло, но управление эмоциями оставалось ограниченным.

2018–2019

Tacotron 2 + трансферное обучение

Архитектура «текст → мел-спектрограмма → аудио» открыла возможность обучать модели на эмоционально размеченных корпусах.

2021 — настоящее время

Диффузионные модели и LLM

Эмоциональный контроль стал тонким и многомерным. Модели начали выводить нужную интонацию из контекста — без явной разметки.

Прорыв произошёл, когда модели перестали учить «как звучит злость» и начали учить «как звучит этот человек, когда злится» — разница тонкая, но решающая.
— Из исследования по эмоциональному TTS, 2023

Три подхода к эмоциональному синтезу

Современные системы реализуют контроль над эмоциями разными способами — и у каждого свои сильные стороны.

Эмоциональные метки. Явная разметка: «радость», «грусть», «нейтрально». Просто в управлении, но ограничено набором заданных классов.
Стилевые векторы (GST). Global Style Tokens — модель извлекает стиль из эталонной записи и применяет его к любому тексту.
Контекстный вывод. Нейросеть понимает эмоциональный контекст из самого текста — без каких-либо явных инструкций.
Референсное аудио. Подаётся короткий пример нужной интонации — модель воспроизводит её стиль в новом тексте.

Контекстный вывод: как модель «понимает» текст

Нейросеть обучается на огромных корпусах аудиокниг, подкастов, озвученных статей — где живые дикторы уже сделали выбор в пользу той или иной интонации. Модель не заучивает правила, а извлекает статистические закономерности: какие слова, фразы и синтаксические конструкции люди обычно произносят как-то особенно.

В итоге фраза «он ушёл, и больше не вернулся» прозвучит иначе, чем «он ушёл за молоком» — даже без единой метки в разметке.

# Генерация речи с заданной эмоциейfrom tts_model import EmotionalTTSmodel = EmotionalTTS(checkpoint="v2-emotion")

audio = model.synthesize(
    text="Это невероятно — мы сделали это!",
    emotion="joy",
    intensity=0.85,
    speaker_id=42)
audio.export("output.wav", sample_rate=22050)

Нерешённые задачи

Длинные тексты и сквозная дуга. Поддерживать единое эмоциональное развитие на протяжении нескольких абзацев — нарастание напряжения, кульминацию, спад — для моделей до сих пор сложно.
Культурные различия. Одна и та же эмоция звучит по-разному в разных языках. Японская сдержанность против итальянской экспрессивности — модели не переносят стиль автоматически.
Микровыражения. Тончайшие изменения — еле заметная дрожь в голосе, крошечная пауза перед трудным словом — пока даются хуже, чем явные эмоциональные маркеры.
Субъективность оценки. «Звучит естественно» — неизмеримо. Метрики вроде MOS дают лишь усреднённую оценку, не учитывая индивидуальное восприятие.

Часто задаваемые вопросы

Как работает Global Style Token (GST)?

Global Style Token — это набор обучаемых эмбеддингов, каждый из которых кодирует определённый акустический стиль. Во время синтеза модель вычисляет взвешенную сумму этих токенов через механизм внимания. В отличие от жёстких меток, GST позволяет плавно смешивать несколько стилей в нужных пропорциях.

Какие данные нужны для обучения?

Для базовой модели с 5–7 эмоциями достаточно 10–15 часов записей на диктора с равномерным распределением по классам. Важно: записи должны быть студийного качества (SNR выше 40 дБ) и охватывать разнообразный текстовый контент.

Как измеряют качество эмоционального синтеза?

Основная метрика — MOS (Mean Opinion Score) по шкале 1–5 через аудиторский тест. Для автоматической оценки используют классификатор эмоций: насколько точно распознаётся заданная эмоция в синтезированном аудио. Дополнительно измеряют EER и Fréchet Audio Distance.

Почему это важно для озвучки контента

Новостная статья, рекламный ролик и образовательный курс требуют принципиально разной интонации. Новость — выверенная, авторитетная, без лишней экспрессии. Реклама — вовлекающая, с нужными акцентами. Курс — тёплый, поддерживающий, с чёткими ударениями на ключевых мыслях.

Именно поэтому мы рассматриваем эмоциональный контроль не как «фичу», а как базовое требование к качественной озвучке. Технологии уже позволяют это делать — вопрос лишь в выборе инструмента и качестве его настройки.

Эмоция в голосе — это не декорация поверх информации. Это сам способ её передачи. Нейросети научились это понимать.