Алгоритм Tacotron 2, который представлен командой разработчиков Google с участием Джонатана Шена, работает на основе двух нейронных сетей.
Печатная версия конвертируется в специальную Tacotron-спектрограмме, в которой распределяются ритм и ударения, а слова генерируются в аналога WaveNet. Кроме того, добавлена система сбора данных для обучения нейросети.
ЧИТАЙТЕ ТАКЖЕ: Искусственный интеллект NASA нашел новую планету в системе Кеплер-90
Аудиозапись действительно похож на язык живого человека. Темп речи звучит достаточно убедительно, а основные задержки происходят на словах с необычной произношением. Правда, часть слушателей в комментариях утверждает, что некоторые слова система произносит "ломано".
Образцы работы Tacorton 2 можно прослушать на официальном сайте Google. Эта технология, скорее всего, сразу начнет использоваться в продуктах компании.
Одной из основных проблем нового алгоритма является отсутствие регулирования тона речи. Нельзя предсказать, какая фраза будет произнесена возвышенно, а какая - грубо.
Сообщается, что Tacotron 2 работает эффективнее своих предшественников Tacotron и WaveNet. Предыдущие системы генерации языка имели ряд существенных недостатков. WaveNet выдавала очень резкие звуки. Tacotron не мог выдавать полноценный "языковой продукт".