Алгоритм Tacotron 2, який представлений командою розробників Google за участю Джонатана Шена, працює на основі двох нейронних мереж.
Друкована версія конвертується в спеціальну Tacotron-спектрограмму, в якій розподіляються ритм і наголоси, а слова генеруються в аналогу WaveNet. Крім того, додана система збору даних для навчання нейромережі.
ЧИТАЙТЕ ТАКОЖ: Штучний інтелект NASA знайшов нову планету у системі Кеплер-90
Аудіозапис справді схожий на мову живої людини. Темп мовлення звучить досить переконливо, а основні затримки відбуваються на словах з незвичайною вимовою. Щоправда, частина слухачів у коментарях стверджує, що деякі слова система вимовляє "ламано".
Зразки роботи Tacorton 2 можна прослухати на офіційному сайті Google. Ця технологія, швидше за все, одразу почне використовуватися в продуктах компанії.
Однією з основних проблем нового алгоритму є відсутність регулювання тону мови. Не можна передбачити, яка фраза буде виголошена піднесено, а яка — грубо.
Повідомляється, що Tacotron 2 працює ефективніше за своїх попередників Tacotron і WaveNet. Попередні системи генерації мови мали ряд істотних недоліків. WaveNet видавала дуже різкі звуки. Tacotron не міг видавати повноцінний "мовний продукт".