Нейрокомп’ютерні інтерфейси дозволяють зчитувати і обробляти дані про активність головного мозку, вони, серед іншого, застосовуються для допомоги пацієнтам з втратою мови, але поки їм доступні в основному прилади, що дозволяють управляти курсором за допомогою рухів голови або очей, які працюють досить повільно в порівнянні з звичайною мовою. На початку року в Scientific Reports вийшла стаття, авторам якої вдалося навчити алгоритм відтворювати мову з мозкової активності людини при її прослуховуванні. Для цього вони використовували активність аудіторної кори, отриманої за допомогою електродів, імплантованих в мозок пацієнтів з епілепсією, при прослуховуванні окремих цифр, а потім синтезували на її основі короткі фрази. Отримана мова виявилася розбірливою в 75 відсотках випадків.
Група під керівництвом Едварда Ченга з Каліфорнійського університету в Сан-Франциско запропонувала свій метод синтезу мови по мозковій активності при русі щелепи, гортані, губ і язика. За їхніми словами, цей двоетапний метод (розпізнавання активності мозку, пов’язаної з рухом органів мови, і трансформації цих сигналів в слова) зараз дозволяє точніше синтезувати мову, ніж коли б добровольці, наприклад, думали про задані слова або навіть просто предмети, хоча такі методи теж цікавлять вчених.
Вони навчили одну рекурентну нейронну мережу розпізнавати в активності вентральної сенсомоторної кори, верхньої скроневої звивини і нижньої лобової звивини елементи руху мовного тракту, а другу мережу — розпізнавати в них акустичні параметри мови, виходячи з яких вона потім синтезувалася.
Нагадуємо, штучний інтелект навчився розпізнавати посттравматичний синдром за голосом.