Нейромережу навчили реалістично озвучувати панорамні знімки
Київ • УНН
КИЇВ. 1 березня. УНН. Американські розробники створили алгоритм, здатний самостійно додавати на панорамні знімки звуки від об’єктів, таких як автомобілі і люди. При аналізі знімка алгоритм враховує розташування об’єктів на ньому і має в своєму розпорядженні джерела звуку відповідним чином, завдяки чому користувач може зрозуміти звідки виходить той чи інший звук, розповідають автори статті, яка буде представлена на конференції CHI 2019, передає УНН.
Оскільки шоломи віртуальної реальності набувають все більшого поширення, розробники програмного забезпечення приділяють більше уваги програмному забезпеченню для них, в тому числі програм для перегляду панорамних знімків. Для досягнення більшого ефекту занурення в світ на знімку інженери і програмісти пропонують різні розробки. Наприклад, Google і Disney створили експериментальні багатокамерні установки, що дозволяють створити панорамні знімки за імітацією ефекту об’ємного сприйняття. Крім того, компанії представляють шолом віртуальної реальності з усе більш якісними екранами та іншими візуальними технологіями, наприклад, підтримкою фовеальній рендеринга. Однак всі ці розробки націлені на поліпшення візуального сприйняття, тоді як в області звуку в VR-пристроях подібних робіт набагато менше.
Лап Фай Юй (Lap-Fai Yu) з Університету Джорджа Мейсона і його колеги створили алгоритм, що дозволяє додавати на панорамні знімки реалістичні звуки, розташування і тип яких відповідає об’єктам на знімку. Єдині дані про реальний світ, зображеному на знімку, які отримує алгоритм — це сам панорамний 360-градусний знімок. Звуки, які алгоритм накладає на панораму, не заносяться під час її зйомки, а беруться з бази даних, складеної авторами. Вона складається з 512 аудіозаписів, розбитих на два типи — фонові звуки, такі як звуки моря або вулиці, а також звуки від конкретних об’єктів, наприклад, розмови людей, шум автомобілів або звуки від тварин. Всього в обох типах зібрані звуки від об’єктів приблизно 50 типів, кожному з яких присвоєно відповідна позначка.
ЧИТАЙТЕ ТАКОЖ: Український проект віртуальної реальності показали на книжковій виставці у Франкфурті
Під час аналізу знімка алгоритм спочатку визначає тип оточення, наприклад, вулиця, пляж або ліс, і привласнює відповідну мітку для накладення фонових звуків. Для цього він нарізає панораму на десять частин, визначає тип оточення для кожної з них, а потім привласнює всьому знімку найбільш часто зустрівся під час класифікації тип. Потім сверточное нейромережа, навчена на відомому датасета різних об’єктів COCO, приступає до більш ретельного аналізу і визначає на знімках окремі об’єкти і присвоює їм мітки, відповідні їх типу. Після цього алгоритм визначає не тільки просторове розташування цих об’єктів, а й розраховує їх відстань від центру панорами. Для цього користувачеві необхідно один раз ввести відстань до одного з об’єктів, після чого алгоритм буде використовувати його в якості калібрувальних даних. Завдяки цьому звуки від об’єктів, розташованих далеко від центру, будуть тихіше.
Після того, як нейромережа розмістила всі об’єкти і розрахувала їх розташування, користувач може запустити програму для перегляду панорам. У ній можна бачити саму панораму, а також чути звуки всієї сцени і звуки конкретних об’єктів, взяті з бази даних. При використанні шолома віртуальної реальності людина сприймає ці звуки об’ємними завдяки тому, що при русі голови розташування їх джерела змінюється щодо людини, як і в реальному світі.
ЧИТАЙТЕ ТАКОЖ: Facebook представила окуляри віртуальної реальності Oculus Quest
У 2015 році американські дослідники навчили нейромережу озвучувати ролики без звуку, на яких користувачі вдаряють по об’єктах різних типів і матеріалів. Оскільки під час навчання алгоритм отримував ролики зі звуком, після цього він навчився самостійно підбирати найбільш підходящий звук для “німих” роликів.
Як повідомляв УНН, Microsoft представила друге покоління шолома доповненої реальності HoloLens.