OpenAI представила новую языковую модель ChatGPT-4o, которая работает с аудио, изображением и текстами в режиме реального времени. Об этом компания объявила в своем блоге, передает УНН.
Детали
До GPT-4o голосовые разговоры с ChatGPT происходили со средней задержкой 2,8 секунды (GPT-3,5) и 5,4 секунды (GPT-4). Новая модель улучшила эти показатели в среднем до 320 миллисекунд, что соответствует реакции живого человека.
В OpenAI надеются, что этот продукт станет шагом к более естественному взаимодействию между пользователем и компьютером. Также GPT-4o может выступать как быстрый голосовой переводчик между собеседниками, говорящими на разных языках.
Дополнение
Голосовой режим работает благодаря синергии трех отдельных моделей: одна простая модель транскрибирует аудио в текст, GPT-3.5 или GPT-4 принимает текст и выводит текст, а третья простая модель превращает этот текст снова в аудио. Кроме того, по сравнению с существующими языковыми моделями, GPT-4o лучше воспринимает изображения и аудио.
Новая технология будет внедряться постепенно в течение следующих недель. Отдельно компания представит приложение для ПК с новыми возможностями.
В отличие от GPT-4 Turbo, этот продукт решили сделать бесплатным, но платные пользователи будут иметь доступ к большему количеству функций.
OpenAI готує пошуковий продукт, кидаючи виклик Google09.05.24, 19:16