Универсальный чат-бот ChatGPT выстрелил в 2022 году и сделал технологию искусственного интеллекта понятной и доступной для широкой аудитории. И вот компания OpenAI, которая создала бот, представила новую версию GPT-4o — буква «o» означает всесторонний (сокращение от omni). На основе доработанной модели и будет функционировать чат-бот. Нейросеть обновили и улучшили.
Что изменилось? По сравнению с предыдущими моделями нейросеть лучше реагирует на изображения и аудио. Например, реакция на голос такая же быстрая, как в разговоре двух людей: в среднем 320 миллисекунд. Голосовой режим для общения с ChatGPT шел с задержкой от 2,8 секунд до 5,4 секунды в зависимости от разных версий. Вынужденная пауза была вызвана особенностями работы алгоритма: первая его модель транскрибировала аудио в текст, вторая — выводила текст, а третья — преобразовывала его текст обратно в аудио. В результате искусственный интеллект не мог воспроизводить смех, пение или выражать эмоции. Разработчики GPT-4o докрутили алгоритм, обучив единую новую модель сквозному анализу текста, изображения и аудио. Переводя для гуманитариев: теперь одна и та же сеть обрабатывает и аудиозапрос пользователя, и текстовый ответ. А еще благодаря изменениям теперь можно голосом прерывать ответ нейросети — прямо как в разговоре с обычными человеком.
GPT-4o улучшила и возможности голосового помощника: нейросеть может эмоционально разговаривать, использовать разные интонации и даже немного напевать — теперь это не монотонная, компьютеризированная начитка. В презентации модели разработчики часто ссылались на фильм «Она» (2013), в котором одинокий писатель (Хоакин Феникс) влюбляется в голосового ассистента Саманту (Скарлетт Йоханссон). Недалекое будущее, о котором шла речь в картине Спайка Джонза, похоже, если не наступило, то вот-вот наступит. Не зря фильм получил «Оскар» за лучший оригинальный сценарий.
Из других приятных обновлений GPT-4o можно выделить способность чат-бота работать с видео: нейросеть смогла транскрибировать ролик с мероприятия и отметить на нем разных спикеров. Также она сделала краткий пересказ 40-минутного видео.
Новая модель работает более чем на 50 языках и в том числе на русском. Однако воспользоваться ею прямо сейчас не получится: в ближайшие недели появится только у «небольшой группы доверенных партнеров», а в июне — у платных подписчиков. Потом, как обещают разработчики, чат-бот на основе обновленной модели GPT-4o будет доступен всем, но платные подписчики снова получат дополнительные плюшки: увеличенные лимиты на выполнение различных операций.