-
Красивый макияж для карих глаз
Одним из сильнейших оружий женской красоты являются глаза. Именно по этой причине такую огромную роль играет макияж для глаз. Сегодня мы с вами непоср...
https://evemakeup.ru/wp-content/uploads/2012/07/thumb-makeup-for-karih-glaz.jpg -
Макияж для азиаток
Макияж для азиаток отличается от макияжа для европейки коренным образом – здесь еще хоть как-то (в отношении макияжа для азиаток) можно применить маки...
https://evemakeup.ru/wp-content/uploads/2011/06/thumb-makeup-for-asian-women.jpg
OpenAI представила три новые голосовые ИИ-модели для разработчиков
Компания OpenAI, создатель популярного чат-бота ChatGPT, объявила о выпуске трех новых моделей искусственного интеллекта (ИИ), призванных значительно расширить возможности голосовых приложений. Эти инновационные разработки, по заявлениям OpenAI, “откроют новый класс голосовых приложений для разработчиков”, предлагая улучшения в таких областях, как глубокое понимание контекста, перевод и транскрипция речи в реальном времени.
Расширение функционала голосовых ИИ
Пользователи ChatGPT уже знакомы с возможностью взаимодействовать с ИИ не только через текст, но и с помощью голосовых команд. Новые модели созданы для выполнения различных задач в режиме реального времени и предназначены для интеграции в сторонние ИИ-приложения. Каждая модель ориентирована на конкретные цели, включая подробное рассуждение, перевод и преобразование речи в текст.
По данным OpenAI, новые модели включают:
- GPT-Realtime-2 – первая голосовая модель с возможностями рассуждения уровня GPT-5, способная обрабатывать сложные запросы и естественно поддерживать диалог.
- GPT-Realtime-Translate – новая модель для живого перевода, которая переводит речь из более чем 70 входных языков в 13 выходных, синхронно с говорящим.
- GPT-Realtime-Whisper – новая модель потоковой транскрипции, которая преобразует речь в текст в реальном времени по мере произнесения слов.
Сферы применения и ценовая политика
В публикации OpenAI отмечается, что разработчики используют голосовые ИИ-модели в трех основных направлениях: постановка задач для ИИ, получение объяснений от ИИ (например, о задержке рейса) и ведение диалогов на родном языке пользователя. Именно эти сценарии использования стремятся усовершенствовать новые голосовые модели. Все три инструмента доступны разработчикам через API OpenAI Realtime.
Стоимость использования новых моделей распределяется следующим образом:
- GPT-Realtime-2: $32 за миллион входных токенов и $64 за миллион выходных токенов. (Токены – это базовые единицы текста, которые обрабатывает нейросеть, аналоги слов или частей слов.)
- GPT-Realtime-Translate: $0,034 за минуту использования.
- GPT-Realtime-Whisper: $0,017 за минуту использования.
Детальный обзор новых инструментов
GPT-Realtime-2 позиционируется как решение для разработчиков, которым нужна ИИ-модель, способная к глубокому рассуждению и адаптации к ходу беседы. Инструмент позволяет проверять несколько источников одновременно, подстраивать тон в зависимости от ввода пользователя, использовать более продвинутые уровни логики и анализировать специализированные термины, включая собственные имена и выражения, используемые в медицине или производстве.
Для приложений перевода предусмотрена GPT-Realtime-Translate, обеспечивающая преобразование речи в реальном времени. Пользователи смогут говорить на своем языке и получать перевод и транскрипцию без задержек. Модель поддерживает более 70 входных и 13 выходных языков.
Для быстрой и точной транскрипции аудио разработана GPT-Realtime-Whisper. Эта модель особенно полезна для создания субтитров, протоколов совещаний и резюме во время текущих разговоров, что, по мнению OpenAI, позволит “живым продуктам ощущаться быстрее, отзывчивее и естественнее”.
Новые модели уже доступны для тестирования на платформе OpenAI Playground. Разработчики, использующие Codex, также могут интегрировать GPT-Realtime-2 через специально созданный для этого агентский код.