Operator вышел на линию

Компания OpenAI представила Operator — ИИ-агента нового поколения. Главное отличие от аналогов — его умение работать с сайтами в их привычном виде, без необходимости адаптации через API. Он уже справляется с такими задачами, как заказ продуктов, бронирование поездок и поиск туров. Однако ввод платежных данных и капчи всё еще требует участия человека. Пока это лишь тестовая версия, доступная подписчикам ChatGPT Pro, но ее потенциал уже впечатляет.

Operator умеет взаимодействовать с веб-страницами: он анализирует их содержимое, нажимает кнопки, вводит текст и выбирает пункты меню. В отличие от аналогов ему не нужны специальные API, он работает с сайтами в их привычном виде. Пока Operator занимается рутиной, вы можете сварить кофе или заняться важными делами.
Его основа — новая модель под названием CUA, которая сочетает возможности зрительного восприятия GPT-4o с передовыми навыками логического анализа и принятия решений.
Operator уже научился заказывать продукты через Instacart, подбирать туры на TripAdvisor и бронировать поездки в Uber. Причем его сильная сторона — это многозадачность. Он способен одновременно искать отель, проверять отзывы о ресторанах и выбирать сувениры.
Правда, с более сложными задачами, такими как создание презентаций или управление календарем, он пока не справляется. Но кто знает, возможно, это лишь вопрос времени.

Горошина под матрасом

Несмотря на свою самостоятельность, Operator остается крайне осторожным помощником. Он не хранит пароли, не запоминает данные кредитной карты и всегда запрашивает разрешение перед важными действиями. Встроенная защита от фишинга и вредоносных действий — его стандартная функция.
Однако капчи остаются для него непреодолимой преградой. «Выберите все изображения с велосипедами» или «введите буквы с картинки» — это всё еще задачи для человека. Пока технологии ИИ не научились надежно обходить такие проверки, ответственность за их ввод остается за вами.
А вот приватность — его сильная сторона. Одним щелчком можно стереть историю, выйти со всех сайтов или удалить прошлые разговоры — быстро и никаких следов.

Плати и тестируй

OpenAI начала с ограниченного запуска: Operator доступен только подписчикам ChatGPT Pro в США за $200 в месяц.
Кто эти счастливчики? В основном это разработчики, исследователи и любители новых технологий, которые готовы тестировать свежие инструменты, даже если они еще далеки от совершенства. Сколько их? OpenAI пока не раскрывает.
Цель компании — довести Operator до идеала и открыть доступ для широкой аудитории. После тестов он станет доступен подписчикам Plus, Team и Enterprise, а в будущем, возможно, появится даже в бесплатной версии ChatGPT.
Уже сейчас OpenAI сотрудничает с Instacart, Uber, eBay и Etsy, чтобы адаптировать их сайты для работы с Agent. По словам компании, эти партнерства основаны на взаимной пользе, без финансовых договоренностей.
Пока Operator тестируют, отзывы на форумах заметно разнятся. Кто-то жалуется, что «сервис настолько медленный и рваный, что им стоит пользоваться только во время похода в туалет». Другие отмечают: «Посмотрим, сможет ли он заполнить мой табель рабочего времени, тогда отдам $200 без вопросов». Третьи смеются: «Скоро, наверное, агент будет искать порно и смотреть его вместо меня». Большинство сходятся в одном: Operator пока сыроват, но потенциал огромен.

Гонка по вертикали

OpenAI с ее Operator — далеко не единственный участник гонки по разработке ИИ-агентов. Компании по всему миру соревнуются за создание технологий, которые изменят наше взаимодействие с цифровыми интерфейсами.
Стартап Anthropic разработал агента с функционалом, схожим с Operator, но с ограничениями: настройка через API делает его использование доступным в основном для технических специалистов.
DeepMind от Google представил Mariner — экспериментального агента, который уже умеет понимать структуру сайтов, прокручивать страницы, вводить текст и копировать действия пользователя. Ожидается, что он будет интегрирован в экосистему Google, включая Gmail и Google Docs. Пока Mariner на стадии тестирования.
На горизонте и другие конкуренты. Perplexity запустила ассистента для Android, а нашумевший китайский DeepSeek развивает мощные модели, которые показывают отличные результаты в текстовых задачах, вычислениях и логике, но еще не работают с интерфейсами напрямую.
Пока OpenAI с ее Operator лидирует благодаря его простоте и доступности. Но это пока. Гонка только начинается.

Подписывайтесь на наш канал в Telegram и читайте новости раньше всех!
Актуально сегодня