Агентний ШІ, штучний інтелект та машинне навчання, технології нового покоління та безпечний розвиток
Новий агент OpenAI автоматизує завдання, серед меж та проблем конфіденційності
Рашмі Рамеш (Rashmiramesh_)
23 липня 2025 року

Новий агент Chatgpt OpenAI може кодувати, переглядати та надсилати електронну пошту. Маркуючи як цифровий помічник виконавчої влади, агент призначений для автоматизації складних, багатоетапних робочих процесів, таких як генерування звітів, аналіз електронних таблиць або кандидатів. Він може керувати такими програмами, як Gmail, Github та Google, рідко перемикання між інструментами у віртуальному середовищі, що імітує операційну систему настільних ПК.
Див. Також: Доказ концепції: Переосмислення ідентичності для віку агентів ШІ
Але чи може він надійно виконувати ці завдання, і чи повинні користувачі довіряти йому конфіденційною інформацією, – це відкрите питання.
Агент працює повністю в інфраструктурі з пісочниці OpenAI. Компанія заявила, що не торкається локального пристрою користувача, замість цього використовує віртуальний браузер, файлову систему та операційну систему, керовану OpenAI. Інтерфейс з'являється у спадному меню Chatgpt і його розгортається для передплатників Pro, команди, підприємств та освіти.
OpenAi заявив, що агент “виконує ці завдання, використовуючи власний віртуальний комп'ютер, плавно переміщуючись між міркуваннями та дією для обробки складних робочих процесів від початку до кінця, все на основі ваших інструкцій”.
Його продуктивність змішана. У структурованих орієнтирах агент розмістив вражаючі бали. На DSBench, який оцінює аналіз даних та навички моделювання, він набрав майже 90%, що на 20 балів випереджає середніх користувачів людини. Він також добре працював у Bowsecamp для веб -пошуку та електронних таблиць для завдань електронної таблиці, хоча OpenAi використовував різні інструменти, ніж автори Benchmark, ускладнюючи порівняння.
Але його здатність займатися відкритими завданнями, реальними завданнями набагато менш надійною. У моделюванні кібербезпеки, яке випробувало складні міркування та аналіз загрози, агент не зміг виконати свою місію навіть після отримання додаткових підказок. OpenAi також визнав, що його невдача в тесті вказувала на те, що агент все ще бореться за узагальнення поза своїми тренувальними моделями.
“Наскільки це добре? На відміну від свого попередника -попередника, агент насправді може робити корисні речі”, – написав Домінік Лукес, провідний бізнес -технолог в Оксфордському університеті. “Але вони повинні бути правильними речами”.
На практиці це означає, що агент переважає на щільно обстежених, добре структурованих робочих процесах, таких як пошук імен, складання вмісту або автоматизацію важких завдань, але боротьба з неоднозначністю, творчістю або важкими завданнями.
“Чи може чатгпт -агент -джерело кандидатів? Так, це може”, – сказав радник AI Йоганнес Сундло. “Це все змінить? Ні. Не зараз”.
Ці межі приходять поряд з новими ризиками. Оскільки агент може читати електронні листи, отримати доступ до календарів та взаємодіяти з сторонніми платформами, він вимагає підвищених дозволів, які представляють проблеми конфіденційності та безпеки. “Ризики конфіденційності та безпеки дозволяють агенту AI виконувати завдання, значно перевищить будь-які пільги на продуктивність, яку він може запропонувати”,-попередила Луїз Яровський, співзасновник Академії AI, Tech & Frifency. “Але люди все одно використовуватимуть агентів AI через галас, цікавість або тому, що їх компанія” AI спочатку “.”
OpenAi каже, що це огородження для зменшення таких ризиків. Користувачі повинні підтвердити конфіденційні дії, такі як надсилання електронних листів або здійснення покупок, а агент показує свій процес міркувань у режимі “годинника”, щоб користувачі могли втручатися. Система включає класифікатори, розроблені для виявлення та блокування оперативної ін'єкції, що є шкідливим текстом, вбудованим на веб -сайти, який може викрасти поведінку агента. OpenAI каже, що це не реєструє чутливу інформацію, як паролі під час цих автоматизованих сеансів.
Сеанси агента також за замовчуванням працюють із пам'яттю, мінімізуючи ризик довгострокового витоку даних. Користувачі можуть стерти всю активність минулого агента за допомогою опції “Clear Cleaning Data” на один клік.
Деякі частини системи все ще недостатньо розвинені. Генератор слайд -палуби – це живий, але “рудиментарний”, – сказав Ондай. Математичні здібності агента в Frontiermath та загальні знання в останньому іспиті людства є скромними. А агент ще не доступний в Європейському економічному районі чи Швейцарії через правила торгівлі блоками (див.: AI Boss видовищно провалюється в багатомісячному тесті бізнесу.).
OpenAI планує заходити свій попередній інструмент автоматизації, оператор на користь цього більш здібного агента Chatgpt, який позиціонується як майбутній інтерфейс для автоматизації завдань на основі інструментів (див.: OpenAI запускає AI -“Агент” Оператор “.).
Агент може зробити багато речей, які Openai каже, що це може, але лише за правильних умов і лише в тому випадку, якщо користувачі готові відмовитись від значної довіри та даних у відповідь.