

Помню, в первый раз сел я свой скрипт писать на Selenium для парсинга данных с биржи — три дня убил только на разбор селекторов и обработку ошибок. И самое удивительное: стоило интерфейсу биржи хоть чуть-чуть обновиться — и весь этот код летел к чертям. Затем такую же задачу решает ИИ-агент, теперь всего за двадцать минут. Причём сам адаптируется к изменениям на странице, сам понимает контекст вне жесткой структуры DOM. Это не просто удобство — это смена парадигмы. Отказ от хрупких скриптов в пользу решений, которым действительно все равно, что у редактора очередной редизайн сайта.
«Классический поиск в интернете и разработка скриптов по старинке — все это уже устарело. Мы тратили десятки часов на создание кода, который ломался при каждом обновлении сайта. Благодаря GPT-управляемому браузеру модель сама знает, как выглядит страница, где выискивать ее элементы и безотказно определяется с предметом обращения, не переписывая код. За восемь месяцев выбрали 43 способа заниматься крипто-аналитикой, и уяснили: Selenium и Puppeteer работают только в паре с крупными языковыми моделями. В противном случае поддержка кода превращается в бесконечный ад»
Автоматизация браузера — это когда компьютер сам жмет на кнопки, заполняет формы, переходит по страницам, собирает данные. Без вашего участия. В прошлые времена приходилось потеть, подгоняя под конкретный интерфейс жёсткие скрипты с точнейшими селекторами наиболее мелких его частей. А сходу это все к чертям обваливалось, стоит только интерфейсу поменяться хоть сколько-нибудь. Теперь же есть и ИИ, и GPT. А значит, можно писать уже гибкие сценарии, которые не просто выполняют шаги по инструкции, а еще понимают, что вообще происходит на странице. И они подстраиваются, даже если поменялась разметка.

У традиционных скриптов (которые ломаются при любом обновлении) есть одна большая проблема — они требуют постоянной поддержки, поскольку любое обновление ломает логику, а на исправление уходят многие часы. А вот с GPT-автоматизацией такого нет — она анализирует не просто техданные элементов, но и их семантику. Это критично именно там, где поддержка кода иногда просто полностью сжирает все преимущества автоматизации. В реальности же при классическом GPT-подходе время поддержки может упасть вообще почти до нуля, а скорость разработки — вырасти раз в десять.
Автоматизация браузера — это выполнение рутинной работы автоматической программой вместо ваших ручных кликов, заполнений форм и нажатия кнопок. Основные инструменты для автоматизации — это программы Selenium и Puppeteer и Playwright.
Существуют два типа методов автоматизации — императивные, при которых вы программируете каждое отдельное действие в коде, и декларативные — вы формулируете цель, а система сама расписывает шаги для ее достижения. К вторым относится, к примеру, GPT: вы задаете задачу на естественном языке, а модель смотрит на страницу (DOM) и делает все нужные действия сама. На просторах криптовалютной индустрии Playwright, как правило, демонстрирует лучшую выносливость при работе с динамическими интерфейсами. Например, если данные обновляются каждую сотую секунду по WebSocket, то Selenium просто не успевает фиксировать все изменения. В отличие от него Playwright с автоожиданиями в помощь работает стабильно и без лишних забот. Но уж если интерфейс слишком запутанный — то разумнее доверить логику ИИ-агенту.
GPT — это языковая модель, обученная на огромных массивах текстов. Она улавливает суть, отвечает на вопросы, пишет код. В браузерной автоматизации, браузерный агент сам анализирует страницу на предмет структуры (HTML и CSS), чтобы подготовить команды: кликнуть по кнопке, ввести текст.
Технически процесс выглядит следующим образом: вы передаете в модель снимок DOM или его часть и задаете команду вроде "кликни по кнопке отправки". GPT идентифицирует нужный элемент по смыслу — по тексту, aria-label, либо по роли — и генерирует код, например, await page.click('button[type="submit"]'). Когда элемент меняется, модель ищет похожий по значению элемент, а не похожий по фиксированному селектору.
Пример практического применения ASCN.AI: автоматизированный сбор свежих листингов токенов с двенадцати бирж. Из-за редизайнов (по 2-3 в месяц) приходилось править селекторы вручную — около восьми часов в неделю уходило в никуда. После того как произошла интеграция GPT-4, агент получает HTML и даже скриншот, находит по структуре и заголовкам таблицу, вытаскивает данные и сохраняет их в базу. В настоящее время на поддержку уходит 0 часов — агент сам адаптируется.
Browser Automation AI — это когда машинное обучение, в основном большие языковые модели (LLM), управляют браузером, без жёстко прописанных сценариев и селекторов. Здесь вместо ручного написания шагов вы просто формулируете задачу на нормальном человеческом языке, а модель сама потом роется в интерфейсе и делает выводы. Главные составляющие такой системы:
Если клик не сработал, система обучается и пробует другой способ.
GPT и аналогичные LLM (Claude, Llama, Gemini) решают три задачи:
Это особенно актуально для SPA-приложений на React или Vue, где DOM динамичен. Помимо языковых моделей принято использовать и компьютерное зрение — например, Anthropic Claude с vision API обрабатывает скриншоты. Модели-агенты работают циклично: анализ — действие — проверка — корректировка.
Существует три основных варианта интеграции GPT в автоматизацию всех процессов:
Итак, благодаря искусственному интеллекту значительно упрощается процесс запуска автоматизации: в конструкторе, который является частью платформы, вам всего-то и надо объяснить задачу на нашем, человеческом, языке, и платформа сама генерирует готовый рабочий процесс, начиная от триггеров и заканчивая интеграцией с Google Sheets, Telegram и прочими сервисами. Причём даже если вы не знаете Playwright или OpenAI API — вам это абсолютно не потребуется.
| Технология | Преимущества | Ограничения | Стоимость |
|---|---|---|---|
| Selenium | Поддержка множества браузеров, существование крупных сообществ | Сложность конфигурирования, ненадежные селекторы, отсутствие поддержки GPT | Бесплатно (Open Source) |
| Puppeteer | Комфортность в использовании для Chrome/Chromium, шустрая работа API | Только для Chromium, требует наличия Node.js | Совершенно бесплатно (Open Source) |
| Playwright | Кроссбраузерность, автоожидания, стабильность | Новизна, меньше доступных решений | Совершенно бесплатно (Open Source) |
| n8n | Визуальный редактор, интеграции, бесплатно self-hosted | Ограничения функционала, требует хостинга | От 20$ в месяц за платный хостинг |
| ASCN.AI NoCode | Интеграция GPT и крипто-данные, готовые шаблоны | Акцент на Web3, не универсальная RPA | От $29/мес |
Совет: если хотите быстро стартовать и не вникать, используйте ASCN.AI NoCode. А для тех, кто код умеет, подойдёт Playwright + GPT-4 API. Selenium уместен, если у вас есть старые программы, где жесткие требования к автоматизации.
Зачастую автоматизируют навигацию, заполнение форм, нажатие кнопок, сбор данных.
Навигация — модель ищет нужный раздел через меню по семантике. Когда страница меняет свою структуру, она изменяет и свой маршрут.
Заполнение форм — это сопоставление полей формы с данными пользователя, преодоление валидаций и капчи.
Клики — это механика поиска элементов по их смыслу (например, текст кнопки или ее роль), по появившимся сообщениям об успехе и повторные попытки в случае ошибки.
Сбор необходимой информации — это извлечение табличных данных и карт, пагинация, удаление дубликатов, структурирование и сохранение в нужном формате.
Сценарий 1. Мониторинг появления новых листингов токенов.
Конкретный случай: в первую неделю подобная слежка позволила поймать листинг на Binance на 12 минут раньше других — а цена выросла на 34% в первые минуты.
Сценарий 2. Автоматическая подгрузка KYC-форм
Время на этот процесс сократилось с 15–20 минут до 3 минут. В результате мы сэкономили за месяц уже более 11-ти часов.
Сценарий 3. Анализ крупных (китов) транзакций.
Такой workflow позволил заметить утечки средств с бирж за 48 часов до падения, трейдеры успели закрыть позиции.
AutoGPT — это автономный агент на основе GPT-4, который самостоятельно строит план и запускает в жизнь последовательность действий с их контролем. Вы задаёте цель, агент разбивает её на задачи, выполняет и выдает результат. Подобно тому, как для браузера в большинстве случаев применяют плагины Selenium или Playwright для управления headless-браузером. Так вы и подключаете доступ, ставите задачу, агент строит и исполняет план с проверками. Простой ChatGPT в большинстве случаев выступает в роли советчика — скажем, он шлет вам команду по DOM, которую вы потом отдельно запускаете. В ASCN.AI же вместе с встроенным GPT API работают кастомные агенты на Web3-данных — поэтому точность и универсальность.
Существуют клиентские скрипты, запускаемые через браузерные расширения (например, Manifest V3) которые выполняются в текущей вкладке и отправляют DOM в GPT, получают команды и выполняют их. Минус — работают только с текущей вкладкой. Существуют серверные сценарии, реализованные на Node.js с использованием OpenAI и Playwright API — они работают с headless-браузером с сервера, масштабируя задачи и управляясь параллельно.
Легко настроить можно с помощью готовых проектов, таких как LangChain, BrowserGPT (open-source) и ASCN.AI NoCode с визуальным редактором.
Ключевые API для автоматизации:
Стандартная архитектура автоматизации:
Для получения динамических данных работает WebSocket перехват или API-запросы. В ASCN.AI есть свой Blockchain API, который позволяет получать доступ к on-chain данным и миновать проблемы с парсингом UI.
Главные угрозы:
Практически применяемые меры: кладите свои секреты в облачный менеджер или переменные окружения; используйте Playwright с плагинами stealth для имитации реального поведения пользователя в браузере; подключайте сервисы капчи (например, 2Captcha, AntiCaptcha) через API; кэшируйте анализ и отправляйте моделям только нужные куски DOM, а не все подряд.
Технические ограничения: задержки LLM (0.5–3 секунды) не подходят для процессов с высокой частотой запросов. Ограничение размера контекста (у GPT-4 максимум ~128k токенов, в практике меньше); Сложная разметка, может снижать точность интерпретации; Стоимость масштабирования может оказаться значительной.
Рекомендации:
Юридически важно: сбор данных без согласия и нарушение регламентированных правил может повлечь за собой штраф. Обязательно ознакомьтесь с robots.txt и условиями пользования, соблюдайте временные задержки и лимиты запросов. К слову, это не призыв к нарушению — в конечном счёте, сама ответственность лежит на исполнителе. Уведомление: информация тут не является заменой консультации с юристом.
Да, автоматизация на GPT исполняется на тех браузерах, которые поддерживаются такими инструментами, как Selenium, Puppeteer и Playwright. Чаще всего стабильнее всех работает Playwright на Chromium — почти 95% задач. Firefox и Safari поддерживаются, но мобильные требуют других инструментов, как например Appium.
Для Puppeteer и Playwright это JavaScript/TypeScript, для интеграции с GPT API и Selenium — часто Python. C# и Java — для корпоративов. А в no-code платформах — программировать не нужно.
| Характеристика | Традиционная автоматизация | GPT-управление |
|---|---|---|
| Привязка к селекторам | Жесткая (CSS, XPath) | Гибкая (семантическая) |
| Адаптация к изменениям | Ручная правка кода | Автоматическая интерпретация DOM |
| Порог входа | Нужно кодить | Возможна no-code и натуральный язык |
| Скорость выполнения | Высокая без задержек | Средняя за счёт обращения к LLM |
| Стоимость | Низкая (бесплатные инструменты) | Средняя/высокая (API вызовы) |
| Обработка исключений | Явная и сложная | Автоматическая попытка альтернатив |
Автоматизация браузера с помощью GPT и ИИ — качественный шаг от хрупких и трудоемких скриптов к адаптивным, гибко реагирующим на непостоянные взаимодействия с пользователем. Мы заменили длительный процесс поиска багов в Selenium быстрым переходом к готовому workflow, собранному за десять минут в no-code платформах. Сегодня GPT сокращает сотни строк кода до одного промпта, а завтра GPT станет новым стандартом автоматизации. На горизонте появляются мультимодальные агенты, автономные браузерные помощники, интеграция с блокчейн-данными и смарт-контрактами. Уже сейчас вы можете сэкономить десятки часов в месяц, а вскоре решительно автоматизировать целый бизнес.
Информация в статье носит общий характер и не заменяет инвестиционных, юридических или консультаций по безопасности. Использование AI помощников требует осознанного подхода и понимания функций конкретных платформ.