Сбор данных с сайтов — одна из самых частых рутинных задач: посмотреть 30 вакансий, 50 объявлений, 20 новостей или сотню карточек товаров. Вручную это превращается в бесконечную копипасту: открыл страницу, скопировал заголовок, цену, ссылку, вставил в таблицу — и где-то пропустил поле, где-то получил дубль, где-то ссылка ведёт не туда. ИИ-агент закрывает именно эту боль: он открывает сайт, понимает, какие данные нужны, собирает их в таблицу, сохраняет файл и затем перепроверяет результат.
Главная идея мастер-класса — не один универсальный способ парсинга, а набор инструментов и навык выбирать подходящий под конкретный сайт. Разбор построен на четырёх примерах: учебный каталог книг (books.toscrape.com), медиа (Коммерсантъ через Firecrawl), сервис с официальным API (HeadHunter) и маркетплейс с антибот-защитой (Авито) — как пример границ автоматизации.
Три вопроса перед парсингом
Хороший сбор данных начинается с трёх вопросов:
- Какие данные мы хотим получить?
- Можно ли эти данные собирать?
- Какой способ сбора подходит именно для этого сайта?