Массовый парсер текстов с URL (Ускоренный) BETA

⚡️ Асинхронная BETA: инструмент использует параллельную загрузку и автоматически разносит запросы по доменам, чтобы ускорить обработку. Логи доступны в Celery worker — следите за нагрузкой и возможными блокировками.
Описание: загрузите XLSX со столбцами «Запрос» и «URL». На выходе получите ZIP с:
  • /full/ — полные тексты страниц
  • /selected/ — сокращённая версия по ключевым тегам
  • result.xlsx — статистика по каждому запросу
Внутри Celery ведётся подробный лог: очередь доменов, попытки, ошибки, экономия времени.
Файл должен содержать столбцы с запросами и URL
Выберите столбец Excel (A, B, C и т.д.)
Выберите столбец Excel (A, B, C и т.д.)
К обычной версии




Доступ ограничен

Этот инструмент доступен только авторизованным пользователям с активной подпиской.

Оформить подписку (500 руб./месяц) или получить тест на сутки можно через личные сообщения:

Пожалуйста, укажите свой логин в сервисе при обращении.

Как работает ускорение

  • Все URL распределяются по доменам и ставятся в очередь с максимальным интервалом между запросами к одному домену.
  • Асинхронная загрузка до 12 параллельных потоков (ограничено настройками воркера) с автоматическими повторами и паузами.
  • Результаты кешируются: повторяющиеся URL не скачиваются повторно.
  • В логах Celery фиксируются попытки, статусы HTTP и тайминги для контроля возможных блокировок.

Подготовка XLSX:
  • Файл без заголовков (первая строка — данные).
  • Столбец «Запрос» — ключ для группировки;
  • Столбец «URL» — целевые страницы для парсинга.

Рекомендации:
  • Следите за логами Celery (`celery -A a2_settings worker --loglevel=info --pool=solo`).
  • При 4XX/5XX ответах домен автоматически переносится в конец очереди.
  • При большом объёме URL убедитесь, что внешние сайты позволяют такую частоту запросов.