Массовый парсер текстов с URL (Ускоренный) BETA
⚡️ Асинхронная BETA: инструмент использует параллельную загрузку и автоматически разносит запросы по доменам, чтобы ускорить обработку.
Логи доступны в Celery worker — следите за нагрузкой и возможными блокировками.
Описание: загрузите XLSX со столбцами «Запрос» и «URL». На выходе получите ZIP с:
- /full/ — полные тексты страниц
- /selected/ — сокращённая версия по ключевым тегам
- result.xlsx — статистика по каждому запросу
Как работает ускорение
- Все URL распределяются по доменам и ставятся в очередь с максимальным интервалом между запросами к одному домену.
- Асинхронная загрузка до 12 параллельных потоков (ограничено настройками воркера) с автоматическими повторами и паузами.
- Результаты кешируются: повторяющиеся URL не скачиваются повторно.
- В логах Celery фиксируются попытки, статусы HTTP и тайминги для контроля возможных блокировок.
Подготовка XLSX:
- Файл без заголовков (первая строка — данные).
- Столбец «Запрос» — ключ для группировки;
- Столбец «URL» — целевые страницы для парсинга.
Рекомендации:
- Следите за логами Celery (`celery -A a2_settings worker --loglevel=info --pool=solo`).
- При 4XX/5XX ответах домен автоматически переносится в конец очереди.
- При большом объёме URL убедитесь, что внешние сайты позволяют такую частоту запросов.