Массовый парсер текстов с URL (Ускоренный) BETA
Асинхронная BETA: параллельная загрузка с автоматическим разносом запросов по доменам. Логи — в Celery worker.
Загрузите XLSX со столбцами «Запрос» и «URL» — на выходе ZIP с:
- /full/ — полные тексты страниц
- /selected/ — сокращённая версия по ключевым тегам
- result.xlsx — статистика по каждому запросу
Как работает ускорение
- URL распределяются по доменам с максимальным интервалом между запросами к одному домену
- До 12 параллельных потоков с автоматическими повторами и паузами
- Повторяющиеся URL не скачиваются повторно (кеш)
Файл без заголовков — первая строка = данные. При 4XX/5XX домен переносится в конец очереди.
