Массовый парсер текстов с URL (Ускоренный) BETA
Асинхронная BETA: параллельная загрузка с автоматическим разносом запросов по доменам. Логи — в Celery worker.
Загрузите XLSX со столбцами «Запрос» и «URL» — на выходе ZIP с:
- /full/ — полные тексты страниц
- /selected/ — сокращённая версия по ключевым тегам
- result.xlsx — статистика по каждому запросу
Какую задачу решает инструмент
Ускоренная версия массового парсера текстов. Использует асинхронную параллельную загрузку с интеллектуальным распределением запросов по доменам, что значительно сокращает время обработки больших объёмов URL.
Как пользоваться
1. Подготовьте данные
Подготовьте XLSX-файл с двумя столбцами: запросы и URL. Файл без заголовков — первая строка сразу данные. Укажите буквы столбцов (A, B, C...).
2. Загрузите и обработайте
Загрузите файл, выберите столбцы и нажмите «Запустить». До 12 параллельных потоков загружают страницы с автоматическими паузами между запросами к одному домену.
3. Результат
ZIP-архив с папками /full/ (полные тексты), /selected/ (сокращённые по ключевым тегам) и result.xlsx со статистикой. Повторяющиеся URL кешируются и не скачиваются повторно.
