Массовый парсинг текстов с URL BETA
⚠️ БЕТА-ВЕРСИЯ: Этот инструмент находится в стадии тестирования.
Возможны ошибки и изменения в работе. Используйте с осторожностью.
Описание: Инструмент парсит HTML страницы из XLSX файла с группировкой по запросам.
Загрузите XLSX с столбцами "Запрос" и "URL", получите ZIP архив с TXT файлами в ДВУХ версиях:
- /full/ - полные тексты (как есть со страниц)
- /selected/ - сокращённые тексты (title, meta description, h1-h6, li, th, td, a, strong, b, blockquote)
Инструкция по использованию
- Подготовьте XLSX файл с данными (например: запросы в столбце A, URL в столбце B)
- Загрузите файл через форму выше
- Выберите столбцы из выпадающих списков (A, B, C...)
- Нажмите "Запустить парсинг"
- Дождитесь завершения обработки (может занять несколько минут)
- Скачайте ZIP архив с результатами
Формат входного файла:
- Столбец с запросами - поисковый запрос (для группировки)
- Столбец с URL - URL страницы для парсинга
- Один запрос может иметь несколько URL
- Все тексты одного запроса сохраняются в один TXT файл
- ⚠️ Файл читается БЕЗ заголовков - первая строка = данные
Что содержит ZIP архив:
- result.xlsx - таблица с соответствием запросов, файлов и статистикой по количеству строк в каждой версии
- Папка /full/ - полные версии TXT (все тексты как есть со страниц)
- Папка /selected/ - сокращённые версии TXT (title, description, заголовки, списки, таблицы, ссылки, жирный текст, цитаты)
- Имена TXT файлов генерируются из текста запроса (безопасно для Linux)
Примечания:
- Инструмент автоматически добавляет задержки между запросами
- Извлекается только текстовый контент без скриптов и стилей
- Заголовки H1-H6 помечаются специальными тегами
- Сокращённая версия содержит только title, meta description, заголовки h1-h6, элементы списков, ячейки таблиц, текст ссылок, жирный текст и цитаты
- Кодировка UTF-8 - совместимо с Word и Excel
- Обработка может занять 5-15 минут в зависимости от количества URL