Массовый парсинг текстов с URL BETA

⚠️ БЕТА-ВЕРСИЯ: Этот инструмент находится в стадии тестирования. Возможны ошибки и изменения в работе. Используйте с осторожностью.
Описание: Инструмент парсит HTML страницы из XLSX файла с группировкой по запросам. Загрузите XLSX с столбцами "Запрос" и "URL", получите ZIP архив с TXT файлами в ДВУХ версиях:
  • /full/ - полные тексты (как есть со страниц)
  • /selected/ - сокращённые тексты (title, meta description, h1-h6, li, th, td, a, strong, b, blockquote)
Файл должен содержать столбцы с запросами и URL
Выберите столбец Excel (A, B, C и т.д.)




Доступ ограничен

Этот инструмент доступен только авторизованным пользователям с активной подпиской.

Оформить подписку (500 руб./месяц) или получить тест на сутки можно через личные сообщения:

Пожалуйста, укажите свой логин в сервисе при обращении.

Инструкция по использованию

  1. Подготовьте XLSX файл с данными (например: запросы в столбце A, URL в столбце B)
  2. Загрузите файл через форму выше
  3. Выберите столбцы из выпадающих списков (A, B, C...)
  4. Нажмите "Запустить парсинг"
  5. Дождитесь завершения обработки (может занять несколько минут)
  6. Скачайте ZIP архив с результатами

Формат входного файла:
  • Столбец с запросами - поисковый запрос (для группировки)
  • Столбец с URL - URL страницы для парсинга
  • Один запрос может иметь несколько URL
  • Все тексты одного запроса сохраняются в один TXT файл
  • ⚠️ Файл читается БЕЗ заголовков - первая строка = данные

Что содержит ZIP архив:
  • result.xlsx - таблица с соответствием запросов, файлов и статистикой по количеству строк в каждой версии
  • Папка /full/ - полные версии TXT (все тексты как есть со страниц)
  • Папка /selected/ - сокращённые версии TXT (title, description, заголовки, списки, таблицы, ссылки, жирный текст, цитаты)
  • Имена TXT файлов генерируются из текста запроса (безопасно для Linux)

Примечания:
  • Инструмент автоматически добавляет задержки между запросами
  • Извлекается только текстовый контент без скриптов и стилей
  • Заголовки H1-H6 помечаются специальными тегами
  • Сокращённая версия содержит только title, meta description, заголовки h1-h6, элементы списков, ячейки таблиц, текст ссылок, жирный текст и цитаты
  • Кодировка UTF-8 - совместимо с Word и Excel
  • Обработка может занять 5-15 минут в зависимости от количества URL