Парсер сайтов для windows

30+ парсеров для сбора данных с любого сайта

Десктопные/облачные, платные/бесплатные, для SEO, для совместных покупок, для наполнения сайтов, для сбора цен… В обилии парсеров можно утонуть.

Мы разложили все по полочкам и собрали самые толковые инструменты парсинга — чтобы вы могли быстро и просто собрать открытую информацию с любого сайта.

Зачем нужны парсеры

Парсер — это программа, сервис или скрипт, который собирает данные с указанных веб-ресурсов, анализирует их и выдает в нужном формате.

С помощью парсеров можно делать много полезных задач:

  • Цены. Актуальная задача для интернет-магазинов. Например, с помощью парсинга вы можете регулярно отслеживать цены конкурентов по тем товарам, которые продаются у вас. Или актуализировать цены на своем сайте в соответствии с ценами поставщика (если у него есть свой сайт).
  • Товарные позиции: названия, артикулы, описания, характеристики и фото. Например, если у вашего поставщика есть сайт с каталогом, но нет выгрузки для вашего магазина, вы можете спарсить все нужные позиции, а не добавлять их вручную. Это экономит время.
  • Метаданные: SEO-специалисты могут парсить содержимое тегов title, description и другие метаданные.
  • Анализ сайта. Так можно быстро находить страницы с ошибкой 404, редиректы, неработающие ссылки и т. д.

Для справки. Есть еще серый парсинг. Сюда относится скачивание контента конкурентов или сайтов целиком. Или сбор контактных данных с агрегаторов и сервисов по типу Яндекс.Карт или 2Гис (для спам-рассылок и звонков). Но мы будем говорить только о белом парсинге, из-за которого у вас не будет проблем.

Где взять парсер под свои задачи

Есть несколько вариантов:

  1. Оптимальный — если в штате есть программист (а еще лучше — несколько программистов). Поставьте задачу, опишите требования и получите готовый инструмент, заточенный конкретно под ваши задачи. Инструмент можно будет донастраивать и улучшать при необходимости.
  2. Воспользоваться готовыми облачными парсерами (есть как бесплатные, так и платные сервисы).
  3. Десктопные парсеры — как правило, программы с мощным функционалом и возможностью гибкой настройки. Но почти все — платные.
  4. Заказать разработку парсера «под себя» у компаний, специализирующихся на разработке (этот вариант явно не для желающих сэкономить).

Первый вариант подойдет далеко не всем, а последний вариант может оказаться слишком дорогим.

Что касается готовых решений, их достаточно много, и если вы раньше не сталкивались с парсингом, может быть сложно выбрать. Чтобы упростить выбор, мы сделали подборку самых популярных и удобных парсеров.

Законно ли парсить данные?

В законодательстве РФ нет запрета на сбор открытой информации в интернете. Право свободно искать и распространять информацию любым законным способом закреплено в четвертом пункте 29 статьи Конституции.

Допустим, вам нужно спарсить цены с сайта конкурента. Эта информация есть в открытом доступе, вы можете сами зайти на сайт, посмотреть и вручную записать цену каждого товара. А с помощью парсинга вы делаете фактически то же самое, только автоматизированно.

Но если вы хотите собрать персональные данные пользователей и использовать их для email-рассылок или таргетированной рекламы, это уже будет незаконно (эти данные защищены законом о персональных данных).

Десктопные и облачные парсеры

Облачные парсеры

Основное преимущество облачных парсеров — не нужно ничего скачивать и устанавливать на компьютер. Вся работа производится «в облаке», а вы только скачиваете результаты работы алгоритмов. У таких парсеров может быть веб-интерфейс и/или API (полезно, если вы хотите автоматизировать парсинг данных и делать его регулярно).

Например, вот англоязычные облачные парсеры:

  • Import.io,
  • Mozenda (доступна также десктопная версия парсера),
  • Octoparce,
  • ParseHub.

Из русскоязычных облачных парсеров можно привести такие:

  • Xmldatafeed,
  • Диггернаут,
  • Catalogloader.

Любой из сервисов, приведенных выше, можно протестировать в бесплатной версии. Правда, этого достаточно только для того, чтобы оценить базовые возможности и познакомиться с функционалом. В бесплатной версии есть ограничения: либо по объему парсинга данных, либо по времени пользования сервисом.

Десктопные парсеры

Большинство десктопных парсеров разработаны под Windows — на macOS их необходимо запускать с виртуальных машин. Также некоторые парсеры имеют портативные версии — можно запускать с флешки или внешнего накопителя.

Популярные десктопные парсеры:

  • ParserOK,
  • Datacol,
  • Screaming Frog, ComparseR, Netpeak Spider — об этих инструментах чуть позже поговорим подробнее.

Виды парсеров по технологии

Браузерные расширения

Для парсинга данных есть много браузерных расширений, которые собирают нужные данные из исходного кода страниц и позволяют сохранять в удобном формате (например, в XML или XLSX).

Парсеры-расширения — хороший вариант, если вам нужно собирать небольшие объемы данных (с одной или парочки страниц). Вот популярные парсеры для Google Chrome:

  • Parsers;
  • Scraper;
  • Data Scraper;
  • Kimono.

Надстройки для Excel

Программное обеспечение в виде надстройки для Microsoft Excel. Например, ParserOK. В подобных парсерах используются макросы — результаты парсинга сразу выгружаются в XLS или CSV.

Google Таблицы

С помощью двух несложных формул и Google Таблицы можно собирать любые данные с сайтов бесплатно.

Эти формулы: IMPORTXML и IMPORTHTML.

IMPORTXML

Функция использует язык запросов XPath и позволяет парсить данные с XML-фидов, HTML-страниц и других источников.

Вот так выглядит функция:

IMPORTXML("https://site.com/catalog"; "//a/@href")

Функция принимает два значения:

  • ссылку на страницу или фид, из которого нужно получить данные;
  • второе значение — XPath-запрос (специальный запрос, который указывает, какой именно элемент с данными нужно спарсить).

Хорошая новость в том, что вам не обязательно изучать синтаксис XPath-запросов. Чтобы получить XPath-запрос для элемента с данными, нужно открыть инструменты разработчика в браузере, кликнуть правой кнопкой мыши по нужному элементу и выбрать: Копировать → Копировать XPath.

30+ парсеров для сбора данных с любого сайта

С помощью IMPORTXML можно собирать практически любые данные с html-страниц: заголовки, описания, мета-теги, цены и т.д.

IMPORTHTML

У этой функции меньше возможностей — с ее помощью можно собрать данные из таблиц или списков на странице. Вот пример функции IMPORTHTML:

IMPORTHTML("https://https://site.com/catalog/sweets"; "table"; 4)

Она принимает три значения:

  • Ссылку на страницу, с которой необходимо собрать данные.
  • Параметр элемента, который содержит нужные данные. Если хотите собрать информацию из таблицы, укажите «table». Для парсинга списков — параметр «list».
  • Число — порядковый номер элемента в коде страницы.

Об использовании 16 функций Google Таблиц для целей SEO читайте в нашей статье. Здесь все очень подробно расписано, с примерами по каждой функции.

Виды парсеров по сферам применения

Для организаторов СП (совместных покупок)

Есть специализированные парсеры для организаторов совместных покупок (СП). Их устанавливают на свои сайты производители товаров (например, одежды). И любой желающий может прямо на сайте воспользоваться парсером и выгрузить весь ассортимент.

Чем удобны эти парсеры:

  • интуитивно понятный интерфейс;
  • возможность выгружать отдельные товары, разделы или весь каталог;
  • можно выгружать данные в удобном формате. Например, в Облачном парсере доступно большое количество форматов выгрузки, кроме стандартных XLSX и CSV: адаптированный прайс для Tiu.ru, выгрузка для Яндекс.Маркета и т. д.

Популярные парсеры для СП:

  • SPparser.ru,
  • Облачный парсер,
  • Турбо.Парсер,
  • PARSER.PLUS,
  • Q-Parser.

Парсеры цен конкурентов

Инструменты для интернет-магазинов, которые хотят регулярно отслеживать цены конкурентов на аналогичные товары. С помощью таких парсеров вы можете указать ссылки на ресурсы конкурентов, сопоставлять их цены с вашими и корректировать при необходимости.

Вот три таких инструмента:

  • Marketparser,
  • Xmldatafeed,
  • ALL RIVAL.

Парсеры для быстрого наполнения сайтов

Такие сервисы собирают названия товаров, описания, цены, изображения и другие данные с сайтов-доноров. Затем выгружают их в файл или сразу загружают на ваш сайт. Это существенно ускоряет работу по наполнению сайта и экономят массу времени, которое вы потратили бы на ручное наполнение.

В подобных парсерах можно автоматически добавлять свою наценку (например, если вы парсите данные с сайта поставщика с оптовыми ценами). Также можно настраивать автоматический сбор или обновление данных по расписания.

Примеры таких парсеров:

  • Catalogloader,
  • Xmldatafeed,
  • Диггернаут.

Парсеры для SEO-специалистов

Отдельная категория парсеров — узко- или многофункциональные программы, созданные специально под решение задач SEO-специалистов. Такие парсеры предназначены для упрощения комплексного анализа оптимизации сайта. С их помощью можно:

  • анализировать содержимое robots.txt и sitemap.xml;
  • проверять наличие title и description на страницах сайта, анализировать их длину, собирать заголовки всех уровней (h1-h6);
  • проверять коды ответа страниц;
  • собирать и визуализировать структуру сайта;
  • проверять наличие описаний изображений (атрибут alt);
  • анализировать внутреннюю перелинковку и внешние ссылки;
  • находить неработающие ссылки;
  • и многое другое.

Пройдемся по нескольким популярным парсерам и рассмотрим их основные возможности и функционал.

Парсер метатегов и заголовков PromoPult

Стоимость: первые 500 запросов — бесплатно. Стоимость последующих запросов зависит от количества: до 1000 — 0,04 руб./запрос; от 10000 — 0,01 руб.

Возможности

С помощью парсера метатегов и заголовков можно собирать заголовки h1-h6, а также содержимое тегов title, description и keywords со своего или чужих сайтов.

Инструмент пригодится при оптимизации своего сайта. С его помощью можно обнаружить:

  • страницы с пустыми метатегами;
  • неинформативные заголовки или заголовки с ошибками;
  • дубли метатегов и т.д.

Также парсер полезен при анализе SEO конкурентов. Вы можете проанализировать, под какие ключевые слова конкуренты оптимизируют страницы своих сайтов, что прописывают в title и description, как формируют заголовки.

30+ парсеров для сбора данных с любого сайта

Сервис работает «в облаке». Для начала работы необходимо добавить список URL и указать, какие данные нужно спарсить. URL можно добавить вручную, загрузить XLSX-таблицу со списком адресов страниц, или вставить ссылку на карту сайта (sitemap.xml).

Работа с инструментом подробно описана в статье «Как в один клик собрать мета-теги и заголовки с любого сайта?».

Парсер метатегов и заголовков — не единственный инструмент системы PromoPult для парсинга. В SEO-модуле системы можно бесплатно спарсить ключевые слова, по которым добавленный в систему сайт занимает ТОП-50 в Яндексе/Google.

30+ парсеров для сбора данных с любого сайта

Здесь же на вкладке “Слова ваших конкурентов” вы можете выгрузить ключевые слова конкурентов (до 10 URL за один раз).

30+ парсеров для сбора данных с любого сайта

Подробно о работе с парсингом ключей в SEO-модуле PromoPult читайте здесь.

Netpeak Spider

Стоимость: от 19$ в месяц, есть 14-дневный пробный период.

Парсер для комплексного анализа сайтов. С Netpeak Spider можно:

  • провести технический аудит сайта (обнаружить битые ссылки, проверить коды ответа страниц, найти дубли и т.д.). Парсер позволяет находить более 80 ключевых ошибок внутренней оптимизации;
  • проанализировать основные SEO-параметры (файл robots.txt, проанализировать структуру сайта, проверить редиректы);
  • парсить данные с сайтов с помощью регулярных выражений, XPath-запросов и других методов;
  • также Netpeak Spider может импортировать данные из Google Аналитики, Яндекс.Метрики и Google Search Console.

30+ парсеров для сбора данных с любого сайта

Screaming Frog SEO Spider

Стоимость: лицензия на год — 149 фунтов, есть бесплатная версия.

Многофункциональный инструмент для SEO-специалистов, подходит для решения практически любых SEO-задач:

  • поиск битых ссылок, ошибок и редиректов;
  • анализ мета-тегов страниц;
  • поиск дублей страниц;
  • генерация файлов sitemap.xml;
  • визуализация структуры сайта;
  • и многое другое.

30+ парсеров для сбора данных с любого сайта

В бесплатной версии доступен ограниченный функционал, а также есть лимиты на количество URL для парсинга (можно парсить всего 500 url). В платной версии таких лимитов нет, а также доступно больше возможностей. Например, можно парсить содержимое любых элементов страниц (цены, описания и т.д.).

Подробно том, как пользоваться Screaming Frog, мы писали в статье «Парсинг любого сайта «для чайников»: ни строчки программного кода».

ComparseR

Стоимость: 2000 рублей за 1 лицензию. Есть демо-версия с ограничениями.

Еще один десктопный парсер. С его помощью можно:

  • проанализировать технические ошибки на сайте (ошибки 404, дубли title, внутренние редиректы, закрытые от индексации страницы и т.д.);
  • узнать, какие страницы видит поисковой робот при сканировании сайта;
  • основная фишка ComparseR — парсинг выдачи Яндекса и Google, позволяет выяснить, какие страницы находятся в индексе, а какие в него не попали.

30+ парсеров для сбора данных с любого сайта

Анализ сайта от PR-CY

Стоимость: платный сервис, минимальный тариф — 990 рублей в месяц. Есть 7-дневная пробная версия с полным доступом к функционалу.

Онлайн-сервис для SEO-анализа сайтов. Сервис анализирует сайт по подробному списку параметров (70+ пунктов) и формирует отчет, в котором указаны:

  • обнаруженные ошибки;
  • варианты исправления ошибок;
  • SEO-чеклист и советы по улучшению оптимизации сайта.

30+ парсеров для сбора данных с любого сайта

Анализ сайта от SE Ranking

Стоимость: платный облачный сервис. Доступно две модели оплаты: ежемесячная подписка или оплата за проверку.

Стоимость минимального тарифа — 7$ в месяц (при оплате годовой подписки).

Возможности:

  • сканирование всех страниц сайта;
  • анализ технических ошибок (настройки редиректов, корректность тегов canonical и hreflang, проверка дублей и т.д.);
  • поиск страниц без мета-тегов title и description, определение страниц со слишком длинными тегами;
  • проверка скорости загрузки страниц;
  • анализ изображений (поиск неработающих картинок, проверка наличия заполненных атрибутов alt, поиск «тяжелых» изображений, которые замедляют загрузку страниц);
  • анализ внутренних ссылок.

30+ парсеров для сбора данных с любого сайта

Xenu’s Link Sleuth

Стоимость: бесплатно.

Десктопный парсер для Windows. Используется для парсинга все url, которые есть на сайте:

  • ссылки на внешние ресурсы;
  • внутренние ссылки (перелинковка);
  • ссылки на изображения, скрипты и другие внутренние ресурсы.

Часто применяется для поиска неработающих ссылок на сайте.

30+ парсеров для сбора данных с любого сайта

A-Parser

Стоимость: платная программа с пожизненной лицензией. Минимальный тарифный план — 119$, максимальный — 279$. Есть демо-версия.

Многофункциональный SEO-комбайн, объединяющий 70+ разных парсеров, заточенных под различные задачи:

  • парсинг ключевых слов;
  • парсинг данных с Яндекс и Google карт;
  • мониторинг позиций сайтов в поисковых системах;
  • парсинг контента (текст, изображения, видео) и т.д.

Кроме набора готовых инструментов, можно создать собственный парсер с помощью регулярных выражений, языка запросов XPath или Javascript. Есть доступ по API.

30+ парсеров для сбора данных с любого сайта

Чек-лист по выбору парсера

Краткий чек-лист, который поможет выбрать наиболее подходящий инструмент или сервис.

  1. Четко определите, для каких задач вам нужен парсер: анализ SEO конкурентов или мониторинг цен, сбор данных для наполнения каталога, съем позиций и т.д.
  2. Определите, какой объем данных и в каком виде нужно получать.
  3. Определите, как часто вам нужно собирать данные: единоразово или с определенной периодичностью (раз в день/неделю/месяц).
  4. Выберите несколько инструментов, которые подходят для решения ваших задач. Попробуйте демо-версии. Узнайте, предоставляется ли техническая поддержка (желательно даже протестировать ее — задать парочку вопросов и посмотреть, как быстро вы получите ответ и насколько он будет исчерпывающим).
  5. Выберите наиболее подходящий сервис по соотношению цена/качество.

Для крупных проектов, где требуется парсить большие объемы данных и производить сложную обработку, более выгодной может оказаться разработка собственного парсера под конкретные задачи.

Для большинства же проектов достаточно будет стандартных решений (возможно, вам может быть достаточно бесплатной версии любого из парсеров или пробного периода).

Парсинг сайтов — автоматизированный процесс извлечения данных или информации с веб-страниц. После извлечения необходимых данных по ним можно осуществлять поиск, переформатировать их, копировать и т.д. 

Программное обеспечение для парсинга веб-страниц используется большинством компаний, занимаются они маркетингом, исследованиями или анализом данных. Парсинг полезен для сравнения продуктов и цен, поиска отзывов о товарах ваших конкурентов, поиска информации для размещения на вашем сайте или извлечения огромных объемов данных с веб-сайтов для проведения соответствующих маркетинговых исследований и т.д.

0.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.00796.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.001,668.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.0018,058.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.001,132.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.001,814.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.00330.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

0.0099.00

Этот товар имеет несколько вариаций. Опции можно выбрать на странице товара.

Лучшее бесплатное программное обеспечение для парсинга сайтов

Ищете ли вы потенциальных клиентов, проводите анализ рынка или собираете данные для проверки своих моделей машинного обучения — вам так или иначе нужно получать данные со сторонних ресурсов. Вот некоторые из лучших бесплатных программ для парсинга веб-страниц.

1. Mozenda

Mozenda помогает компаниям в сборе и организации данных наиболее экономичным и эффективным способом. Компания предлагает облачную архитектуру, которая обеспечивает масштабируемость, простоту использования и быстрое развертывание. Внедрить Mozenda можно довольно быстро, к тому же развернуть это ПО можно за считанные минуты, на уровне бизнес-подразделения, без какого-либо участия ИТ-отдела. Его простой point-and-click интерфейс помогает пользователям создавать проекты и быстро экспортировать результаты, самостоятельно или по расписанию. Благодаря простоте интеграции пользователи могут публиковать полученные результаты в формате CSV, TSV, XML или JSON.

Лучшая функция: безопасная облачная среда

Минусы: крутая кривая обучения

Рейтинг Capterra: 4.5/5

Рейтинг G2 Crowd: 4/5

Рейтинг TrustRadius: 9.5/10

Награды: один из «200 лучших программных продуктов для бизнес-аналитики» от FinancesOnline

Что говорят пользователи (упоминания в социальных сетях): «Мне понравилось, как быстро можно настроить программу и собрать данные с сайтов. Я мог бы начать новый проект, задать параметры и начать собирать данные за несколько часов. Данные почти всегда собираются в правильном формате, без каких-либо пробелов. Инструмент прост в использовании и ограничен только тарифным планом».

2. Automation Anywhere

Компания Automation Anywhere состоит из группы экспертов, которые сосредоточены на предоставлении полностью понимаемых и гибких процессов создания ботов, предназначенных для автоматизации задач. Такие боты не только просты в использовании, но и достаточно мощны, чтобы автоматизировать задачи любого уровня сложности. Это единственная роботизированная платформа, разработанная для современных предприятий, которая может создавать программных ботов для автоматизации задач от начала и до конца.

Лучшая особенность: гибкие инструменты автоматизации процессов

Минусы инструмента: сложный процесс проектирования

Рейтинг Capterra: 4.5/5

Рейтинг G2 Crowd: 4.5/5

Рейтинг TrustRadius: 8.3/10

Награды: Frost and Sullivan Award

Что говорят пользователи: «Automation Anywhere — это отличная платформа, создающая ботов, которые выполняют все типы задач иРейтинг сокращающих ручной труд. Она предоставляет нам множество встроенных функций. Мне нравится больше всего валидация PDF-документов, с высокой точностью и большой скоростью. Это помогает мне увеличить производительность».

3. Beautiful Soup

Предоставляя вам простые шаги и идиомы Python для навигации, Beautiful Soup дает доступ к инструментам извлечения любой необходимой информации. Программное обеспечение для парсинга веб-страниц автоматически преобразует входящие документы в Unicode и исходящие документы в UTF-8. Это позволяет вам использовать различные стратегии парсинга или изменять скорость и гибкость процессов.

Лучшая особенность: Python-идиомы для работы и извлечения информации

Рейтинг G2 Crowd: 4.5/5

Рейтинг Capterra: нет

Рейтинг TrustRadius: нет

4. Webharvy

Интерфейс Web Harvy позволяет легко выбрать элементы с нужной информацией. Извлеченные данные могут быть сохранены в файлы CSV, JSON, XML или в базе данных SQL. В этом программном обеспечении имеется многоуровневая система парсинга категорий, которая может отслеживать ссылки на категории любых уровней и извлекать данные со страниц со списками. Инструмент предлагает вам большую гибкость и дает возможность использовать регулярные выражения.

Лучшая функция: очень простой в использовании интерфейс

Минусы: скорость работы

Рейтинг Capterra: 4.5/5

Рейтинг G2 Crowd: 4.6/5

Рейтинг Predictive Analysis Today: 8.1/10

Рейтинг TrustRadius: нет

Что говорят пользователи: «Мне нравится, как они сделали короткие обучающие видео. Это делает инструмент очень простым в использовании. Компания даже помогает использовать регулярные выражения для извлечения определенных текстов».

5. Content Grabber

Простой интерфейс Content Grabber имеет прекрасную возможность автоматического обнаружения и настройки команд. Он мгновенно создает списки контента, обрабатывает нумерацию страниц и веб-форм, а также сам скачивает или закачивает файлы. Content Grabber может извлекать контент с любого сайта, а затем сохранять его в виде структурированных данных в нужном вам формате, будь то таблицы Excel, XML, CSV или большинство из используемых сейчас баз данных. Его высокая производительность и стабильность обеспечивается оптимизированными браузерами, а также отлаженным процессом парсинга.

ПРИМЕЧАНИЕ: компания также разрабатывает и продает Content Grabber Enterprise (CG Enterprise), который является премиальным продуктом для извлечения данных с сайтов, и он сегодня считаем самым современным инструментом на рынке.

Лучшая функция: настраиваемый пользовательский интерфейс

Минусы инструмента: мало поддержки

Рейтинг Predictive Analysis Today: 9.5/10

Рейтинг Software Advice: 5/5

Рейтинг G2 Crowd: 4/5

Рейтинг Capterra: нет

Рейтинг TrustRadius: нет

Что говорят пользователи: «Прост в использовании, не требует специальных навыков программирования. Возможность получения данных с целевых сайтов за считанные минуты. Отлично подходит для создания списка потенциальных клиентов».

6. FMiner 

FMiner поддерживает как Windows, так и Mac, он имеет интуитивно понятный интерфейс и чрезвычайно прост в использовании. У этой программы мощный инструмент визуального дизайна, который фиксирует каждый ваш шаг и моделирует процесс сбора информации, когда вы взаимодействуете с целевыми страницами сайта. FMiner позволяет собирать данные с различных веб-сайтов, включая онлайн-каталоги продукции, объявления о недвижимости и каталоги желтых страниц.

Лучшая функция: несколько вариантов обхода сайтов

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

7. Import.io

Import.io — признанный инструмент парсинга, который позволяет без проблем извлекать данные с сайтов. Все, что вам нужно сделать, это ввести URL-адрес, и система немедленно превратит страницы в данные. Это программное обеспечение является идеальным решением для мониторинга цен, чтобы определить ожидания рынка и найти наиболее оптимальную цену. Он помогает вам генерировать качественные лиды и предоставляет ежедневные или ежемесячные обновления, чтобы помочь отслеживать действия конкурентов.

Лучшая функция: гибкая настройка обхода сайтов

Минусы: не очень удобный интерфейс

Рейтинг Capterra: 4/5

Рейтинг G2 Crowd: 4/5

Рейтинг TrustRadius: 2.9/10

Рейтинг Predictive Analysis Today: 7.3/10

Полученные награды: Лучший новичок в Londata Awards 2012

Что говорят пользователи: «С помощью интеллектуального извлечения данных легко начать работу, можно сделать многое и без регулярных выражений или настройки запросов — Масштабируемость — Отличная поддержка».

8. Visual Web Ripper

Visual Web Ripper — это продвинутый парсер для веб-страниц, который позволяет извлекать данные с динамических страниц, из каталогов продуктов, сайтов с объявлениями или финансовых сайтов. После извлечения данных он помещает их в удобную и структурированную базу данных, электронную таблицу, файл CSV или XML. Поскольку он может обрабатывать сайты с поддержкой AJAX и многократно отправлять формы со всеми возможными значениями, он может работать там, где остальные парсеры пасуют.

Лучшая функция: работа через командную строку

Минусы инструмента: высокая цена

Рейтинг Capterra: 4/5

Рейтинг G2 Crowd: 5/5

Рейтинг Predictive Analysis Today: 7.1/10

Рейтинг Scraping Pro: 4.7/5

Рейтинг TrustRadius: нет

Что говорят пользователи: «Visual Web Ripper сэкономил мое время, помог собрать нужную информацию со многих веб-сайтов. Если вы захотите получить информацию, Visual Web Ripper вас не подведет».

9. Webhose.io

Webhose.io по запросу предоставляет вам доступ к структурированным веб-данным. Это позволяет создавать, запускать и масштабировать операции с большими данными независимо от того, являетесь ли вы исследователем, предпринимателем или руководителем компании. Программное обеспечение структурирует, хранит и индексирует миллионы веб-страниц в день в разных вертикалях, таких как новости, блоги и онлайн-обсуждения.

Лучшая функция: доступен на 80 языках

Сайт: https://webhose.io/

Рейтинг Capterra: 5/5

Рейтинг G2 Crowd: 4/5

Рейтинг Predictive Analysis Today: 4.3/10

Рейтинг TrustRadius: нет

Что говорят пользователи: «Сервис позволяет вам обращаться к множеству общедоступных данных, которые можно просто использовать для создания бизнес-инструментов».

10. Scrapinghub Platform

Scrapinghub Platform известна тем, что создает, разворачивает и запускает веб-краулеры, обеспечивая получение новейшей информации. Данные можно легко просмотреть в красивом интерфейсе. Программное обеспечение также предоставляет вам платформу с открытым исходным кодом под названием Portia, которая предназначена для парсинга веб-сайтов. Вы можете создавать шаблоны, нажимая на элементы на странице, а Portia обработает все остальное. Компания также создает автоматизированную утилиту, которая удаляет похожие страницы с веб-сайта.

Лучшая функция: база данных обнаружения банов

Сайт: https://scrapinghub.com/platform

Минусы: недостаточно документации

Рейтинг Capterra: 4.5/5

Рейтинг G2 Crowd: 4/5

Рейтинг Predictive Analysis Today: 8.1

Рейтинги от TrustRadius: нет

Что говорят пользователи: «Четкий, подробный и прозрачный процесс. Удаленная и гибкая рабочая среда. Чрезвычайно дружелюбная обстановка для работы и прекрасный менеджмент».

11. Helium Scraper

Helium Scraper предлагает гибкий, интуитивно понятный интерфейс, который чрезвычайно прост. У этого инструмента широкий выбор настроек, так что вы можете выбрать те, которые необходимы вам. Вы можете просматривать сайты, извлекать и сохранять данные. Уникальное предложение Helium Scraper — функция «укажи и щелкни», которая позволяет быстро и с минимальными нагрузками проводить извлечение данных. Helium Scraper позволяет своим пользователям выбрать то, что нужно извлечь, с помощью нескольких простых кликов. У инструмента есть возможность добавлять собственные расширения, написанные на .NET.

Лучшая функция: поддерживает несколько форматов экспорта

Сайт: https://www.heliumscraper.com/eng/

Рейтинг Capterra: Рейтинги не предоставлены

Рейтинг SoftPedia: 4.6/5

Рейтинг CrowdReviews: 4/5

Рейтинг Scraping Pro: 4.5 / 5

12. GNU Wget

GNU Wget помогает получать данные с использованием HTTP, HTTPS и FTP, наиболее используемых интернет-протоколов. Он может легко извлекать большие файлы, а также выполнять зеркалирование целых веб- или FTP-сайтов. Программное обеспечение работает хорошо, даже если соединение медленное или нестабильное.

Лучшая функция: поддерживает HTTP куки

Сайт: https://www.gnu.org

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Рейтинги от Predictive analysis Today: 8.4/10

Рейтинг SoftPedia: 3.1/5

13. Web Scraper 

Web Scraper предлагает два варианта: расширение для Google Chrome и облачную платформу. Программное обеспечение создает карты сайтов и перемещается по ним для извлечения необходимых файлов, изображений, текстов и ссылок. Оно может выполнять несколько операций парсинга и извлечения больших объемов данных одновременно, а также позволяет экспортировать очищенные данные, например в CSV.

Лучшая функция: извлечение данных из документов современных веб-форматов

Сайт: https://webscraper.io/

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Рейтинг Predictive Analytics сегодня: 8.2/10

14. IEPY

IEPY поставляется с инструментом анализа текстов и веб-интерфейсом. Его главная ценность — извлечение информации с пониманием взаимоотношений внутри нее в большом масштабе. 

Лучшая функция: инструмент для аннотаций естественного языка

Сайт: https://buildmedia.readthedocs.org/media/pdf/iepy/latest/iepy.pdf

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

15. ScrapingExpert

Если речь идет об извлечении информации о потенциальных клиентах, ценах, конкурентах и поставщиках, то ваш выбор — ScrapingExpert. Этот инструмент помогает расширить знания о вашей целевой аудитории, доле рынка, ценовой политике и поставках сырья, предоставляя вам информацию, связанную с вашими конкурентами и их продуктами, а также с доступными дилерами. Его уникальные функции включают поддержку на сайте, панель управления на одном экране, управление прокси и настройку учетных данных на нужных сайтах.

Лучшая функция: опции «Пуск», «Стоп», «Пауза» и «Сброс»

Сайт: https://scrapingexpert.com/

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

16. Ficstar 

Благодаря мощной технологии парсинга веб-страниц, Ficstar позволяет вам делать более осмысленные шаги в области создания и реализации компетентных бизнес-стратегий. Он помогает в сборе больших данных, достигая даже самых дальних уголков Интернета. Помимо того, что Ficstar безопасен и надежен, он прекрасно интегрируется в любую базу данных, и собранные данные можно сохранять в любом формате.

Лучшая функция: мониторинг социальных сетей

Сайт: https://ficstar.com/

Минусы: из-за принципа действия этого парсера, внешние факторы, которые находятся вне вашего контроля, могут замедлять доставку результатов.

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Рейтинг Predictive Analytics Today: 8.3/10

17. QL2

QL2 помогает своим пользователям управлять бизнес-процессами, ценами и доходами. Используя свою технологию поиска в реальном времени, это программное обеспечение помогает компаниям ежедневно выполнять многочисленные запросы. Оно предоставляет своим пользователям всесторонние и актуальные данные о текущем рынке и целевой аудитории. QL2 получает информацию с разных платформ и помогает вам выполнять более глубокие и интенсивные исследования.

Лучшая функция: предоставляет информацию о рынке

Сайт: https://www.ql2.com/

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Рейтинг Predictive Analytics Today: 8.4/10

18. Frontera

Система парсинга веб-страниц Frontera состоит из инструмента обхода сайтов и примитивов распространения/масштабирования. Платформа заботится обо всей логике и политиках, которые необходимо соблюдать во время процесса парсинга. Она хранит и задает приоритеты в извлеченных данных, чтобы решить, какую страницу посетить в следующий раз, и делает все это осмысленным образом.

Лучшая особенность: поддержка Python 3

Сайт: https://github.com/scrapinghub/frontera

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

19. Apify 

Apify предлагает специальные функции, а именно RequestQueue и AutoscaledPool. Он позволяет начать с нескольких URL-адресов, а затем переходить по ссылкам на другие страницы и запускать задачи извлечения данных с максимальной производительностью. Доступные форматы данных — JSON, JSONL, CSV, XML, XLSX или HTML с CSS. Он поддерживает любой тип сайтов и имеет встроенную поддержку Puppeteer.

Лучшая функция: RequestQueue и AutoscaledPool

Сайт: https://apify.com/

Рейтинг Capterra: 5/5

Рейтинг G2 Crowd: 4/5

Рейтинг TrustRadius: нет

Что говорят пользователи: «Я запустил все буквально в течение нескольких минут. Нет необходимости изучать новые языки программирования или навыки».

20. WebSundew

WebSundew, с его инструментами получения и очистки данных, позволяет пользователям извлекать информацию с сайтов быстрее. Программное обеспечение для сбора данных получает данные с веб-сайтов с чрезвычайно высокой точностью и скоростью. Сотрудники компании помогут вам настроить агента для извлечения данных, который будет работать над парсингом страниц.

Лучшая особенность: ориентированная на клиента профессиональная поддержка

Сайт: http://www.websundew.com/

Рейтинг Scraping Pro: 4/5

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

21. Grepsr 

Grepsr помогает вам просто управлять процессом извлечения данных с веб-страниц. Компании могут использовать получаемую информацию для поиска потенциальных клиентов, мониторинга цен, исследований рынка или агрегации контента. Это удобное программное обеспечение для поиска в Интернете имеет такие функции, как неограниченная скорость сканирования, однократное извлечение, глубокий и поэтапный обход, API и пользовательские интеграции. Grepsr предоставляет компаниям удобные для заполнения онлайн-формы, чтобы помочь им уточнить свои требования к данным, а также позволяет планировать сканирование в календаре.

Лучшая функция: неограниченная скорость сканирования

Сайт: https://www.grepsr.com

Рейтинг Capterra: 4.5/5

Рейтинг GetApp: 4.66/5

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Что говорят пользователи: «Это как щелкать выключателем или отвечать на телефонные звонки — все работает надежно и точно».

22. BCL 

BCL — это специальное программное обеспечение для сканирования веб-страниц, которое сокращает не только время, необходимое для сбора данных, но и общее время рабочих процессов. Решения BCL для извлечения данных и обработки информационных потоков помогают упростить процесс парсинга для каждой организации, которая решит его использовать.

Лучшая функция: преобразование PDF

Сайт: http://www.bcltechnologies.com

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

23. Connotate Cloud 

Connotate Cloud достаточно эффективен для извлечения данных с сайтов, использующих JavaScript и Ajax. Это программное обеспечение для поиска в Интернете легко внедрить, к тому же оно использует передовые алгоритмы машинного обучения. Connotate Cloud не зависит от языка, что означает, что он может извлекать данные на любых языках. Connotate Cloud анализирует содержимое и выдает предупреждения в случае необходимости каких-либо изменений. Его point-and-click интерфейс обладает мощными возможностями обработки, которые могут нормализовать контент сразу на нескольких сайтах. Кроме того, это ПО помогает автоматически связывать контент с соответствующими метаданными.

Лучшая особенность: независимость от языка

Сайт: https://www.connotate.com/

Минусы: выявление пробелов и их устранение может занять много времени

Рейтинг Каптерры: 4/5

Рейтинг Predictive Analytics Today: 8.7/10

Рейтинг TrustRadius: нет

Рейтинг G2 Crowd: нет

Что говорят пользователи: «Connotate является гибким и интеллектуальным и позволяет моей команде еженедельно контролировать десятки тысяч веб-сайтов».

24. Octoparse

Будучи визуальным инструментом, Octoparse обладает point-and-click интерфейсом и позволяет легко выбирать данные, которые нужно получить с веб-сайта. Программное обеспечение может управлять как статическими, так и динамическими сайтами с помощью AJAX, JavaScript, файлов cookie и т.д. Оно также предлагает расширенные облачные сервисы, позволяющие извлекать большие объемы данных. Извлеченные данные можно экспортировать в форматы TXT, CSV, HTML или XLSX.

Лучшая функция: извлечение данных в любом формате

Сайт: https://www.octoparse.com

Минусы: достаточно сложный инструмент

Рейтинг Capterra: 4.5/5

Рейтинг TrustRadius: 9.4/10

Рейтинги от G2: 3.5/5

Рейтинг Software Advice: 4.63/5

Рейтинг Predictive Analytics Today: 9.6/10

Что говорят пользователи: «Он простой, дружелюбный, интуитивно понятный и имеет линейный процесс взаимодействия».

25. Scrapy 

Scrapy позволяет пользователям эффективно извлекать данные с сайтов, обрабатывать их и хранить в любом формате или структурах, которые они предпочитают. Одной из его уникальных особенностей является то, что он построен на основе асинхронной сетевой структуры Twisted. Среди других интересных особенностей Scrapy — простота использования, подробная документация и активное сообщество.

Лучшая функция: встроенные расширения и промежуточное программное обеспечение (middleware)

Сайт: https://scrapy.org/

Рейтинг Predictive Analysis Today: 8.4/10

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

26. Parsehub

Функции Parsehub для парсинга веб-страниц позволяют сканировать как один, так и сразу несколько веб-сайтов с поддержкой JavaScript, AJAX, файлов cookie, сеансов и редиректов. Он может анализировать и получать данные с разных веб-сайтов и преобразовывать их в значимую информацию. Программное обеспечение использует технологию машинного обучения для распознавания наиболее сложных документов и создает выходной файл в формате JSON, CSV, Google Sheets или отдает данные через API.

Лучшая особенность: технология машинного обучения

Сайт: https://www.parsehub.com

Минусы: не слишком удобный

Рейтинг Capterra: 4.5/5

Рейтинг TrustRadius: нет

Рейтинг G2 Crowd: 3.5/5

Что говорят пользователи: «Извлекает информацию с большинства веб-страниц и не требует от вас глубоких знаний. Базовая функциональность проста в использовании, а расширенной можно научиться и она очень сильна».

27. OutwitHub 

OutwitHub — лучший вариант, если вы хотите собирать данные, которые не всегда доступны. Он использует свои функции автоматизации для последовательного просмотра страниц, а затем выполняет задачи извлечения данных. Информация может быть экспортирована в различных форматах, включая JSON, XLSX, SQL, HTML и CSV. OutWitHub можно использовать как в качестве расширения, так и в качестве отдельного приложения.

Лучшая функция: может экспортировать данные в различных форматах

Сайт: http://www.outwit.com/

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Рейтинг Scrapingpro: 4.5/5

Рейтинг Softpedia: 4.9/5

28. Dexi.io

Ранее известный как CloudScrape, Dexi.io предоставляет различные типы роботов для выполнения операций в вебе — сканеры, экстракторы, автоботы и т.п. Роботы-экстракторы являются наиболее продвинутыми, так как они позволяют вам выбрать любое действие, которое вы хотите, чтобы выполнил робот, например, нажатие кнопок или получение скриншотов. Программное обеспечение для поиска также предлагает несколько интеграций со сторонними сервисами.

Лучшая особенность: роботы-экстракторы

Сайт: https://dexi.io

Минусы инструмента: «рваный» пользовательский опыт

Рейтинг Capterra: 4.5/5

Рейтинг GetApp: 4.6/5

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Что говорят пользователи: «Я рад решению, которому легко научиться, а кроме того благодарен команде Dexi за помощь в настройке первой пары операций».

29. PySpider 

PySpider обладает распределенной архитектурой, которая поддерживает JavaScript-страницы и позволяет иметь сразу несколько сканеров. Он может хранить данные в выбранном вами бэкэнде, таком как MongoDB, MySQL, Redis и т.д. RabbitMQ, Beanstalk и Redis могут использоваться в качестве очередей сообщений. Пользовательский интерфейс PySpider прост в использовании и позволяет редактировать сценарии, отслеживать текущие задачи и просматривать результаты.

Лучшая особенность: простой в использовании интерфейс

Сайт: http://docs.pyspider.org/en/latest/

Рейтинг Capterra: нет

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

30. Spinn3r

Если вы хотите собрать целую кучу данных из блогов, новостных сайтов, социальных сетей и RSS-каналов, Spinn3r станет отличным вариантом. Программное обеспечение использует Firehose API, который управляет 95% работ по сканированию и индексированию. Вам предоставляется возможность фильтровать данные, которые он получает, по ключевым словам, что помогает отсеивать нерелевантный контент.

Лучшая функция: Firehose API

Сайт: http://docs.spinn3r.com

Рейтинг Capterra: 5/5

Рейтинг G2 Crowd: нет

Рейтинг TrustRadius: нет

Резюмируя

В наши дни парсинг стал неотъемлемой частью обработки данных. Компании и организации, как большие, так и малые, хотят сканировать сайты для сбора необходимых данных и принятия выгодных и эффективных решений на их основе. Это бесплатное программное обеспечение может помочь вам в этом процессе. Их уникальные функции и всеобъемлющий набор спецификаций дадут вам именно те инструменты для поиска в Интернете, которые вы ищете.

Просмотров: 7 130

Как парсить сайт: 20+ инструментов на все случаи жизни

Парсинг (web scraping) — это автоматизированный сбор открытой информации в интернете по заданным условиям. Парсить можно данные с сайтов, поисковой выдачи, форумов и социальных сетей, порталов и агрегаторов. В этой статье разбираемся с парсерами сайтов.

Часто требуется получить и проанализировать большой массив технической и коммерческой информации, размещенной на своих проектах или сайтах конкурентов. Для сбора таких данных незаменимы парсеры — программы или сервисы, которые «вытаскивают» нужную информацию и представляют ее в структурированном виде.

Парсинг — это законно?

Сбор открытой информации в интернете не запрещен законодательством РФ. Более того, в п.4 статьи 29 Конституции закреплено «право свободно искать, получать, передавать, производить и распространять информацию любым законным способом». Парсинг данных часто сравнивают с фотографированием ценников в магазинах: если информация есть в открытом доступе, не защищена авторским правом или другими ограничениями, значит, ее можно копировать и распространять.

Применительно к данным в интернете это значит, что законным является сбор сведений, для получения которых не требуется авторизация. А вот персональные данные пользователей защищены отдельным законом и парсить их с целью таргетирования рекламы или email-рассылок нельзя.

Парсинг — это законно?

Кому и зачем нужны парсеры сайтов

Классификация парсеров

Парсеры сайтов по способу доступа к интерфейсу

Облачные парсеры

Программы-парсеры

Парсеры сайтов в зависимости от используемой технологии

Парсеры на основе Python и PHP

Парсеры-расширения для браузеров

Парсеры сайтов на основе Excel

Парсинг при помощи Google Таблиц

Парсеры сайтов в зависимости от решаемых задач

Парсеры для организаторов совместных покупок (СП)

Сервисы мониторинга конкурентов

Сбор данных и автонаполнение контентом

Многофункциональные парсеры

SEO-парсеры

Screaming Frog SEO Spider

Netpeak Spider

ComparseR

SiteAnalyzer от Majento

Анализ сайта от SE Ranking

A-Parser

Анализ сайта от PR-CY

Xenu’s Link Sleuth

Парсер метатегов и заголовков PromoPult

Как выбрать парсер

Кому и зачем нужны парсеры сайтов

Парсеры экономят время на сбор большого объема данных и группировку их в нужный вид. Такими сервисами пользуются интернет-маркетологи, вебмастера, SEO-специалисты, сотрудники отделов продаж.

Парсеры могут выполнять следующие задачи:

  • Сбор цен и ассортимента. Это полезно для интернет-магазинов. При помощи парсера можно мониторить цены конкурентов и наполнять каталог на своем ресурсе в автоматическом режиме.
  • Парсинг метаданных сайта (title, description, заголовков H1) пригодится SEO-специалистам.
  • Анализ технической оптимизации ресурса (битые ссылки, ошибки 404, неработающие редиректы и др.) потребуется сеошникам и вебмастерам.
  • Программы для скачивания сайтов целиком или парсеры контента (текстов, картинок, ссылок) находятся в «серой» зоне. С их помощью недобросовестные вебмастера клонируют сайты для последующей продажи с них ссылок. Сюда же отнесем парсинг данных с агрегаторов и картографических сервисов: Авито, Яндекс Карт, 2gis и других. Собранные базы используются для спамных обзвонов и рассылок.

Кому и для каких целей требуются парсеры, разобрались. Если вам нужен этот инструмент, есть несколько способов его заполучить.

  1. При наличии программистов в штате проще всего поставить им задачу сделать парсер под нужные цели. Так вы получите гибкие настройки и оперативную техподдержку. Самые популярные языки для создания парсеров — PHP и Python.
  2. Воспользоваться бесплатным или платным облачным сервисом.
  3. Установить подходящую по функционалу программу.
  4. Обратиться в компанию, которая разработает инструмент под ваши нужды (ожидаемо самый дорогой вариант).

С первым и последним вариантом все понятно. Но выбор из готовых решений может занять немало времени. Мы упростили эту задачу и сделали обзор инструментов.

Классификация парсеров

Парсеры можно классифицировать по различным признакам.

  1. По способу доступа к интерфейсу: облачные решения и программы, которые требуют установки на компьютер.
  2. По технологии: парсеры на основе языков программирования (Python, PHP), расширения для браузеров, надстройки в Excel, формулы в Google таблицах.
  3. По назначению: мониторинг конкурентов, сбор данных в определенной нише рынка, парсинг товаров и цен для наполнения каталога интернет-магазина, парсеры данных соцсетей (сообществ и пользователей), проверка оптимизации своего ресурса.

Разберем парсеры по разным признакам, подробнее остановимся на парсерах по назначению.

Парсеры сайтов по способу доступа к интерфейсу

Облачные парсеры

Облачные сервисы не требуют установки на ПК. Все данные хранятся на серверах разработчиков, вы скачиваете только результат парсинга. Доступ к программному обеспечению осуществляется через веб-интерфейс или по API.

Примеры облачных парсеров с англоязычным интерфейсом:

  • http://import.io/,
  • Mozenda (есть также ПО для установки на компьютер).

Примеры облачных парсеров с русскоязычным интерфейсом:

  • Xmldatafeed,
  • Диггернаут,
  • Catalogloader.

У всех сервисов есть бесплатная версия, которая ограничена или периодом использования, или количеством страниц для сканирования. Обретите внимание, что при оплате иностранных сервисов с российской карты могут возникнуть проблемы.

Программы-парсеры

ПO для парсинга устанавливается на компьютер. В подавляющем большинстве случаев такие парсеры совместимы с ОС Windows. Обладателям mac OS можно запускать их с виртуальных машин. Некоторые программы могут работать со съемных носителей.

Примеры парсеров-программ:

  • ParserOK,
  • Datacol,
  • Octoparce,
  • ParseHub.
  • SEO-парсеры — Screaming Frog, ComparseR, Netpeak Spider и другие.

Парсеры сайтов в зависимости от используемой технологии

Парсеры на основе Python и PHP

Такие парсеры создают программисты. Без специальных знаний сделать парсер самостоятельно не получится. На сегодня самый популярный язык для создания таких программ Python. Разработчикам, которые им владеют, могут быть полезны:

  • библиотека Beautiful Soup;
  • фреймворки с открытым исходным кодом, например, Scrapy.

Заказывать разработку парсера с нуля стоит только для нестандартных задач. Для большинства целей можно подобрать готовые решения.

Парсеры-расширения для браузеров

Парсить данные с сайтов могут бесплатные расширения для браузеров. Они извлекают данные из html-кода страниц при помощи языка запросов Xpath и выгружают их в удобные для дальнейшей работы форматы —  XLSX, CSV, XML, JSON, Google Таблицы и другие. Так можно собрать цены, описания товаров, новости, отзывы и другие типы данных.

Примеры расширений для Chrome: Parsers, Scraper, Data Scraper.

Парсеры сайтов на основе Excel

В таких программах парсинг с последующей выгрузкой данных в форматы XLS* и CSV реализован при помощи макросов — специальных команд для автоматизации действий в MS Excel. Пример такой программы — ParserOK. Бесплатная пробная версия ограничена периодом в 10 дней.

Парсинг при помощи Google Таблиц

В Google Таблицах парсить данные можно при помощи двух функций — importxml и importhtml.

  • Функция IMPORTXML импортирует данные из источников формата XML, HTML, CSV, TSV,  RSS, ATOM XML в ячейки таблицы при помощи запросов Xpath. Синтаксис функции:
IMPORTXML("https://site.com/catalog"; "//a/@href")

IMPORTXML(A2; B2)

Расшифруем: в первой строке содержится заключенный в кавычки url (обязательно с указанием протокола) и запрос Xpath.

Знание языка запросов Xpath для использования функции не обязательно, можно воспользоваться опцией браузера «копировать Xpath»:

Как парсить сайт: 20+ инструментов на все случаи жизни

Вторая строка указывает ячейки, куда будут импортированы данные.

IMPORTXML можно использовать для сбора метатегов и заголовков, количества внешних ссылок со страницы, количества товаров на странице категории и других данных.

  • У IMPORTHTML более узкий функционал — она импортирует данные из таблиц и списков, размещенных на странице сайта. Синтаксис функции:
IMPORTHTML("https://https://site.com/catalog/sweets"; "table"; 4)

IMPORTHTML(A2; B2; C2)

Расшифруем: в первой строке, как и в предыдущем случае, содержится заключенный в кавычки URL (обязательно с указанием протокола), затем параметр «table», если хотите получить данные из таблицы, или «list», если из списка. Числовое значение (индекс) означает порядковый номер таблицы или списка в html-коде страницы.

Парсеры сайтов в зависимости от решаемых задач

Чтобы не ошибиться с выбором ПО или облачного сервиса для парсинга, нужно понимать спектр задач, которые они решают. Мы разделили парсеры по сферам применения.

Парсеры для организаторов совместных покупок (СП)

Отдельная категория парсеров предназначена для тех, кто занимается организацией совместных покупок в соцсетях ВКонтакте и Одноклассники. Владельцы групп СП закупают партии товара мелким оптом по цене дешевле, чем в розницу. Для этого нужно постоянно мониторить ассортимент и цены на сайтах поставщиков. Чтобы сократить трудозатраты, можно использовать специализированные парсеры.

У таких парсеров простой, интуитивно понятный интерфейс панели управления, в котором можно указать необходимые настройки — страницы для парсинга, расписание, группы в соцсетях для выгрузки и другие.

Примеры сервисов:

  • SPparser.ru,
  • Турбо.Парсер,
  • PARSER.PLUS,
  • Q-Parser,
  • Облачный парсер.

Что умеют парсеры для СП:

  • парсить товары из интернет-магазинов и групп в соцсетях;
  • выгружать товары с фото и ценами в альбомы соцсетей — Одноклассники и ВКонтакте;
  • выгружать данные в формате CSV и XLS(X);
  • обновлять информацию в автоматическом режиме — подгружать новые товары и удалять те, которых нет в наличии.

Сервисы мониторинга конкурентов

Эта группа парсеров позволяет ценам в интернет-магазине оставаться на уровне рынка. Сервисы мониторят заданные ресурсы, сопоставляют товары и цены на них с вашим каталогом и предоставляет возможность скорректировать цену на более привлекательную. Такие парсеры мониторят сайты конкурентов, обновляемые прайсы в форматах XLS(X), CSV и других, маркетплейсы (Яндекс Маркет, Wildberries, e-katalog и другие прайс-агрегаторы).

Примеры парсеров цен конкурентов:

  • Marketparser,
  • Xmldatafeed,
  • ALL RIVAL.

Сбор данных и автонаполнение контентом

Такие парсеры облегчают работу контент-менеджерам интернет-магазинов тем, что заменяют ручной мониторинг сайтов поставщиков, сравнение и изменение ассортимента, описаний, цен. Парсер собирает данные с сайтов-доноров (названия и описания товаров, цены, изображения и др.), выгружает их в файл или сразу на сайт. В настройках есть возможность сделать наценку, объединить данные с нескольких сайтов, запускать сбор данных в автоматическом режиме по расписанию или вручную.

Примеры парсеров для наполнения интернет-магазинов:

  • Catalogloader,
  • Xmldatafeed,
  • Диггернаут.

Многофункциональные парсеры

Такие инструменты способны собирать данные под разные задачи — наполнение интернет-магазинов, мониторинг цен конкурентов, парсинг агрегаторов данных, сбор SEO-параметров и прочее. К этой группе относятся все браузерные расширения с функцией парсинга.

Другие примеры многофункциональных парсеров:

  • Import.io, Mozenda — комплексы инструментов для извлечения и визуализации данных. Подходят для среднего и крупного бизнеса с большим объемом задач.
  • Octoparce — инструмент для мониторинга цен и сбора данных с любого сайта. Данные выгружаются в форматы CSV или Excel. Есть доступ по API.
  • ParseHub — облачный парсер для сбора цен, контактов, маркетинговых данных, скачивания файлов, мониторинга конкурентов. Работает со всеми типами сайтов, в том числе, агрегаторами и маркетплейсами. Данные доступны в форматах CSV, Excel, Google Sheets, предоставляется доступ по API.
  • Datacol. Извлекает данные с сайтов, агрегаторов, соцсетей, Яндекс Карт и других источников. Базовые функции можно расширить при помощи плагинов. Программа платная, но есть демо-версия для тестирования.
  • ParserOK. С помощью программы можно парсить данные из интернет-магазинов, контактов, загружать файлы различных форматов в облачное хранилище.

SEO-парсеры

Парсеры используются SEO-специалистами для комплексного анализа сайта: внутренней, технической и внешней оптимизации. У одних может быть узкий функционал, другие представляют собой мощные SEO-комбайны из различных профессиональных инструментов.

Задачи, которые могут выполнять SEO-парсеры:

  • указывать на корректность настройки главного зеркала;
  • анализировать содержание robots.txt и sitemap.xml;
  • указывать наличие, длину и содержание метатегов title и description, количество и содержание заголовков h1 — h6;
  • определять коды ответа страниц;
  • генерировать XML-карту сайта;
  • определять уровень вложенности страниц и визуализировать структуру сайта;
  • указывать наличие/отсутствие атрибутов alt у картинок;
  • определять битые ссылки;
  • определять наличие атрибута rel=«canonical»;
  • предоставлять данные по внутренней перелинковке и внешней ссылочной массе;
  • отображать сведения о технической оптимизации: скорости загрузки, валидности кода, оптимизации под мобильные устройства и др.

Кратко охарактеризуем функционал популярных SEO-парсеров:

  • Screaming Frog SEO Spider
  • Netpeak Spider
  • ComparseR
  • SiteAnalyzer от Majento
  • SE Ranking
  • A-Parser
  • PR-CY
  • Xenu’s Link Sleuth

Screaming Frog SEO Spider

Пожалуй, самый популярный SEO-анализатор от британских разработчиков. С его помощью можно быстро и наглядно выяснить:

  • содержимое, код ответа, статус индексации каждой страницы;
  • длину и содержимое title и description;
  • наличие и содержимое заголовков h1 и h2;
  • информацию об изображениях на сайте — формат, размер, статус индексации;
  • информацию по настройке канонических ссылок и пагинации;
  • другие важные данные.

Для использования сервиса из России необходимо подключить VPN соединение.

Интерфейс бесплатной версии Screaming Frog

Интерфейс бесплатной версии Screaming Frog

Бесплатная версия ограничена 500-ми url. В платной (лицензию можно купить на год) количество страниц для парсинга не ограничено, и она имеет гораздо больше возможностей. Среди них — парсинг цен, названий и описаний товаров с любого сайта. Как это сделать, мы подробно описали в гайде.

Netpeak Spider

Популярный инструмент для комплексного анализа сайта. Проверяет ресурс на ошибки внутренней оптимизации, анализирует важные для SEO параметры: битые ссылки, дубли страниц и метатегов, коды ответа, редиректы и другие. Можно импортировать данные из Google Search Console и систем веб-аналитики. Для агентств есть возможность сформировать брендированный отчет.

Интерфейс Netpeak Spider

Интерфейс Netpeak Spider

В комплекте с NetPeak Spider идет еще один полезный для seo-специалистов инструмент — NetPeak Checker. Он позволяет сравнить разные url по десяткам параметров: от метатегов страниц и видимости в поисковых системах до параметров DR и DA (если у вас подключены и оплачены соответствующие сервисы).

Инструменты NetPeak платные, базовые функции доступны во всех тарифах. Бесплатный пробный период — 14 дней.

Воспользоваться NetPeak Spider с российского IP сейчас не получится. Для корректной работы программы необходимо подключать VPN.

ComparseR

Это программа, которая анализирует ресурс на предмет технических ошибок. Особенность парсера в том, что он также показывает все страницы сайта в индексе Яндекс и Google. Эта функция полезна, чтобы выяснить, какие url не попали в индекс, а какие находятся в поиске (и те ли это страницы, которые нужны оптимизатору).

Интерфейс демо-версии ComparseR 1.2.1.

Интерфейс демо-версии ComparseR 1.2.1.

Программу можно купить и установить на один компьютер. Чтобы ознакомиться с принципом работы, скачайте демо-версию.

SiteAnalyzer от Majento

Бесплатная программа для сканирования всех страниц, скриптов, документов и изображений сайта. Используется для проведения технического SEO-аудита. Требует установки на ПК (ОС Windows), но может работать и со съемного носителя. «Вытаскивает» следующие данные: коды ответа сервера, наличие и содержимое метатегов и заголовков, определение атрибута rel=»canonical», внешние и внутренние ссылки для каждой страницы, дубли страниц и другие.

Интерфейс SiteAnalyzer 2.9.6.

Интерфейс SiteAnalyzer 2.9.6.

Отчет можно экспортировать в форматы CSV, XLS и PDF.

Анализ сайта от SE Ranking

Инструмент анализирует ключевые параметры оптимизации сайта: наличие robots.txt и sitemap.xml, настройка главного зеркала, дубли страниц, коды ответа, метатеги и заголовки, технические ошибки, скорость загрузки, внутренние ссылки. По итогам сканирования сайту выставляется оценка по 100-балльной шкале. Есть опция создания XML-карты сайта. Полезная возможность для агентств — формирование брендированного отчета, который можно скачать в удобном формате или отправить на email. Отчеты запускаются вручную или по расписанию.

Сейчас для корректной работы с сервисом из России необходимо подключать VPN.

Дашборд со сводными данными анализа сайта от SE Ranking

Дашборд со сводными данными анализа сайта от SE Ranking

Возможны две модели оплаты — за проверки позиций и ежемесячная подписка. Бесплатный пробный период — 2 недели.

A-Parser

Этот сервис объединяет более 70 парсеров под разные цели: парсинг выдачи популярных поисковых систем, ключевых слов, приложений, социальных сетей, Яндекс и Google карт, крупнейших интернет-магазинов, контента и другие. Кроме использования готовых инструментов есть возможности для программирования собственных парсеров на основе регулярных выражений, XPath, JavaScript. Разработчики также предоставляют доступ по API.

Интерфейс демо-версии A-Parser: парсинг результатов Яндекс Маркета по названию модели телевизора.

Интерфейс демо-версии A-Parser: парсинг результатов Яндекс Маркета по названию модели телевизора.

Тарифы зависят от количества опций и срока бесплатных обновлений. Возможности парсера можно оценить в демо-версии, которая будет доступна в течение шести часов после регистрации.

Анализ сайта от PR-CY

Онлайн-инструмент для анализа сайтов более чем по 70 пунктам. Указывает на ошибки оптимизации, предлагает варианты их решения, формирует SEO-чеклист и рекомендации по улучшению ресурса. По итогам сканирования сайту выставляется оценка в процентах.

Сводные данные сканирования сайта в интерфейсе PR-CY

Сводные данные сканирования сайта в интерфейсе PR-CY

Бесплатно можно получить лишь общую информацию по количеству страниц в индексе, наличию/отсутствию вирусов и фильтров поисковых систем, ссылочному профилю и некоторые другие данные. Более детальный анализ платный. Тариф зависит от количества сайтов, страниц в них и проверок на аккаунте. Есть возможность для ежедневного мониторинга, сравнения с показателями конкурентов и выгрузки брендированных отчетов. Бесплатный пробный период — 7 дней.

Упомянем также о парсерах, которые решают узконаправленные задачи и могут быть полезны владельцам сайтов, вебмастерам и SEO-специалистам.

Xenu’s Link Sleuth

Бесплатная программа для парсинга всех url сайта: внешних и внутренних ссылок, ссылок на картинки и скрипты и т. д. Можно использовать для разных задач, в том числе, для поиска битых ссылок на сайте. Программу нужно скачать и установить на компьютер (ОС Windows).

По каждой ссылке будет показан ее статус, тип (например, text/plain или text/html), размер, анкор и ошибка.

Интерфейс программы Xenu’s Link Sleuth

Интерфейс программы Xenu’s Link Sleuth

Парсер метатегов и заголовков PromoPult

Это инструмент, который парсит метатеги title, description, keywords и заголовки h1-h6. Можно воспользоваться им для анализа своего проекта или сайтов-конкурентов. В первом случае легко выявить незаполненные, неинформативные, слишком длинные или короткие метатеги, дубли метаданных, во втором — выяснить, какие ключевые запросы используют конкуренты, определить структуру и логику формирования метатегов.

Как парсить сайт: 20+ инструментов на все случаи жизни

Добавить список url можно вручную, XLSX-файлом или ссылкой на XML-карту сайта. Отчеты выгружаются в форматах HTML и XLSX. Первые 500 запросов — бесплатно. Все нюансы работы с инструментом мы описали в гайде.

Как выбрать парсер

  1. Определитесь с целью парсинга: мониторинг конкурентов, наполнение каталога, проверка SEO-параметров, совмещение нескольких задач.
  2. Выясните, какие данные в каком объеме и в каком виде вам нужно получить на выходе.
  3. Подумайте о том, насколько регулярно вам нужно собирать и обрабатывать данные: разово, ежемесячно, ежедневно?
  4. Если у вас большой ресурс со сложным функционалом, имеет смысл заказать создание парсера с гибкими настройками под ваши цели. Для стандартных проектов на рынке достаточно готовых решений.
  5. Выберите несколько инструментов и изучите отзывы. Особое внимание обратите на качество технической поддержки.
  6. Соотнесите уровень подготовки (свой или ответственного за работу с данными лица) со сложностью инструмента.
  7. На основе перечисленных выше параметров выберите подходящий инструмент и тариф. Возможно, под ваши задачи хватит бесплатного функционала или пробного периода.

В этой статье расскажу про программы, сервисы и фреймворки для парсинга, которые позволяют собирать данные бесплатно. В подборке представлены как полностью бесплатные инструменты, так и инструменты, предоставляющие ограниченный бесплатный период либо ограниченную функциональность, но в любом случае дают возможности, которых может хватить для решения тех или иных задач.

Парсинг – это автоматизированный процесс сбора данных с сайтов, применяется для сбора контента: цен конкурентов, описаний товаров, контактов для лидов, отзывов и рейтингов, файлов и для любых других задач, когда нужно собрать большой объем информации.

Условно инструменты для парсинга разделяются на две части. Одна из них – это разработка парсинга под задачу, этим занимаются программисты, которые часто используют разные языки программирования, например, Python или JavaScript, чтобы тщательно продумать логику будущего скрипта до деталей, что требует времени и вычислительных ресурсов, но в конечном итоге дает наилучшие результаты. Задачи при таком подходе решаются точно, как нужно, можно собирать данные с необходимыми условиями, скоростью и объемами.

Другая часть — непрофессиональные пользователи, которым приходится выбирать между множеством существующих парсеров, программ или сервисов, каждый из которых включает набор готовых команд и ограничен реализованной функциональностью. Это часто вынуждает пользователей тратить время и деньги на изучение нескольких инструментов в попытке охватить широкий спектр возможных сценариев парсинга сайтов.

Программы стоит выбирать, если вам нужно простое решение с быстрым стартом, не требующее знаний языков программирования. Конечно, использование программ не позволит решить любой кейс и возможности самих программ различны, но тем не менее это отличное решение для простых задач.

Screaming Frog SEO Spider – популярная программа, специализирующаяся на работе с SEO данными, имеет широчайший функционал для аудита сайтов, полное перечисление возможностей программы займет не одну страницу. При первом знакомстве интерфейс программы может показаться громоздким из-за множества вкладок и окон, но поработав некоторое время становится понятно, что он удобен, вкладки позволяют получить быстрый доступ к отчетам, окна удобно структурируют результаты парсинга.

В бесплатной версии программа предоставляет следующие возможности:

  • Поиск нерабочих ссылок и редиректов;
  • Сбор заголовков и метаданных;
  • Просмотр robot.txt;
  • Аудит атрибутов hreflang;
  • Обнаружение дубликатов страниц;
  • Просмотр Sitemap.

Бесплатная версия ограничена возможностью парсить до 500 URL адресов на сайте и если ваши потребности вписываются в ограничения программы, то внимательно присмотритесь к данному продукту. Screaming Frog быстр в работе, в силу популярности на эту программу написано множество обзоров и разобраться в базовом функционале не составит труда.

Полная версия программы предоставляет возможность парсить не только SEO данные, но и любую другую информацию с сайтов используя XPath (XML Path Language) — язык запросов к элементам XML-документа.

Возможности:

  • Быстрая работа;
  • Бесплатного функционала хватит для аудита среднего сайта;
  • Хорошо документирована;
  • Имеет базу туториалов рассказывающих как работать с различными кейсами.

Доступные OS:

  • Windows
  • macOS;
  • Ubuntu.

Easy Web Extract дает массу возможностей, позволяющих собирать данные как с простых, так и со сложных сайтов. Программа не требует углубленных знаний программирования для настройки сбора данных, специальный мастер проведет вас по шагам в настройке шаблона парсинга, а для того, чтобы быстро разобраться с ��астройкой есть видео уроки. Одна из особенностей — вы можете запрограммировать автоматический поиск для определенных товаров и производить сбор только нужных данных. Еще одна особенность программы – сбор в несколько потоков, до 24 различных веб-страниц, это позволит сэкономить ваше время парсинга. Обратная сторона быстрого парсинга – блокировка вашего ip со стороны сайта из-за подозрительной активности, будьте аккуратны.

Некоторые сайты используют методы динамической загрузки данных на стороне клиента для создания асинхронных запросов. Такие данные проблема для простых парсеров, поскольку веб-контент не встроен в исходный HTML код. Easy Web Extract заявляет о возможности сбора таких данных, при тестировании программа справилась не со всеми сайтами, вам нужно проверить эту фичу на нужных вам сайтах.

Ограничения бесплатной версии:

  • Доступна 14 дней;
  • Парсит только первые 200 результатов;
  • Экспортировать можно только первые 50 результатов.

Остальной функционал парсера доступен в бесплатной версии, программу можно использовать для сбора небольших объемов.

Возможности:

  • Многопоточность;
  • Автоматизированный поиск;
  • Наличие шаблонов для сбора;
  • Видео уроки для быстрого старта;
  • Работа с динамическим содержимым.

Доступные OS:

Программа доступна только под Windows. Так же для работы требуются .NET frameworks 2.0 и Internet Explorer 9.0.

FMiner – инструмент для парсинга сайтов, работа которого построена на записи ваших действий и последующем воспроизведении записанных сценариев. Созданные таким образом последовательности действий (макросы), можно редактировать в визуальном фор��ате, что позволяет использовать инструмент без знания языков программирования.

Программа работает с динамически подгружаемыми данными (AJAX), поддерживает работу с несколькими потоками, позволяет работать с результатами поиска и несколько выходных форматов. Программа имеет видеоуроки для быстрого старта, но страницы с мануалами не работают и последние обновления на сайте датированы 2015 годом, что говорит о том, что разработчик не следит за продуктом, но установочные файлы доступны и можно загрузить билд для бесплатного использования полнофункциональной версии программы в течении двух недель.

На сайте есть раздел с документацией, рассказывающий в краткой форме возможности и основы работы с программой.

Ограничения бесплатной версии:

  • Доступна полнофункциональная версия программы на 14 дней;

Возможности:

  • Визуальное программирование и редактирование парсинга;
  • Многопоточность;
  • Работает с результатами поиска;
  • Работа с AJAX;
  • Видео уроки для быстрого старта.

Доступные OS:

  • Windows;
  • Mac OS X.

Helium scraper – еще одна программа для парсинга данных с сайтов. Принцип работы с программой похож на работу с FMiner, только вместо визуального представления планируемых действий программа выводит код. В целом интерфейс при первом знакомстве не такой понятный как у предыдущих программ, но программа предлагает видеоуроки и базу знаний, которые помогут быстро разобраться с основами рабочего процесса.

По функциональности программа похожа на рассмотренные выше, но имеет ряд особенностей. Одно из ключевых заявленных отличий, это возможность работать с базами данных, до 140 Терабайт, конечно это не означает, что другие программы не осилят работу с большими базами данных, но, если планируете собирать много данных, стоит присмотреться к Helium scraper. Еще одна особенность — это возможность работы с API, вы сможете интегрировать запросы в свой проект.

Ограничения бесплатной версии:

  • Доступна полнофункциональная версия программы на 10 дней;

Возможности:

  • Визуальное редактирование;
  • Многопоточность;
  • Работает с результатами поиска;
  • Работа с динамически подгружаемыми данными;
  • Ротация прокси;
  • Возможность блокировки изображений или нежелательного контента;
  • Видео уроки и база знаний;
  • Возможность работать с API;
  • Планировщик.

Доступные OS:

Программа доступна только для Windows, требует .NET Framework 4.6.2 и Visual C ++ для Visual Studio 201.

WebHarvy — последняя в нашем списке программ для парсинга, но не последняя, чтобы сделать выбор. Программа предлагает простой визуальный интерфейс для парсинга информации и в этом ее главная фишка – она интуитивно понятна. WebHarvy не подойдет для сложных, разветвленных каталогов, но c более простой структурой она справится легко, вы сможете обрабатывать динамически подгружаемые данные, подключить свои прокси, обработать заранее подготовленный список Url-адресов. Еще одна особенность программы, это возможность применять регулярные выражения к результатам извлечения, например вы быстро сможете очистить нужные данные из html кода, конечно, эта возможность требует знания язык поиска RegExp.

Ограничения бесплатной версии:

  • Доступ на 15 дней;
  • Собирает данные только с 2 страниц.

В силу ограничения сбора, программа подойдет вам, если нужные данные находятся (или можно вывести) не дальше второй страницы.

Возможности:

  • Визуальное редактирование;
  • Многопоточность;
  • Работает с RegExp;
  • Работа с динамически подгружаемыми данными;
  • Поддержка прокси;
  • Видео уроки;
  • Планировщик.

Доступные OS:

Программа доступна только для Windows.

Screen-Scraper – программный комплекс для парсинга данных. Программа автоматизирует копирование текста с веб-страниц, переход по ссылкам, ввод данных в формы и их отправку, итерации по страницам результатов поиска, скачивание файлов (PDF, Word, изображения и т. д.). Программа может обрабатывать практически любой сайт, включая сайты, использующие динамически подгружаемые данные AJAX.

Ограничения бесплатной версии:

  • Не ограничено по времени;

Программу сложно назвать интуитивно понятной, но на сайте разработчика имеются уроки, которые позволят понять принципы работы и быстро стартовать проект.

Возможности:

  • Наличие видео уроков;
  • Многопоточность;
  • Интеграции через API;
  • Работа с динамически подгружаемыми данными;
  • Поддержка прокси сервера;
  • Возможность писать скрипты на Java, JavaScript и Python.

Доступные OS:

  • Windows;
  • MacOS;
  • Linux.

Облачные сервисы, как и программы для парсинга предоставляют доступ к функционалу бесплатно на определенных условиях, и вы можете воспользоваться услугами сервисов для решения своей задачи. Главное отличие от программ – парсинг выполняется на удаленном сервере и не тратит ресурсы вашего компьютера.

Octoparse – облачный сервис для парсинга данных с визуальным программированием парсера. Сильные стороны сервиса – множество статей объясняющих как пользоваться сервисом и хорошие лимиты бесплатной версии.

Ограничения бесплатной версии:

  • Доступ на 14 дней;
  • Неограниченное количество страниц за сканирование;
  • Экспорт 10 000 записей;
  • 2 одновременных локальных прогона;
  • 10 настроенных парсингов;
  • Поддержка.

Возможности сервиса:

  • Работа с динамически загружаемым контентом;
  • Ротация ip;
  • Планировщик;
  • Работа в облаке 24/7;
  • Работа с API.

Mozenda – популярный облачный сервис для парсинга сайтов. Сервис предлагает визуальный метод захвата данных, для более сложных сайтов вы сможете использовать запросы XPath, если вы разработчик, то сможете создать сценарий парсинга точно отвечающий вашей задаче. Сервис предлагает месячный демо доступ, для настройки парсинга нужно установить приложение на компьютер, дальнейшая обработка происходит в облаке.

Ограничения бесплатной версии:

  • Доступ на 30 дней;

Возможности сервиса:

  • Многопоточность;
  • Работа с динамически загружаемым контентом;
  • Ротация ip;
  • Планировщик;
  • Уведомления о событиях.

Diffbot – облачный сервис для парсинга работающий на алгоритмах машинного обучения и компьютерного зрения. Сервис автоматически определяет тип страницы URL-адресов и возвращает найденные данные для поддерживаемых типов страниц (статьи, карточки товара, изображения, обсуждения или видео).

Ограничения бесплатной версии:

  • Доступ на 14 дней;
  • Один запрос в секунду;
  • Доступ для одного пользователя.

Возможности сервиса:

  • Автоматическое нахождение контента для парсинга;
  • Ротация ip;
  • Работа в облаке 24/7;
  • Работа с API.

Scraper api – сервис для парсинга требующий программирования. Особенность сервиса Scraper API меняет IP-адреса с каждым запросом из пула включающего миллионы прокси через десятки интернет-провайдеров и автоматически повторяет неудачные запросы, тем самым гарантирует сбор нужных данных. Scraper API также обрабатывает CAPTCHA. Парсинг осуществляется через безголовый браузер.

Ограничения бесплатной версии:

  • 1000 бесплатных вызовов;

Сервис подойдет в случае, если вы умеете программировать на одном из языков, NodeJS, Python, Ruby или PHP и вам нужно получить данные с сайта с высокой степенью защиты.

Возможности сервиса:

  • 40+ миллионов IP-адресов;
  • 12+ геолокаций;
  • Неограниченная пропускная способность;
  • Работа с javascript содержимым.

Scrapy Cloud — это проверенная в боях облачная платформа для запуска парсеров, требующая знания языков программирования и предоставляющая гибкие инструменты для создания проектов со сложной логикой. Сервис предлагает интересный бесплатный тариф с безлимитным количеством данных, ограниченно только время работы – 1час.

Ограничения бесплатной версии:

  • 1 час работы;

Сервис подойдет в случае, если вы умеете программировать и ваш проект содержит сложную логику для извлечения данных.

Возможности сервиса:

  • Работа с динамическим содержимым;
  • Поддержка прокси;
  • Мультипоточность;
  • Поддержка API.

ScrapingBee – сервис для парсинга сайтов использующий безголовый браузер и ротацию прокси. Сервис может рендерить Javascript, это позволяет парсить любой веб-сайт, даже одностраничники использующие React, Angulars, Vue.js или любые другие библиотеки. Большой пул прокси серверов поможет снизить вероятность блокировки и увеличить скорость сбора данных благодаря одновременному использованию нескольких браузеров.

Ограничения бесплатной версии:

  • 1000 бесплатных вызовов API;

Сервис требует программирования скриптов (CURL, Python, NodeJS, Java, Ruby, Php, Go), подойдет в случае сложной, кастомизируемой логики для извлечения данных и необходимости рендеринга JavaScript.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Поддержка прокси;
  • Мультипоточность;
  • Поддержка API запросов.

Apify – сервис для парсинга данных построенный по принципу магазина готовых решений. По сути, это шаблоны, настроенные на самые популярные кейсы: сбор данных с Amazon, Instagram, Booking и т.д. Работа происходит через обращение к API сервиса, все представленные шаблоны сопровождаются документацией, и вы можете поменять запрос, чтобы он в точности соответствовал вашей задаче.

Ограничения бесплатной версии:

  • 10 единиц для сканирования (единицы позволяют сканировать разное количество страниц JavaScript и HTML страниц в месяц);
  • Хранение данных 7 дней;
  • 30 прокси серверов (только 1 месяц).

Сервис требует умения вызова API, подойдет для парсинга популярных сайтов, имеет хорошие лимиты для бесплатного использования.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Ротация прокси;
  • Мультипоточность;
  • Работа через API.

Web Scraper – сервис для парсинга который максимально упрощает извлечение данных с сайтов. Настройка парсера, происходит в визуальном редакторе посредством указания того, какие элементы нужно собирать, программирование не требуется. Web Scraper позволяет создавать карты сайта из различных типов селекторов. Эта система позволяет в последующем адаптировать извлечение данных к разным структурам сайта.

Ограничения бесплатной версии:

  • Только локальное использование;
  • Динамические данные;
  • Работа с JavaScript;
  • Экспорт в CSV.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Ротация прокси;
  • Планировщик;
  • Мультипоточность;
  • Работа через API.

CrawlMonster – инструмент для парсинга SEO показателей сайта, вы можете сканировать, хранить и получать доступ к SEO-данным вашего веб-сайта, таким как контент сайта, исходный код, статусы страниц, распространенные ошибки, проблемы безопасности и многие другие.

Ограничения бесплатной версии:

  • 1 пользователь;
  • 100 URL-адресов;
  • 1 сайт;
  • Нет планировщика;
  • Ограниченные возможности.

Возможности сервиса:

  • Комплексный технический SEO-анализ;
  • Архитектурный анализ;
  • Анализ эффективности SEO;
  • Отслеживание проблем;
  • Анализ безопасности веб-сайта;
  • Мониторинг сайта в реальном времени;
  • Инструменты SEO-отчетности.

eScraper – сервис позволяющий парсить любые сайты, ориентирован на электронную коммерцию и имеет простые интеграции с магазинами построенными на Magento, PrestaShop, WooCommerce или Shopify. Работает с динамически загружаемым контентом, например, раскрывающиеся списки, разделы “показать больше”, “следующая страница”, чекбоксы.

Ограничения бесплатной версии:

  • 100 URL-адресов.

Возможности сервиса:

  • Парсинг без программирования;
  • Планировщик;
  • Множество интеграций с eCommerce платформами.

80legs – сервис для парсинга построенный на основе шаблонов. Приложения для сканирования 80legs используют методы Javascript, которые вы можете изменить в соответствии с любыми вашими требованиями к парсингу. Вы можете настроить, какие данные будут обрабатываться и по каким ссылкам переходить с каждого просканированного URL. Вы также можете использовать приложения для сканирования 80legs по умолчанию для сбора любых данных HTML, таких как ссылки, ключевые слова, метатеги и многое другое.

Ограничения бесплатной версии:

  • Одно сканирование за раз;
  • До 10 000 страниц;
  • Требуется привязка банковской карты.

Возможности сервиса:

  • Рендеринг JavaScript;
  • Ротация прокси;
  • Автоматическое определение скорости парсинга;
  • API.

Phantom Buster – облачный сервис для сбора данных, предлагающий готовые решения для основных социальных сетей и других сайтов, например, Facebook, Twitter, Instagram, LinkedIn и т.д. Парсинг при помощи сервиса не требует умения программировать и позволяет легко выполнять стандартные для социальных сетей кейсы в автоматической режиме, такие как автоматическое отслеживание профилей, авто-лайки постов, отправка индивидуальных сообщений, прием заявок.

Ограничения бесплатной версии:

  • Один слот (настройка парсинга);
  • 10 минут в день.

Возможности сервиса:

  • Готовые шаблоны;
  • Автоматизация действий;
  • Планировщик.

Webhose – сервис специализируется на новостных источниках, включая блоги, форумы, радиостанции. API новостей Webhose обеспечивает прямой доступ к данным в реальном времени с глобальных новостных сайтов и предоставляет доступ к огромной базе исторических данных. Интересная особенность сервиса — API к данным даркнета.

Ограничения бесплатной версии:

  • 10 дней.

Сервис подойдет, если вам нужно получать данные из новостных источников и есть необходимость в исторических данных.

Возможности сервиса:

  • Работа через API;
  • Специализация на новостных источниках;
  • Исторические данные.

Parsers – сервис парсинга, извлекает данные из HTML страниц и импортирует их в excel, xls, xlsx, csv, json, xml файл. Сервис настраивается через расширение для браузера. Особенность сервиса – нужно выбрать необходимый тип данных только на одной, самой детальной странице сайта, далее технология сервиса найдет похожие страницы на сайте и извлечет необходимые данные. Парсинг работает автоматически на основе машинного обучения, нет необходимости указывать все страницы, каталоги и другие настройки.

Ограничения бесплатной версии:

  • 1000 страниц за запуск;
  • Один сайт одновременно;
  • 10 запросов одновременно.

Сервис подойдет, если вам нужно получать данные из новостных источников и есть необходимость в исторических данных.

Возможности сервиса:

  • Работа через API;
  • Планировщик;
  • Машинное обучение при определении страниц для парсинга.

Agenty – сервис работающий через расширение для браузера Chrome. Очень простое в использовании расширение для парсинга данных с помощью CSS-селекторов с функцией «укажи и щелкни» с предварительным просмотром извлеченных данных в реальном времени и быстрого экспорта данных в JSON / CSV / TSV.

Ограничения бесплатной версии:

  • 14 дней;
  • 100 страниц.

Возможности сервиса:

  • Автоматическая ротация IP-адресов;
  • Визуальная настройка парсинга;
  • Пакетная обработка Url-адресов;
  • Планировщик;
  • Интеграции с сервисами хранения и Google таблицами.

Grepsr – расширение для браузера Chrome позволяющее простыми методами визуального программирования собирать данные с сайтов. Сервис предлагает интуитивно понятный интерфейс, API для автоматизации действий и интеграции с популярными системами управления документами, такими как Dropbox, Google Drive, Amazon S3, Box, также доступна выгрузка на FTP.

Ограничения бесплатной версии:

  • 1000 записей в месяц;
  • 500 записей за прогон;
  • 5 запусков в месяц;
  • 3 отчета в месяц.

Возможности сервиса:

  • Интеграции с сервисами хранения;
  • Визуальная настройка парсинга;
  • Планировщик;
  • Доступ к API.

Web Robots – сервис работающий как расширение для браузера Chrome. Сервис прост в использовании, имеет интерфейс для визуального захвата данных, разобраться с ним не составит особого труда, главное преимущество – сервис автоматизи��ует действия. Функциональность сервиса так же проста, парсер подойдет для самых простых задач.

Ограничения бесплатной версии:

  • Ограничений для расширения нет;

Возможности сервиса:

  • Визуальная настройка парсинга;
  • Автоматически находит и извлекает данные.

Data miner – сервис парсинга данных работающий через расширения для браузеров Google Chrome и Microsoft Edge, помогает собирать данные с различных сайтов с помощью визуального интерфейса. В Data Miner есть более 40 000 общедоступных шаблонов для множества самых популярных сайтов. Используя эти шаблоны, вы можете получить нужные данные в несколько щелчков мыши. Еще одна особенность – сервис позволяет работать со списком адресов, вы можете загрузить нужные страницы и быстро получить результат.

Ограничения бесплатной версии:

  • Можно парсить до 500 страниц абсолютно бесплатно;

Возможности сервиса:

  • Визуальная настройка парсинга;
  • Пакетная обработка URL-адресов;
  • Работа с динамически подгружаемыми данными.

Scraper.AI – сервис парсинга данных работающий как расширения для браузеров Chrome, Firefox и Edge. Ключевая особенность Scraper.AI — это визуальное программирование парсера, не требующее работы с кодом. Так же сервис предлагает готовые шаблоны, которые настроены на сбор данных в Facebook, Instagram и Twitter.

Ограничения бесплатной версии:

  • 3 месяца бесплатной работы;
  • Не более 50 страниц.

Возможности сервиса:

  • Визуальная настройка парсинга;
  • Планировщик;
  • Работа с динамически подгружаемыми данными;
  • Уведомления.

Для использования фреймворков необходимо обладать знаниями языков программирования и в некоторых случаях нужны обособленные вычислительные мощности, использование библиотек для парсинга поможет реализовать задачу любой сложности и точно настроить проект под задачу.

Scrapy – это фреймворк для парсинга с открытым исходным кодом. Фреймворк написан на языке программирования Python и это одно из самых часто применяемых решений для сбора данных. Одно из основных преимуществ Scrapy – асинхронная обработка запросов. Это означает, что Scrapy не нужно ждать, пока запрос будет завершен и обработан, он может отправлять другие запросы или выполнять другие действия в этот же момент времени. Это также означает, что запросы могут выполняться, даже если при обработке какого-либо запроса возникает ошибка.

Это позволяет выполнять очень быстрый обход (одновременную отправку нескольких запросов отказоустойчивым способом), Scrapy также дает контроль над другими параметрами парсинга. Вы можете делать такие вещи как установка задержки загрузки между каждым запросом, ограничение количества одновременных запросов для каждого домена или IP-адреса и даже использовать расширение с автоматическим определением времени парсинга.

Scrapy имеет подробную документацию и большое комьюнити.

BeautifulSoup – еще один фреймворк на языке Python для парсинга данных из HTML и XML документов, имеет подробную документацию, требует дополнительных библиотек для открытия ссылок и сохранения результатов сбора данных. Он более прост по сравнению со Scrapy, BeautifulSoup стоит использовать, если задача не подразумевает распределение данных, не требуется реализация сложной логики, не нужно использовать прокси. Так же отличительная черта BeautifulSoup низкий порог входа, библиотека подойдет программистам даже с начальными знаниями, множество мануалов способствует быстрому освоению.

Jaunt – это бесплатная библиотека Java для парсинга, автоматизации и запросов JSON. Библиотека предоставляет быстрый и сверхлегкий безголовый браузер (без графического интерфейса). Браузер предоставляет функции парсинга данных, доступ к DOM и контроль над каждым HTTP-запросом — ответом.

Возможности Jaunt:

  • Выполнять парсинг веб-страниц и извлекать данные JSON;
  • Работать с формами и таблицами;
  • Контролировать / обрабатывать отдельные HTTP-запросы / ответы;
  • Интерфейс с REST API или веб-приложениями (JSON, HTML, XHTML или XML).

Selenium — это набор инструментов для автоматизации веб-браузеров с открытым исходным кодом, объединяет набор инструментов для управления, развертывания, записи и воспроизведения действия.

Сценарии могут быть написаны на различных языках Python, Java, C#, JavaScript, Ruby. Selenium настоящий комбайн для парсинга, позволяющий объединять не только браузеры, но и вычислительные мощности для решения задач. Этот инструмент стоит использовать, если перед вами стоят большие задачи и есть ресурсы для их реализации.

Grab — фреймворк на языке Python для написания веб-парсеров. Grab помогает создавать парсеры различной сложности, от простых 5-строчных скриптов, до сложных и асинхронных поисковых роботов, способных обрабатывать миллионы страниц. Фреймворк предлагает API для выполнения ��етевых запросов и последующей обработки контента, например, для взаимодействия с деревом DOM HTML- документа.

Библиотека Grab состоит из двух основных частей:

  • Единый API запроса / ответа, позволяющий строить сетевой запрос, выполнять его и работать с полученными данными. API — оболочка библиотек pycurl и lxml.
  • API-интерфейс Spider для создания асинхронных поисковых роботов. Вы пишете классы, которые определяют обработчики для каждого типа сетевого запроса. Каждый обработчик может создавать новые сетевые запросы. Сетевые запросы обрабатываются одновременно с пулом асинхронных веб-сокетов.

В заключении расскажу о сервисе парсинга развитием которого я занимаюсь – iDatica. Компания занимаемся разработкой парсинга под задачи клиента. Мы очищаем и визуализируем данные, сопоставляем (матчим) товары, делаем это качественно, под ключ.

У нас нет бесплатного тарифа, почему нужны наши услуги, если есть готовые и даже бесплатные сервисы? Если коротко – сервисы требуют людей, которые будут с ними работать, требуют время на изучение функционала и не во всех случаях способны справиться с требования заказчика. Мы решаем все эти задачи.

Если говорить более развернуто — мы поможем, когда сервис, который вы используете не может собрать данные с нужного сайта, например, большинство даже платных версий сервисов из списка, при тестировании не справились с парсингом Яндекс.Маркет, а защищаются от парсинга практически все товарные каталоги. Мы напишем логику парсинга под ваш запрос, например, сначала найти на сайте определенные товары, выбрать категории, бренды, или парсинг под сайт с нестандартной структурой. Мы сравним ваши товары и товары конкурентов с максимальной точностью, в противовес — автоматические машинные алгоритмы сравнения товаров часто не отрабатывают на 100% и потребуют ручной доработки с вашей стороны, а часть сервисов потребует с самого начала сопоставлять ваши товары и товары конкурентов. Все это выливается в оплату сервиса, оплату труда сотрудника, который работает с сервисом, время на обучение, а если сервис в конечном итоге не справится, в потраченное время и необходимость искать новый вариант. Выбирая работу с нами, вы просто будете получать нужный результат.

15 парсеров для сбора данных с сайтов

  • SEO
  • Контент

Натали Азаренко

Автор «Конверта» и «свободный художник» на фрилансе

Парсинг помогает быстро собрать, обработать и проанализировать большие объёмы информации на различных сайтах. Это полезно при изучении целевой аудитории, анализе конкурентов, исследовании рынка и не только. Однако важно выбрать подходящий инструмент с учётом конкретной задачи.

Сделали подборку парсеров для сбора данных с сайтов и разобрались, для каких целей они подходят.

Процесс парсинга

Что такое парсеры и как они работают

Парсеры — это специальные программы, которые собирают различные данные с сайтов по заданным критериям. Общий принцип работы всех парсеров примерно одинаков: 

  • переход на нужный ресурс и копирование его кода; 
  • анализ кода и нахождение необходимой информации; 
  • структуризация и сохранение данных. 

Работу парсера можно представить так, как будто человек ходит по разным сайтам и копирует нужные данные. В случае с парсингом по сайтам ходит робот, который выполняет нужные задачи в десятки раз быстрее. 

Вид информации, которую собирает парсер, зависит от его исходной функции и настроек. Можно собирать самые разные данные: цены конкурентов, товарные позиции, характеристики и описания товаров, контактные данные, контент определённых тематики и формата. 

После анализа и обработки парсер сохраняет все данные в определённом формате — например, в  таблице Excel, документах PDF или TXT. 

Насколько законно применение парсеров

О законности использования парсеров много спорят. Есть мнение, что автоматический сбор данных  нарушает сразу несколько законов — о защите персональных данных, об охране конфиденциальной информации, об авторском праве и т.д. Это не совсем так. 

Согласно Конституции РФ каждый человек может «свободно искать, получать, передавать, производить и распространять информацию любым законным способом». То есть теоретически ручной или автоматический сбор информации, выложенной в общий доступ, преступлением не является. Но есть нюансы. 

Для законного использования парсеров важно соблюдать три основных условия: 

  1. Все данные, которые собирает сервис, должны находиться в открытом доступе и не попадать под закон об авторском праве. 
  2. Сбор информации не должен негативно влиять на анализируемый сайт и вызывать сбои в его работе. 
  3. Собирать данные можно только законными способами, без взлома сайта. 

Если кратко, то парсинг любых данных, которые можно найти в открытом доступе и скопировать вручную — это законная деятельность.

Программу для парсинга можно разработать с нуля специально под конкретную задачу. Но такое решение будет дороже в использовании. В большинстве случаев можно обойтись готовыми инструментами. Рассмотрим парсеры для разных задач.

Для сбора контента

Под сбором контента подразумевают парсинг новостей и заголовков, описаний к товарам, комментариев, любых публикаций по ключевым словам, видеоматериалов, картинок, постов в соцсетях.

При парсинге контента важно учитывать один важный нюанс , который касается последующего использования данных. Если вы собираете информацию, например, для отслеживания ситуации в нише или поиска актуальных идей, то вы не совершаете ничего противозаконного. Если же планируете публикацию собранных данных, то не забывайте об авторском праве. При размещении спарсенного материала в исходном виде обязательно указывайте источник и/или запрашивайте согласие автора на публикацию.

Интерфейс X-Parser Light

Пример настройки парсинга по ключевым словам

Примеры парсеров для сбора контента: 

X-Parser Light. Собирает тематический контент по списку ключевых слов или ссылок. Кроме текстовых данных парсит видео и изображения. Поддерживает любые поисковые системы и практически любой язык. Работает в формате десктопного приложения. Стоимость — 4 100 ₽ единоразово (периодически бывают скидки).

Catalogloader. Умеет парсить информацию с сайтов интернет-магазинов — описания товаров, фото, характеристики, артикулы и пр. Можно самостоятельно настраивать критерии сбора. Весомый плюс — парсер работает в облаке, без скачивания на ПК. Есть бесплатная версия. Платные тарифы начинаются от 5 400 ₽/мес. 

XMLDATAFEED. Сервис позиционирует себя как инструмент для парсинга любой информации, которую можно собрать законным способом. Например, можно искать товарные описания, тексты, фото и изображения, ассортимент и характеристики. Особенность сервиса — в отсутствии готовых решений. Под каждый запрос команда разработчиков создаёт уникальный парсер для нужной задачи. Стоимость — индивидуально. 

Диггернаут. Облачный сервис, предлагающий платные и бесплатные парсеры. Стоимость платных решений — от 700 ₽/мес. С помощью специальных инструментов пользователь может создать собственный парсер (диггер) под нужный запрос. Можно заказать разработку сложных решений.

Интерфейс ALL RIVAL

Поиск товаров конкурентов с помощью парсера

Примеры парсеров для мониторинга конкурентов: 

Marketparser. Сервис мониторит цены в интернет-магазинах и на маркетплейсах. Достаточно загрузить список товаров, и в течение 3–20 минут по ним будет составлен актуальный отчёт. Можно использовать функцию автоматического ценообразования — на основе собранных данных сервис определит оптимальную стоимость товаров. Стоимость парсера зависит от количества проверок и начинается от 4 500 ₽/мес.

ALL RIVAL. Этот парсер собирает цены конкурентов по указанным ссылкам. Из преимуществ — есть бесплатное автосопоставление результатов. Сервис доступен на бесплатном тарифе с ограничением до двух сайтов. Стоимость платного тарифа начинается от 5 099 ₽/мес. 

Priceva. С помощью этого сервиса можно собирать цены конкурентов. Есть функция автоматической переоценки товаров пользователя. Все собранные цены конвертируются в валюту аккаунта на любом тарифе. Стоимость от 7 000 ₽/мес. Есть бесплатный тариф с мониторингом до десяти сайтов. 

uXprice. Это SaaS-решение. Программа собирает цены из рекламных объявлений, по ссылкам на конкретные товары и на указанных сайтах. Есть возможность сравнительного анализа цен конкурентов. Можно использовать функции конкурентного ценообразования для определения оптимальной стоимости своих товаров. Сервис умеет мониторить цены конкурентов в 36 странах. Стоимость парсера — от $99/мес. Есть бесплатная версия на 7 дней.

Для парсинга SEO-параметров

Сбор SEO-данных полезен при внутренней, технической и внешней оптимизации. Парсеры помогают быстро осуществить комплексный анализ ресурса. Некоторые инструменты имеют узкий функционал, другие умеют собирать самые разные параметры. 

SEO-парсеры можно применять как для анализа собственного ресурса, так и для отслеживания конкурентов.

Отчёт PR-CY

Пример отчёта парсинга SEO-данных

Примеры парсеров для сбора SEO-данных: 

Screaming Frog SEO Spider. Многофункциональный парсер-сканер, который умеет собирать огромное количество разных данных — метатеги, XML-карты, битые ссылки, атрибуты Alt у картинок, дублированный контент, сведения о технической оптимизации и многое другое. Бесплатно можно проверить до 500 URL-адресов. Платная версия — $209/год. SEO Spider работает в формате приложения для ПК.

PR-CY. Сервис позволяет в режиме онлайн выполнить SEO-аудит сайта. Можно искать позиции ресурса в поиске, мета-теги, коды ответов сервера, заголовки, внешние исходящие ссылки, проблемные страницы. Стоимость — от 990 ₽/месяц. Есть бесплатный доступ на 7 дней. 

Xenu’s Link Sleuth. Бесплатный парсер для поиска неработающих ссылок. Список собранных URL можно сортировать по любым критериям. Отчёт можно запросить в любое время. Работает как декстопное приложение. 

A-Parser. Многофункциональный инструмент для профессионального использования. Умеет парсить любые данные в неограниченном объёме: ссылки, анкоры, сниппеты, позиции в поиске, рекламные блоки, ключевые слова и многое другое. Всего в сервисе доступно 90+ разных парсеров. Стоимость от $179 за пожизненную лицензию. При необходимости здесь можно заказать индивидуальную разработку парсеров по нужным параметрам.

Для сбора контактных данных

Больше всего сомнений в законности парсинга возникает при сборе контактных данных — телефонов, email-адресов, контактных лиц. Здесь важно понимать разницу между персональными и общедоступными данными. Кроме того, имеет значение способ использования собранной информации. 

Например, собрать базу контактов потенциальных партнёров или поставщиков — это законно. А вот автоматический сбор email-адресов для рассылки нарушает закон о персональных данных. А за массовую рассылку по адресам, собранным из открытых источников, можно улететь в спам.

Интерфейс ScrapeBox

Настройка парсинга email-адресов

Примеры парсеров для сбора контактных данных: 

ZoomInfo. Собирает контактные данные B2B — номера телефонов, email-адреса, ссылки на профили в соцсетях. Дополнительно можно парсить и другие важные данные о клиентах и партнёрах — веб-упоминания, должностные обязанности  и иную информацию из публичного доступа. Стоимость сервиса — по запросу. Есть бесплатная пробная версия. 

Hunter. Парсер для поиска людей, работающих в определённой компании, с их именем и адресом электронной почты. Дополнительное преимущество — бесплатный сервис для рассылки «холодных» писем. Стоимость парсера — от $49/мес. Есть бесплатный тариф с ограничениями. 

Scrapebox Email Scraper. Собирает email-адреса в разных поисковых системах, на разных сайтах и из локальных файлов. При экспорте можно сохранять URL-адрес, с которого получен email. Стоимость приложения для парсинга — $97 за лицензию (цена без скидки $197). 

Выбирая подходящий парсер, учитывайте ваши задачи и периодичность использования. Часто за один раз можно собрать определённый тип данных — для этого хватит бесплатного инструмента или триал-версии платного сервиса. Для регулярного сбора данных выбирайте парсер, который настроен на работу с нужным вам типом данных. Если планируете собирать большое количество разной информации и в приоритете гибкие настройки парсинга, то, вероятно, стоит заказать индивидуальное решение.

Эксклюзивы

Читайте только в Конверте

Свежие статьи

«Честно» — рассылка о том, что волнует и бесит

Искренние письма о работе и жизни, эксклюзивные кейсы и интервью с экспертами диджитала.

Понравилась статья? Поделить с друзьями:
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
  • Выключается интернет на пару секунд windows 10
  • Все сочетания клавиш на клавиатуре windows 10
  • Usb cdc device driver windows 7
  • Windows mixed reality для steamvr
  • Визуальные эффекты для windows media player