При подготовке статейных материалов, каталогов товаров для интернет-магазинов и оформлении групп в социальных сетях сложно обойтись без картинок. Распространенное решение – искать картинки по ключевым словам в поисковиках – не всегда является лучшим. Например, как быть с подбором картинок к товарному каталогу размером 100 000 позиций? Чаще всего актуальнее делать парсинг картинок. О том, что это такое, зачем он нужен и как проводится, мы расскажем подробно далее.

Оглавление

Парсинг изображений – это автоматический процесс сбора картинок из интернета. Найденные картинки релевантны запросам пользователя, поскольку их парсинг происходит по ключевому слову или артикулу. Плюс состоит в том, что можно задать ограничения на размер и вес изображения, выбрать для поиска только определенные сайты и т.д. Как результат, вы получаете нужный и качественный контент в формате картинок, затратив на поиск минимум времени и усилий.

Форма парсинга картинок

Существует две формы парсинга картинок: в виде изображений и URL на них. Первый вариант оптимален в случае, когда происходит добавление фото через стандартный функционал административной панели сайта или при размещении в социальных сетях. URL картинок используют, когда их добавляют через модуль импорта CMS: зачастую админки интернет-магазинов сами скачивают их по внешним урлам, и размещают в файловой системе. Исходя из формы парсинга выбирается оптимальный вариант для поиска изображений.

Обзор инструментов для парсинга картинок

Для парсинга изображений создано огромное количество инструментов. Все они подразделяются на несколько основных категорий. Разберем каждую из них подробно.

Онлайн-сервисы

Онлайн сервис для парсинга
Бесплатный парсер картинок онлайн

Большой популярностью пользуются онлайн-сервисы. Они позволяют сразу перейти к парсингу картинок, минуя необходимость проводить установку ПО. Вы задаете параметры поиска, запускаете процесс и ожидаете результатов. Выгрузку найденных изображений можно проводить на ПК, съемный носитель или облачное хранилище.

К преимуществам онлайн-сервисов для поиска изображений относится:

  • Простота использования.
  • Не нужно тратить время на скачивание и инсталляцию софта.
  • Быстрый процесс поиска изображений.
  • Возможность создания общего архива для файлов с одного источника.

Есть у онлайн-сервисов ряд недостатков, к ним относится:

  • Многопоточный режим обычно ограничивается 5-10 сайтами.
  • Небольшое количество настроек для поиска.

Есть ограничения на количество фото, которое можно спарсить из социальных сетей в рамках одного запроса.

Десктопные парсеры картинок

Десктопные парсеры картинок – программные решения для поиска изображений. Софт отличается по интерфейсу, функционалу, параметрам поиска и другим критериям. Для начала работы нужно выполнить установку программки на компьютер, выполнить предварительную настройку, а потом запустить парсинг фото. Их загрузка будет выполнена в выбранную директорию.

Парсер Гугл

К основным преимуществам использования десктопных парсеров картинок относится:

  • Не нужно каждый раз выполнять настройку, можно проводить поиск изображений по выбранным параметрам.
  • Поддержка широкого функционала (выборка размеров картинок, их ориентации, разрешения и т.д.).
  • Удобное сканирование нескольких ресурсов. Например, парсинг картинок с Content Downloader можно проводить в многопоточном режиме, активировав автоматическую загрузку результативных файлов в выбранные папки. 
  • Поддержка уникализации найденных картинок.

Есть у десктопных парсеров некоторые недостатки, в их числе: 

  • Нужно тратить время на установку.
  • Есть ограничения в бесплатных версиях
  • Большая часть софта предлагается на платной основе.

Сервисы по подписке

Существуют онлайн-сервисы по подписке. Пользователям предлагаются разные тарифные планы. Они могут предусматривать оплату за парсинг определенного количества картинок или право на пользование сервисом в течение дня, недели, месяца или полугода.

У онлайн-сервисов для парсинга изображений по подписке следующие преимущества:

  • Поддержка более широко спектра возможностей, чем у бесплатных сервисов для парсинга контента в формате фото.
  • Нет ограничений по массовой выгрузке.
  • Возможность задействовать в многопоточном режиме более 10 источников.

Недостаток таких онлайн-сервисов понятен – нужно оплачивать подписки. Стоимость на них варьируется, начиная от $5 и достигая $100.

Парсеры надстройки картинок

Есть также парсеры надстройки картинок. Здесь идет речь о специальных скриптах, которые создаются для MS Excel. По сути, они представляют собой набор макросов, которые отвечают за выполнение определенных функций.

Выбор надстроек
Надстройки в Excel расположены во вкладке Разработчик

К парсерам надстройки обязательно идут скрипты для их управления.

К преимуществам парсеров в виде надстроек для поиска изображений относится:

  • Скрипт не нагружает операционную систему ПК.
  • Удобный формат формирования базы с URL картинками.
  • Легкий поиск нужных изображений.

К недостаткам парсеров в формате надстройки для поиска картинок относится:

  • Небольшой функционал.
  • Невысокая скорость работы.
  • Часто возникновение ошибок.

Программы для парсинга картинок

Существует десятки программ для парсинга картинок. Большинство из них схожи по функционалу и принципу работы. Некоторые предполагают покупку лицензии, другие доступны пользователям бесплатно. Мы решили рассмотреть самые популярные ПО для поиска картинок.

Image Parser

Image Parser – бесплатный парсер картинок, представленный в качестве расширения для Google Chrome. Значок плагина появляется в панели браузера после установки.

Чтобы запустить поиск изображений, нужно открыть сайт и кликнуть по иконке расширения. В новом окне появятся все найденные изображения на выбранном ресурсе. Находит данный софт картинки в тегах IMG и подключаемых файлах стилей, а также в «защищенных» страницах. Все изображения можно сохранить в ZIP архив.

Плюсы

  • Бесплатная программа
  • Можно скачивать картинки в форматах png, jpg, jpeg, gif.
  • Парсит «защищенные» с данными страницы.

Поддерживается парсинг ссылок на картинки.

Минусы

  • Для запуска программы нужно открыть сайт.
  • Нельзя парсить одновременно несколько ресурсов, что снижает скорость поиска картинок.  
  • Нет фильтров для выборки изображений.

ImageGrabber RX

ImageGrabber RX – платная программа для парсинга изображений. Может анализировать одновременно десятки сайтов, искать картинки на определенном источнике. Поддерживается фильтрация изображений по размеру. При поиске происходит сравнение фото-контента с базой. Происходит выгрузка только уникальных картинок, которые ранее не скачивались в локальное хранилище.

ImageGrabber RX

Плюсы

  • Высокая скорость работы.
  • Анализ картинок с базой для выборки уникальных изображений.
  • Фильтрация мелких картинок.

Минусы

  • Нужно покупать лицензию на использование.
  • Не всегда ПО обходит защиту страниц.

GoogleImageFinder

GoogleImageFinder – парсер картинок с сайта images.google. Отличается интуитивно понятным интерфейсом и простым запуском для работы. Для поиска изображений требуется указать их количество, нужное разрешение и размер, ключевые слова и директорию для загрузки. После нажатия на кнопку «Старт» программа начнет парсинг. Для каждого запроса можно создавать отдельные папки, а потом уникализировать скачанные изображения по выбранным параметрам.

GoogleImageFinder

Плюсы

  • Есть демо-версия.
  • Поддерживается широкий набор инструментов.
  • Быстрая работа.
  • Можно сохранять исходные названия картинок.
  • Поддерживается парсинг ссылок на картинки с сайта, чтобы чтобы сэкономить место в своем хранилище.
  • Уникализация картинок по заданным параметрам.

Минусы

  • Нужно покупать лицензию после использования программы в демо-версии.

Не поддерживается парсинг картинок с Яндекс, поиск происходит только с images.google.

PictureGoogleGraber

PictureGoogleGraber – бесплатный парсер картинок с Гугл с простым интерфейсом. По умолчанию программа скачивает самые большие изображения из доступных, но можно задать свои параметры по высоте и ширине. Также можно выбрать ориентацию и тип разрешения. Скачиваются не только картинки, но и их URL. Сохранение происходит одновременно из 10 потоков.

PictureGoogleGraber

Плюсы

  • Не нужно покупать лицензию.
  • Быстрая работа.
  • Загрузка URL картинок в отдельный файл.

Минусы

  • Небольшой спектр настроек для выборки картинок.
  • Иногда блокируется антивирусными программами.

Как парсить картинки с социальных сетей

Парсинг фотов из Инстаграм, ВКонтакте, Фейсбук и других социальных сетей обычно происходит с помощью онлайн-сервисов. Но чаще всего пользователям доступна такая услуга по подписке.

Pepper.Ninja

На некоторых сервисах предусмотрена возможность выполнить парсинг фото из ВКонтакте, Инстаграм и других социальных сетей бесплатно. Но есть ограничения на количество запросов или скачиваемых фото. По исчерпанию установленного лимита нужно платить деньги. 

Парсинг фото из социальной сетей происходит по следующему алгоритму:

  1. Нужно открыть сервис.
  2. Указать в специальной форме адрес личной страницы или паблика в социальной сети.
  3. Установить нужные фильтры (по дате, количеству фото и т.д.).
  4. Нажать кнопку «Парсить».

Онлайн-сервис проведет поиск нужных фото, а потом предложит их выгрузку удобным вам способов.

Парсим поиск картинок

При рассмотрении программ выше, мы упоминали о возможности парсинга изображения из поисковых систем.

Парсер Яндекс картинок

Это наиболее простой и удобный вариант в случаях, когда нет конкретных источников для скачивания картинок – есть только ключевые слова. Но поскольку в поисковых системах многомиллионная база изображений, то важно делать правильную выборку. Запуская парсер картинок по ключевым словам, обязательно укажите следующие параметры:

  • графический формат изображения;
  • ориентация картинки;
  • минимальный и максимальный размер изображения;
  • максимальный объем файла.  

Указав такие свойства картинок, вы сможете сузить поиск. Парсер вам выдаст наиболее подходящие изображения из выдачи, что упростит их дальнейшую выборку для своего сайта или паблика в социальной сети.

Обход защит от парсинга картинок

При парсинге картинок с сайтов нередко приходится сталкиваться с защитами. Некоторые программы и сервисы предусматривают обход большинства из них. Но когда ресурсы создаются на языке программирования высокого уровня, то чаще всего с них не удается скачать нужные изображения. Например, затруднителен парсинг картинок с сайтов на Python. Но есть пути решения такой проблемы. 

Основной принцип обхода защиты от парсинга изображения на Python, PHP и других сайтах состоит в изменении поведенческих факторов. Нужно выставлять такие параметры для программы, которые будут схожи с пользовательскими запросами:

  • Задержки. Их устанавливают между запросами к чужим сайтам. Но учтите, что в этом случае скорость парсинга картинок с Python PHP и других сайтов снизится.
  • Смена IP. Если вы часто парсите фото на одном ресурсе, то меняйте IP. Для этого достаточно перезагрузить роутер.
  • Активируйте получение и отправку куки, если такая опция доступна в выбранной программе. 

Когда парсинг картинок с PHP, Python и других сайтов блокируется, попробуйте воспользоваться их мобильными версиями. Обычно они менее защищены, что позволяет скачивать с них любой нужный фото-контент.

Парсинг изображения с относительным путем

При настройке парсинга фото нужно учитывать, что на многих сайтах ссылки на них представлены в относительном виде. Иными словами, путь файлу изображению указан относительно корневой папке на сервере. В данном случае есть два момента, которые нужно запомнить:

  • Во-первых, когда ищите в коде странице ссылку на фото, то абсолютной ссылки для копирования в браузер вы не найдете. Поэтому перед поиском нужно удалить из нее название домена с последним слешем. Например, http://conter.ru/wp-content/uploads/2018/10/SHpargalka-po-git-720×414.jpg. Для получения относительной ссылки удаляем http://conter.ru/wp-content/uploads/, получаем: /uploads/2018/10/SHpargalka-po-git-720×414.jpg. В этом случае у вас получится относительная ссылка на картинку.
  • Во-вторых, относительной ссылки недостаточно для парсинга. Нужно указывать полный адрес к изображению. Для этого чаще всего нужно добавить домен, сбросить параметры размера и дописать img.png. В итоге полный адрес к изображению из нашего примера будет выглядит следующим образом: http://conter.ru/wp-content/uploads/2018/10/img.png.

Проблемы при парсинге картинок из поисковой выдачи

Все парсеры поисковых выдач работают по одной принципиальной схеме: эмулируют запрос пользователя по ключевому слову, и выдают картинку из топа выдачи как нужную.

При этом постоянно возникают следующие проблемы:

  •  Если поиск производится по артикулу, весьма вероятна выдача в топ товара другой расцветки или параметра. Например, поиск люстры SW04100-1 будет неизменно выводить первую релевантную SW04100-4, так как SW04100-1 пока в выдаче нет. Для поисковой системы эти два ключа – почти одно и то же. А на самом деле это совершенно два разных товара: первый – с одним плафоном, второй – люстра с четырьмя рожками. В итоге в вашем каталоге будет неверное изображение.
  • Вывод картинок с водными знаками. По нужному запросу поисковик выводит как правило картинку из первой позиции. Как правило, это данные с хороших сайтов, с грамотно прописанными title у изображений. И такие сайты защищаются от парсинга вотермарками. На втором месте может стоять весьма неплохая фотография без водных знаков, однако вам достанется не она 🙁
  • В случае использования достаточно редких артикулов или запросов, в выдачу может попасть совершенно что угодно – и если у вас смешанные запросы, то вы можете и не увидеть аномалию с первого взгляда.
  • Баны поисковиков. В определенный момент поисковик может забанить ваш IP, и в выдачу пойдут например, картинки со страницы Google 404.
решение тут к сожалению, лишь одно: постоянный контроль. Для беглого осмотра мы обычно составляем табличку эксель с выведенными основными параметрами. В отдельный столбец макросом мы вставляем картинки из папки в соответствующие ячейки в минимально различимом размере. Теперь, фильтруя и пробегаясь глазами, мы можем выявить неверный цвет, форму, тип товара, водные знаки, и отобрать большую часть ошибок достаточно быстро.

Итоги

Парсинг картинок – это оптимальное решение в случаях, когда необходимо найти большое количество изображений для размещения на сайтах или в социальных сетях. На поиск вы затратите минимум времени, при этом получите релевантные картинки. Они помогут вам повысить конверсию посещений в целевые действия.

Для парсинга можно использовать любые доступные инструменты. А если вдруг у вас возникнут сложности с поиском подходящих картинок в нужных объемах, то обращайтесь к нам. Мы всегда рады оказать помощь в парсинге!

Заказать парсинг

от 2000 рублей, срок выполнения от 2 часов

Спарсим картинки с любого сайта!

Срок – 1 день, начнем сегодня.

Цена – от 1500 рублей.

Tell us about your project

Подписывайтесь на наш канал

Ежедневно выкладываем
свежие базы в удобном формате!

Заказать парсинг