Форматы выходных данных:
- xls, xlsx
- csv, txt, json, xml
- дамп базы данных: MySQL, SQLite, MongoDB, MariaDB, PostgreSQL
- любой другой формат по согласованию
Владение технологиями:
- ротация прокси и юзер-агентов (необходимо для для обхода защиты на некоторых сайтах)
- парсинг за авторизацией (парсинг после ввода логина-пароля)
- многопоточность до 256 потоков одновременно
- обход капчи (опционально, см. ниже)
- скачивание файлов, изображений
Особенности моего подхода к парсингу:
- помогу сформулировать задачу, вместе сформируем тех. задание, дам советы по сбору данных или их обработке
- сохраняю оригинальное форматирование описаний товаров (или любых полей по согласованию)
- автоматическая фильтрация дубликатов по требованию заказчика (если товар находится сразу в нескольких разделах каталога, например, в разделе "запчасти" и в разделе "распродажа")
Предварительное обсуждение проекта обязательно, т. к. есть ресурсы, спарсить которые в том виде, как это может быть нужно заказчику, не представляется возможным технически