 | 9-04-2010, 12:14, прочитали: 1730 раз, раздел: Портфолио |
Требовалось провести сбор полной базы данных по сайтам Российских, Казахских, Украинских, Беларусских, Узбекских, Китайских компаний, путём парсинга html данных. Требовалось получить адреса электронной почты, телефоны, факсы и т.д. Но на большинстве сайтах email адреса и телефоны были представлены как картинка (captcha) специально для того чтобы боты не собирали информацию о фирмах (специально от таких как я :)), поэтому был разработан алгоритм разбора изображений и получения исходного текста из них с вероятностью определения текста в 98%. В итоге по всем странам было обработано около 11 милионов компаний (только в Китае было 8 милионов записей), на выходе получилась база в 600 тысяч уникальных email адресов. Все фирмы были распределены по своим собственным категориям. Также необходимо было сделать модуль для рассылки самих писем по полученным адресам. Для того чтобы не попасть в спам-листы требовалось сделать рассылку писем по очередям, по крону. Можно рассылать письма как по отдельной категории, так и по отдельной стране, а также задавать интервал отправки и кол-во писем отправляемое за 1 раз. Ведётся лог отправки и лог переходов из писем, есть возможность просматривать логи по фильтрам (по стране или за определённую дату)
|
|