Работаем с 2009 года Более 450 успешных проектов Санкт-Петербург
8 (999) 849-91-09

Мошенническая двухпоточность: взаимосвязь веб-спамеров с рекламодателями

Аннотация

В целях продвижения некачественных ресурсов на верхние позиции результатов органической выдачи, мошенники, как правило, используют сомнительные технологии поисковой оптимизации (SEO). В этой статье мы рассмотрим один распространенный тип спама, использующего перенаправление. Здесь некачественные входные страницы могут быть идентифицированы посредством изучения сторонних доменов, получающих от этих страниц пользовательский трафик. Мы предлагаем пятислойную двухпоточную модель, описывающую процесс переадресации; представляем методологию анализа слоёв, а также идентифицируем известные домены на каждом слое, используя два набора коммерческих ключевых фраз – один набор таргетирован на спамеров и другой, соответственно, на рекламодателей. Данная методология и достигнутые нами результаты будут полезны: во-первых, для поисковых систем, заинтересованных в совершенствовании своих алгоритмов ранжирования и повышению сопротивляемости к спаму; во-вторых, для законопослушных веб-мастеров, дабы породить у них стимул к обнаружению и удалению дорвейных страниц; в-третьих, для честных рекламодателей, чтобы последние могли идентифицировать недобросовестных синдикаторов, размещающих рекламу на манипулятивных документах.

1. Введение

Мы называем поисковыми спамерами (или веб-спамерами) прежде всего тех, кто для продвижения своих низкокачественных ресурсов на верхние позиции систем информационного поиска использует сомнительные технологии поисковой оптимизации (SEO). Если описывать подобного рода технологии поисковой оптимизации в самом общем виде, то они включают в себя подбор ключевых фраз, создание ссылочных ферм (то есть большого числа взаимосвязанных веб-сайтов, предназначенных для рекламных целей), размещения ссылок в комментариях на всевозможных публичных форумах, а также использования техники классического клоакинга (crawler-browser cloaking) [8], под которым, мы понимаем отдачу разного контента браузеру пользователя и поисковым роботам. Чтобы обойти механизмы обнаружения подобной манипулятивной практики, в последние годы некоторые спамеры стали использовать методологию кликового сокрытия (click-through cloaking) [15, 22], которая заключается в отдаче фиктивного контента анализаторам спама, посещающих интернет-страницу напрямую, то есть не кликая по результатам органического поиска. Мы называем спамом, использующим перенаправления, те интернет-страницы, которые перенаправляют браузер пользователей на сторонние домены, о которых известно, что они подконтрольны мошенникам. Многие спам-страницы, переадресующие своих пользователей, используют синдикацию, участвуя в PPC-программах и отображая страницы с агрессивной демонстрацией рекламы. Наша работа была мотивирована одним случаем, произошедшим примерно в октябре 2006 года, когда следующая тройка входных страниц появились в ТОП10 результатов органического поиска Live Search по запросу «дешёвый билет»:

Все три страницы оказались мошенническими: во-первых, они использовали клоакинг; во-вторых, ссылки на них были проставлены с множества публичных форумов под видом комментариев 1; в-третьих, они перенаправляли трафик на известные спамерские домены vip-online-search.info, searchadv.com и webresources.info. Что удивительно, на всех трёх страницах оказалась реклама orbitz.com, достаточно уважаемой компании. Поиск с использованием схожих ключевых фраз 2 в Google и Yahoo! помог обнаружить ещё две спам-страницы, размещённые на hometown.aol.com.au и megapage.de, которые тоже отображали рекламу orbitz.com. Если предположить, что авторитетная организация вряд ли будет обращаться к услугам мошенников напрямую, то встаёт резонный вопрос: кто в данной манипулятивной схеме является посредником, предлагающим спамерские услуги для ресурсов вроде orbitz.com? Ответ был найден по методу «откуда идут деньги»: пройдя по рекламе orbitz.com на каждой из пяти страниц и отследив HTTP-трафик с помощью программы Fiddler [27], мы увидели, что кликовый трафик (ads click-through traffic) направлялся либо на 64.111.210.206, либо на блок IP-адресов между 66.230.128.0 и 66.230.191.255 [30]. При всем этом, цепочка перенаправлений остановилась на r.looksmart.com, осуществляющего переадресацию на веб-сайт orbitz.com с помощью 302-го редиректа.

В данной статье мы занимаемся всесторонним анализом спама, использующего перенаправление. Мы предлагаем пятислойную двухпоточную модель, в которой демонстрируемая реклама идёт в одном направлении, а кликовый трафик в другом. Создав два различных бенчмарка коммерческих поисковых запросов и используя систему Strider Search Ranger [21] для анализа десятков тысяч спам-URL, зафиксированных в топовых результатах трёх крупных систем информационного поиска, мы идентифицировали основные домены в каждом из пяти слоёв, а также их характеристики. Текущая статья организована следующим образом: в Разделе 2 делается обзор системы Search Ranger, а также представляется двухпоточная модель. В Разделе 3 мы создаём бенчмарк, таргетированый на спамеров. В разделе 4 анализируется плотность спама и двухпоточность для данного набора коммерческих ключевых фраз. В Разделе 5 мы создаём бенчмарк, таргетированый на рекламодателей, а также занимаемся сравнением результатов анализа с теми, что были получены в Разделе 4. Раздел 6 описывает спам, не использующий переадресацию, но который также включается в нашу двухпоточную модель. Раздел 7 посвящен смежным работам, а в Разделе 8 подводятся итоги настоящей работы. Поскольку все проводимые в данной статье анализы основаны на данных, которые были собраны в сентябре-октябре 2006 года, некоторые спам-URL могут быть уже неактивными.

2. Спам, использующий переадресацию

2.1 Дефиниции: поисковый спам и перенаправление

Поисковая оптимизация обладает широким спектром технологий. Поскольку граница между белой оптимизацией и поисковым спамом зачастую субъективна и размыта, мы сконцентрировались только на одном типе спама, использующего перенаправление (redirection spam). Он широко распространен среди мошенников и представляет собой ассоциацию некоторого множества входных страниц (дорвеев — от англ. doorway – входная дверь, портал) с единственным перенаправляющим доменом (redirection domain), который уже отправляет пользовательский трафик на сайт рекламодателя. Эти входные страницы, как правило, имеют схожие внешние паттерны; они используют технологии сокрытия (клоакинга — от англ. cloak – мантия, маска, прикрытие), а также обфускацию кода в целях избежания своего обнаружения, а также того метода, посредством которого осуществляется проставление внешних входящих ссылок в комментариях публичных форумов. Указанные повторяющиеся паттерны позволяют специалистам, занимающихся вычислением спамденсинга, с большей точностью и уверенностью определять качество документов. Конкретные шаги по обнаружению спама мы опишем в следующем подразделе. В Разделах 4 и 5 мы покажем, что в обоих наборах переадресация достигает большой плотности, а следовательно наш механизм обнаружения спама будет эффективен в случае его практического применения. После того, как браузер пользователя проследует по URL-адресу (первичный URL), он может автоматически посетить и другие URL (вторичные URL). Посещению вторичных URL может способствовать встроенное содержимое (например, реклама Google AdSense) на первичной странице, либо они могут полностью замещать первичную страницу (то есть они замещают URL в адресной строке интернет-обозревателя). Мы рассматриваем оба типа перенаправления вторичных URL. См. [31] для ознакомления со скриншотами примеров спама, использующего перенаправление.

2.2 Система Strider Search Ranger

Система Strider Search Ranger является автоматической системой обнаружения спама со следующими тремя ключевыми особенностями:

1. Web Patrol и Search Monkeys [19] – поскольку индексаторы поисковых систем, как правило, не могут исполнять скрипты, спамеры используют данный факт в технологии классического сокрытия, при которой интернет-обозревателю пользователя и поисковому роботу отдается отличное содержимое [8, 23]. Для защиты от этой мошеннической практики, программа Search Monkeys посещает каждую веб-страницу через полнофункциональный популярный браузер, исполняющего все сценарии на стороне клиента. Для борьбы с технологией кликового клоакинга, которая выдаёт спам только тем пользователям, которые кликают на результаты органического поиска, наша версия программы Monkeys имитирует клик, вначале присваивая переменной браузера document.referrer страницу с результатами поиска, а затем вставляет ссылку на спам-страницу в страницу с результатами, и наконец проходит по вставленной ссылке.

2. Отслеживание перенаправлений по методу «откуда идут деньги» – общие подходы к обнаружению некачественного содержимого и ссылочных структур легко обнаруживают то, «чем» сейчас занимаются спамеры. С другой стороны, если мы пойдём по денежному следу, отслеживая перенаправляющийся трафик, то мы приблизимся к идентификации тех, «кто» стоит за мошеннической деятельностью, даже в том случае, если их манипулятивные методологии будут развиваться. Система Search Ranger использует Strider URL Tracer [20] для перехвата перенаправляемого трафика на сетевом уровне в целях записи всех участвующих в переадресации URL-адресов. Как будет показано в Разделах 4 и 5, мы анализируем перенаправления как для отслеживания загружаемого (ads-fetching traffic), так и кликового траффика.

3. Группирование по схожести для идентификации крупномасштабного спама – вместо анализа всех проиндексированных страниц, Search Ranger фокусируется на мониторинге результатов органического поиска по ряду популярных запросов, которые используются мошенниками, в целях получения списка URL-адресов с высокой плотностью некачественных страниц. Далее он анализирует подобия между перенаправлениями, которые выполняют данные документы, для выявления связанных страниц, которые потенциально входят в манипулятивные сети. Проще говоря, подобного рода анализ подобия позволяет идентифицировать дорвеи, перенаправляющие трафик на единый для них домен. Удостоверившись в том, что перенаправляющий домен ответственен за обслуживание мошеннического контента, мы используем его в качестве образца для «обратного распространения недоверия» [13], которое позволит нам идентифицировать прочие связанные с ним мошеннические страницы.

Вкратце, Search Ranger идентифицирует мошеннические URL, используя процесс, описанный ниже:

Шаг 1: для данного набора ключевых фраз и поисковой системы, Search Monkeys возвращает топовые N результатов по каждому запросу, удаляет дубликаты и сканирует каждый уникальный URL для получения XML файла, в который записываются все перенаправления URL.

Шаг 2: по завершении пакетного сканирования, Search Ranger выполняет анализ перенаправлений по всем файлам XML для классификации URL, которые выполняли переадресацию на известные спамерские домены, как мошеннические.

Шаг 3: Search Ranger группирует неклассифицированные URL по каждому стороннему домену, которые получали от них перенаправляемый трафик.

Шаг 4: Search Ranger передаёт примеры URL из каждой группы верификатору спама, который собирает доказательства мошеннической деятельности, ассоциированной с данными URL-адресами. В частности, верификатор проверяет, использует ли URL технологию сокрытия, при которой браузеру пользователя и поисковому роботу отдается отличное содержимое, или во избежание мануальной идентификации в нем применяется техника кликового клоакинга. Также он проверяет, засветился ли этот URL в комментариях, оставленных на всевозможных публичных форумах.

Шаг 5: Search Ranger передаёт группы неклассифицированных URL, отранжированные по размерам и помеченные как доказательства мошеннической деятельности, для асессорской оценки. Когда эксперты определяют группу как мошенническую, Search Ranger добавляет переадресующие домены, ответственные за обслуживание обманного содержимого, в набор известных спам-доменов, который будет использован на Шаге 2 при последующих операциях сканирования.

2.3 Мошенническая двухпоточность

Классическая рекламная синдикация состоит из трёх слоёв: владельцы, которые привлекают трафик, обеспечивая качественный контент на своих веб-сайтах чтобы достичь более высокой позиции в поисковой системе; рекламодатели, которые платят за демонстрацию рекламы на этих площадках; и синдикаторы, которые обеспечивают рекламную инфраструктуру, связывающую владельцев и рекламодателей. Программа Google AdSense [29] является типичным примером синдикатора. Хотя некоторые мошенники злоупотребляют AdSense [28], такие случаи являются скорее исключением из правил, нежели чем нормой. В сомнительном рекламном бизнесе мошенники берут на себя роль владельцев, которые создают сайты с низкокачественным контентом и используют чёрные технологии SEO для привлечения пользовательского трафика. Чтобы избежать обнаружения и занесения в чёрный список поисковых систем, многие из них разделили свои действия на два слоя. На первом слое находятся входные страницы, чьи URL продвигаются, как и любой другой сайт, на верхние позиции результатов поисковой выдачи. Когда пользователь проходит по предложенным ему ссылкам на оригинал документа, их браузеры получают команду на получение спам-контента из перенаправляющих доменов, которые занимают второй слой. Чтобы привлечь добросовестных рекламодателей, которые не хотят иметь близких контактов со спамерами, многие синдикаторы тоже разделили свои действия на два или более слоя, соединённые множественными перенаправлениями с целью обфускации связи между рекламодателями и спамерами. Поскольку эти синдикаторы обычно являются небольшими компаниями, они часто объединяют усилия посредством агрегации трафика для привлечения крупных провайдеров и рекламодателей.

График 1: Мошенническая двухпоточность

Мы изобразили бизнес-модель, которая используется данным поисковым спамом, с пятислойной двухпоточностью на Рисунке 1: десятки тысяч рекламодателей (Слой #5) платят нескольким синдикаторам (Слой #4) за демонстрацию их рекламы. Синдикаторы покупают трафик у небольшого числа агрегаторов (Слой #3), которые, в свою очередь, покупают трафик у веб-спамеров, чтобы дистанцировать синдикаторов и рекламодателей от спам-страниц. Мошенники устанавливают от сотен до тысяч перенаправляющих доменов (Слой #2), создают миллионы дорвейных страниц (Слой #1), которые извлекают рекламу с этих перенаправляющих доменов, а также занимаются автоматическим проставлением спам-ссылок на всевозможных публичных форумах, которые ведут на указанные дорвеи. Если какой-либо из данных URL оказывается на верхних позициях результатов органического поиска и по нему проходят пользователи поисковых систем, весь кликовый трафик направляется обратно через агрегаторы, которые затем демультиплексируют трафик к нужным синдикаторам. Иногда возникает цепочка перенаправлений между агрегаторами и синдикаторами вследствие многослойности партнёрских программ, но почти всегда в конце всякой цепи стоит один домен, ответственный за перенаправление на целевой сайт рекламодателя.

В случае с мошенниками, использующих AdSense, один домен googlesyndication.com играет роль трех серединных слоёв, отвечая за рекламные показы, получение кликового трафика и перенаправление на ресурсы рекламодателей. То есть, показы AdSense вызываются через перенаправляющий домен googlesyndication.com, который и отображает её на дорвеях; прежде чем достичь сайта рекламодателя, кликовый трафик проходит через агрегирующий домен googlesyndication.com.

3. Спам-таргетированные ключевые фразы

При изучении общих свойств спама, использующего перенаправления, нашим первым шагом был поиск ключевых слов и категорий, на которые больше всего таргетированы мошенники. В данном разделе мы опишем методологию получения 10 спам-таргетированных категорий и бенчмарка, состоящего из 1000 ключевых слов, который послужит в качестве основы для последующего анализа, проводимого в Разделе 4. Мошенники, использующие переадресацию, зачастую используют свои данные ключевые фразы в качестве анкорного текста тех гиперссылок, что проставляются на публичных форумах, эксплуатируя классический алгоритм, в соответствии с которым поисковые системы индексируют и ранжируют URL. Например, анкорным текстом спам-URL coach-handbag-top.blogspot.com оказывается «Женские сумочки Coach». Поэтому мы собираем спам-таргетированные ключевые слова, извлекая все текстовые анкоры гиперссылок из большой выборки заспамленных форумов, а также ранжируя данные фразы по их частотности.

За период июнь-август 2006 года мы вручную исследовали доклады, касающиеся манипуляций с вебом, из всевозможных источников, включая отзывы от пользователей поисковых систем; сильно заспамленных форумов; форумов, посвященных обсуждению проблем спамденсинга и др. Мы создали список, состоящий из 323 ключевых слов, которые возвращали спам-URL в числе 50 топовых результатов по одной из трех ведущих поисковых систем. Затем мы обратились с вопросом по всем ключевым словам во все три системы информационного поиска, извлекли топовые 50 результатов, просканировали их с помощью ранней версии Search Ranger и идентифицировали 4 803 уникальных мошеннических URL, использующих перенаправление. Далее, мы установили «связь«: сделали запрос по каждому из 4 803 URL и извлекли 35 878 уникальных страниц, которые содержали хотя бы один из указанных мошеннических URL. Из этих страниц мы, в общей сложности, собрали 1 132 099 уникальных ключевых слова, в целом имевших 6 026 699 вхождений; и отранжировали всех ключевые слова по количеству их вхождений. Топовые 5 слов относились к медицинским препаратам: «фентермин» (8 177), «виагра» (6 438), «сиалис» (6 053), «трамадол» (5 788), и «ксанакс» (5 663). Если рассматривать первую сотню, то 74 слова были связаны с медицинскими препаратами, 16 – с рингтонами и 10 – с азартными играми.

Для всего множества, состоящего из 1 132 099 ключевых слов, сейчас мы можем выбрать список из, скажем, первой 1000, для нашего последующего анализа. Однако мы обнаружили, что слова, относящиеся к медицинским препаратам и рингтонам, имели доминирующее положение в данном ТОП-1000. По той простой причине, что для нашего исследования было бы крайне полезно изучение поведения мошенников, работающих и по другим категориям, мы решили собрать наш бенчмарк вручную, выбрав по десять самых распространённых категорий из списка. Категории следующие:

После этого мы выбрали топовые 100 слов из каждой категории для создания нашего первого бенчмарка, состоящего из 1000 спам-таргетированных фраз.

4. Анализ спама, использующего перенаправления

В конце сентября 2006 мы добавили в систему Search Ranger 1000 ключевых слов, которая извлекла ТОП-50 результатов по всем трем крупным системам информационного поиска. В общей сложности, мы получили 101 585 уникальных URL из 1000 x 50 x 3 = 150 000 поисковых результатов. С набором, состоящим из ~500 известных мошеннических перенаправляющих доменов, а также ID AdSense, система идентифицировала 12 635 уникальных спам-URL, на долю которых приходилось 11.6% всех результатов по ТОП-50 (в действительности, плотность спама, использующего переадресацию, должна быть выше, так как некоторые дорвеи оказались деактивированными, и больше не выполняли перенаправления URL при нашем сканировании). Для начала мы дадим краткий анализ плотности спама по каждой категории в Разделе 4.1, а далее по тексту сконцентрируемся на анализе двухпоточности.

4.1 Анализ плотности спама

График 2: Плотность спама, использующего перенаправления, по каждой категории, а также среднее значение плотности.

Графи2 сравнивает плотность спама по 10 таргетированных мошенниками категориям. Значения варьируются от 2.7% (деньги) до 30.8% (медицинские препараты). Две категории (медицинские препараты и рингтоны) имеют плотность, вдвое превышающую среднюю (см. крайний бар справа), а три категории (деньги, автомобили и мебель) находятся ниже средней величины. Мы также рассчитали DCG (Discounted Cumulated Gain – «обесцениваемая совокупная выгода», обычно используемая в качестве метрики качества), которая присвоила больший вес спам-URL, появляющихся среди топовых результатов поиска, но не обнаружили существенных отличий от Графика 2.

4.2 Анализ мошеннической двухпоточности

Теперь мы проанализируем пять слоёв двухпоточности, идентифицируем главные домены, участвующие на каждом слое, а также попытаемся их классифицировать для лучшего понимания современных тенденций, имеющих место быть среди спамеров.

4.2.1 Слой #1: Дорвейные домены

График 3: Слой #1: ТОП-15 первичных доменов/сайтов по количеству их вхождений в URL дорвейных страниц

График 3 иллюстрирует ТОП-15 первичных доменов/хостов по количеству их вхождений в URL дорвейных страниц. Первым из них является blogspot.com, встречающийся 3882 раз (из которых 2244 уникальных URL), что на порядок больше, чем у других доменов из нашего списка. Получается, что 2.6% спам-плотности формируют только URL, относящиеся к blogspot, что составляет около 22% всех встретившихся некачественных страниц (для сравнения, последним в списке является blog.hlx.com, который имеет всего лишь 110 вхождений 61-го уникального URL). Обычно мошенники создают сплоги, такие как PhentermineNoPresciptionn.blogspot.com, и используют такого рода дорвейные URL для наводнения различных форумов спам-комментариями. Поскольку #2, #3, #4 и #7 на Графике 3 принадлежат одной компании, то в случае альтернативного анализа мы бы могли их объединить, получив, таким образом, 1403 вхождений (плотность 0.9%) 948 уникальных URL.

ТОП-15 доменов можно разделить на 4 категории: пять из них являются бесплатными хостингами блогов/форумов, другие пять являются бесплатными хостингами сайтов на английском языке, три оказались бесплатными хостингами на иностранных языках, и остальные два (oas.org и usaid.org) являются Универсальными Редиректорами (Universal Redirectors),которые берут произвольный URL в качестве аргумента и перенаправляют на него браузер [15]. Например, известный спам-домен paysefeed.net, который, как оказалось, использовал десятки универсальных редиректов, находился за следующими URL: oas.org/main/main.asp?slang=s&slink=http://dir.kzn.ru/hydrocodone и usaid.gov/cgi-bin/goodbye?http://catalog-online.kzn.ru/free. Заметим, что ни один из 15 хостеров не является исключительно спамерским, а потому простое внесение данных ресурсов в черный список поисковых систем не представляется возможным. Это подтверждает бытующее мнение, что значительная часть индустрии спама перешла к созданию «вбросовых» дорвеев на добросовестных доменах, которые затем выполняют перенаправление на «закулисные» перенаправляющие домены, которые будут обсуждаться в следующем подразделе.

График 4: Слой #1: топовые дорвейные домены, а также доля зафиксированного в каждом из них спама (среди результатов поиска по нашим данным)

График 3 полезен поисковым системам для идентификации спамоемких веб-сайтов и более тщательного изучения их URL. График 4 показывает, что 14 из ТОП-15 дорвейных доменов имеют процент спама 3 более 74%; то есть, 3 из 4 уникальных URL на этих доменах (что были зафиксированы в результатах поиска) были определены нами как спам. Чтобы показать необходимость тщательного рассмотрения этих сайтов, мы просканировали ТОП-1000 результатов по двум запросам – «site:blogspot com фентермин» и «site:hometown.aol.com рингтон» — и с лёгкостью определили, что более половины URL были спамом. В интересах владельцев этих легитимных веб-сайтов очищать свои ресурсы от такого засилия некачественных страничек, чтобы избежать негативного имиджа. Заметим, что не все крупные, устоявшиеся хостинги обладают столь же высокой спамоемкостью. К примеру, по нашим данным, у сайтов tripod.com (#19), geocities.com (#32) и angelfire.com (#38) было зафиксировано существенно меньшее количество спама, нежели чем у некоторых новых, меньших веб-сайтов, которые вошли в ТОП-15 ресурсов, приведенных на Графике 3.

Спам на странице веб-сайтов, относящихся к доменной зоне .GOV и .EDU

График 5: Слой #1: ТОП-15 доменов .GOV/.EDU

В том случае, если веб-сайт, расположенный на таком некоммерческом общем домене верхнего уровня, как .GOV или .EDU, часто появляется в результатах поиска по коммерческим спам-таргетированным запросам, это обычно означает, что сайт был заражён. График 5 иллюстрирует ТОП-15 .GOV/.EDU доменов, которые по нашим данным содержат наибольшее число спам-URL. Эти URL-адреса можно разделить на три категории:

Мы обнаружили, что владельцы двух доменов nudai.com и raph.us таргетируют домены .EDU и находятся за спам-URL, расположенных на 8 из 15 доменов. Ещё два вездесущих спамера, paysefeed.net и topmeds10.com, покрыли 6 из оставшихся 7 доменов. 4

4.2.2 Слой #2: Перенаправляющие домены

График 6: Слой #2: ТОП-15 перенаправляющих доменов с указанием количества URL дорвеев, выполняющих на них переадресацию.

График 6 показывает нам ТОП-15 перенаправляющих доменов, упорядоченных по количеству URL дорвеев, выполняющих на них переадресацию. Двенадцать из них являются синдикационными доменами, обслуживающие текстовые рекламные страницы, каждая из которых содержит от 5 до 20 рекламных блоков; два из них отображали рекламу, содержащий контент для взрослых; последний домен принадлежал коммерческому веб-сайту. Домены #1, #2, #3, #5 и #10 находящиеся на одном блоке IP-адресов, между 209.8.25.150 и 209.8.25.159, несли коллективную ответственность за обслуживание рекламы в 3909 случаях обнаружения нами мошенничества (или 2.6% плотность спама и 22% от всего обнаруженного спама). Кроме этого, topsearch10.com и searchadv.com имели одного регистранта (т.е. лицо или организация, на которую регистрируется доменное имя), а topmeds10.com и topmobile10.com имели одного регистранта прокси. Более того, paysefeed.com и arearate.com имели одного регистранта, в то время как vip-online-search.info и webresources.info имели один IP-адрес 195.225.177.32. . Таким образом, весь топ перенаправляющих доменов принадлежал нескольким основным спам-группам. Ни один злоумышленник, работающих с AdSense, не оказался в нашем ТОП-15. Наиболее высокоранжируемым спамером AdSense оказался ca-pub-4084532739617626 (#45), который был обнаружен нами 112 раз среди рандомно-названных и относящихся к доменной зоне .INFO веб-страниц, единственная цель которых состояла в агрессивной демонстрации рекламы, таких как 583.8d1w.info и 101.j5bpqexcfs.info.

4.2.3 Три нижних слоя

Далее мы рассматриваем спам-страницы, использующие перенаправления, которые являются рекламными порталами (ads portals). Из 12 635 уникальных мошеннических URL мы извлекли 5172 страниц, единственной целью которых является агрессивная демонстрация рекламы, содержащих в общей сложности 72 239 рекламных объявлений, и выполнили два типа анализа. Для Слоёв #3 и #5 мы выполнили анализ страниц, извлекая таргетированные рекламодателем URL, а также ассоциированные с ними URL, предназначенные для перехода со страниц рекламных порталов, без непосредственного посещения всех рекламных блоков. Для Слоя #4 мы выполнили анализ кликов, случайным образом выбирая и проходя по одному рекламному объявлению на каждой странице портала, а также записывая все случаи перенаправления трафика. Это было необходимо, потому что имена доменов промежуточных синдикаторов не появлялись в содержимом страниц рекламных порталов.

Слой #3: Агрегаторы (Анализ страниц)

График 7: Слой #3: ТОП-15 доменов-ресиверов кликового трафика, отранжированных по количеству обнаружения рекламы на спам-страниц; количественно указаны два IP-адреса, принадлежащие блоку IP 64.111.

График 7 иллюстрирует ТОП-15 доменов-ресиверов кликового трафика, которые были отранжированы на основании статистического анализа числа обнаружения рекламных объявлений на спам-страницах. Интересно, что все они представлены IP-адресами, которые можно разделить на две группы: 13 из IP-адресов принадлежат блоку 66.230.128.0 — 66.230.191.255 [30], которую мы будем условно называть «блок IP 66.230», а остальные два (#1 и #12), относящиеся к блоку 64.111.192.0 — 64.111.223.255 [30], мы будем называть «блок IP 64.111». Отметим, что оба блока IP-адресов имеют одну и ту же запись в сервисе Whois. В общей сложности мы собрали 51 392 и 8186 рекламных объявлений в блоке 66.230 и блоке 64.111, соответственно. Кроме того, даже в случае с такими доменными именами, как psp.com (#18) и abosearch.com (#19), их кликовый трафик в конечном счете отправлялся на вышеуказанные блоки IP-адресов. Можно предположить, что если бы мы выполнили более обширный анализ кликов по всем рекламным объявлениям, то мы бы обнаружили куда большее количество страниц рекламных порталов, отправляющих своих пользователей на эти два блока IP-адресов.

Слой #5: Рекламодатели (Анализ страниц)

График 8: Слой #5: ТОП-15 рекламодателей, отранжированных по количеству обнаружения рекламы на спам-страницах (анализ страниц); количественно указаны пять рекламодателей, не относящихся к рингтонам.

У большей части мошеннической рекламы URL-адреса, предназначенные для перехода по данным рекламным объявлениям, не содержали истинного URL целевых рекламодателей5. Но доменные имена рекламодателей зачастую отображаются либо в тексте анкора гиперссылки, либо в строке состояния браузера при наведении курсора. Извлекая такие доменные имена из содержимого страниц рекламных порталов с последующим их ранжированием по частоте появлений, мы получили График 8, который демонстрирует ТОП-15 рекламодателей (по всем 10 категориям, которые мы изучали ранее): 10 из них связаны с рингтонами, два относятся к медицинским препаратам, один к деньгам, а оставшиеся два отнесены нами в перекрестную категорию. Среди известных доменных имён, оказавшихся в нашем полном списке, значатся: shopping.com (#22, 492), dealtime.com (#24, 465), bizrate.com (#33, 305), orbitz.com (#44, 258), ebay.com (#52, 225) и shopzilla.com (#54, 221).

Слой #4: Синдикаторы (Анализ кликов)

При анализе кликов обнаружилось, что в цепочке перенаправлений доминирует небольшая группа синдикаторских доменов. Нам представляется, что именно они и являются основными посредниками между агрегаторами и рекламодателями. В частности, ТОП-3 синдикаторов выглядит следующим образом: findwhat.com, looksmart.com и 7search.com, которые были зафиксированы в цепочках перенаправлений 1 656, 803 и 606 раз соответственно (см. [32] для просмотра скриншотов). Все вместе они образуют 3 065 (59%) из всех 5 172 цепочек перенаправлений.

5. Рекламодатель-таргетированные ключевые фразы

В Разделе 4 мы проанализировали пять слоёв поискового спама, основываясь на наиболее спамоемких ключевых фразах, которые упоминаются на публичных форумах. Однако для пользователей поисковых систем и добросовестных рекламодателей более важно воздействие подобного рода спамденсинга на качество органического поиска. Например, они могут не беспокоиться в том случае, если в своей основной массе спам будет таргетирован на ключевые фразы, выходящие за круг их жизненных интересов, таких как покупка рецептурных медицинских препаратов и т.п. Но для того, чтобы понять, может ли данная проблема исказить качество поиска в целом, мы повторили анализ, используя другой бенчмарк, основанный на ключевых фразах наиболее используемых добросовестными рекламодателями.

5.1 Бенчмарк из 1000 самых используемых рекламодатель-таргетированных ключевых фраз.

Для создания второго бенчмарка мы взяли список из 5000 самых популярных слов одной легитимной синдикационной программы, и использовали их в качестве вопросов, адресованных трём крупнейшим поисковым системам в целях получения по ним ТОП-50 результатов поиска (начало октября 2006 года); просканировали и проанализировали все гиперссылки с помощью Search Ranger, и, наконец, отобрали 1000 ключевых фраз с наибольшей плотностью спама. В сравнении со спам-таргетированным бенчмарком, из Раздела 3, этот набор имел меньше ключевых слов, относящихся к категории медицинских препаратов, азартных игр и взрослой тематики, но с большим смещением в тему финансов.6 Оба бенчмарка совпадают на 15%.

5.2 Анализ плотности спама

В общей сложности мы отсканировали 95 753 уникальных URL и идентифицировали 6153 из них как спам, что составило 5.8% по всем ТОП-50 результатов органического поиска. Это значение меньше, чем те 11.6%, что были получены для предыдущего бенчмарка, и для этого есть два объяснения. Во-первых, во втором наборе использовалось меньшее количество ключевых фраз из спамоемких категорий Графика 2. Во-вторых, мы создали второй бенчмарк через две недели после первого, что примерно совпало по времени с процессом удаления одной крупной поисковой системой мошеннических URL из результатов своего органического поиска, то есть как раз после наших первых экспериментов.

5.3 Анализ двухпоточности

Далее мы проанализируем пять слоёв и сравним их с результатами первого бенчмарка. Во всех последующих графиках домены, появлявшиеся ранее, отмечены серым цветом.

5.3.1 Слой #1: Дорвейные домены

График 9: Слой #1: ТОП-15 первичных доменов/сайтов по количеству обнаруженных дорвеев

График 9 показывает ТОП-15 дорвейных доменов, пять из которых уже имели место в Графике 3, а ещё два оказались обсуждавшимися ранее доменами, расположенными в зоне .EDU. Аналогично Графикам 3 и 4, ресурс blogspot.com и в этом случае оказался на первом месте, имея частоту обнаружения спам-страниц на порядок выше, нежели чем у остальных доменов, составляя 29% от всего обнаруженного спама с его процентным содержанием в 75%. Опять же, все домены из ТОП-15 за исключением одного (в данном случае им оказался uconn.edu), имели процент спама выше 74% (детали опустим). Наиболее примечательным отличием от Графика 3 оказалось то, что четыре домена, относящиеся к зоне .INFO были созданы с единственной целью размещения дорвейных страниц. Фактически, 1224 из 1798 уникальных URL, относящихся к доменной зоне .INFO, были определены нами как спам; они также появлялись 1324 раз, что составляет 15% всего обнаруженного спама. Таблица 1 демонстрирует, что зона .INFO содержит 68% спама по всем нашим поисковым запросам, что на порядок выше, чем у зоны .COM (4.1%). У спам-таргетированного бенчмарка данные значения составляли 63% и 9.6%, соответственно.

Таблица 1: Процент спама для доменов верхнего уровня по запросам, входящих во второй бенчмарк.

Домены верхнего уровня .COM .ORG .NET .BIZ .INFO
Спам, % 4.1% 11% 12% 53% 68%

5.3.2 Слой #2: Перенаправляющие домены

График 10: Слой #2: ТОП-15 перенаправляющих доменов, отранжированных по количеству обнаруженных входных дорвейных страниц.

График 10 показывает ТОП-15 синдикационных доменов. Семь из них перекрываются со списком, указанным на Графике 6, а а nudai.com уже обсуждался нами ранее. Домен Topsearch10.com выделяется тем, что он является единственным переадресующим доменом с более чем 1000 случаев обнаружения спама в обоих бенчмарках. Кроме этого, опять наблюдается присутствие перенаправляющих доменов, находящиеся в блоке IP-адресов 209.8.25.150~209.8.25.159, которые обнаруживаются нами 2208 раз и составляют 25% от всего обнаруженного веб-спама. Заметно, что вместо тематики для взрослых и медицинских препаратов во втором наборе преобладает категория сайтов, отвечающая денежной тематике, что является следствием различной композиции двух бенчмарков. Наконец, отметим, что veryfastsearch.com (64.111.196.122) и nudai.com (64.111.199.189) принадлежат тому же IP-блоку 64.111, который был описан нами в Разделе 4.2.3, и потенциально могут быть связанны с агрегаторами напрямую. Мошенники, использующие AdSense, снова не попали в наш ТОП-15. Наивысший ранг среди них получил ca-pub-2706172671153345, который занял #31 место с 61 случаями обнаружения спама на 27 уникальных спам-блогах, расположенных на blogspot.com.

5.3.3 Три нижних слоя

Среди 6153 уникальных мошеннических URL мы извлекли 2995 страниц с агрессивной демонстрацией рекламы, которые в общей сложности содержали 37 962 рекламных объявления.

Слой #3: Агрегаторы (Анализ страниц)

График 11: Слой #3: ТОП-15 доменов-ресиверов кликового трафика по количеству обнаруженной рекламы на спам-страницах.

График 11 демонстрирует нам, что домены-ресиверы рекламного трафика вновь располагались в блоках IP-адресов 66.230 и 64.111. В общей сложности, мы обнаружили 28 938 и 6041 рекламных объявления в обоих блоках соответственно.

Слой №#5: Рекламодатели (Анализ страниц)

График 12: Слой #5: ТОП-15 рекламодателей по количеству обнаруженной рекламы на спам-страницах.

График 12 идентифицирует ТОП-15 рекламодателей, которые значительно отличаются от тех, что были продемонстрированы на Графике 8 – совпали лишь 6 из них. Такие известные сайты, как bizrate.com, shopping.com, dealtime.com и shopzilla.com, прежде занимавшие #20 — #60 места, теперь поднялись в ТОП-15. Это отражает тот факт, что рекламодатель-таргетированные ключевые фразы более соответствуют коммерческой направленности данных веб-сайтов, нежели чем спам-таргетированные ключевые фразы.

Слой #4: Синдикаторы (Анализ кликов)

Наш анализ кликов показывает, что два наших набора ключевых слов имеют одинаковый ТОП-3 синдикаторов, несмотря на то, что совпадение по используемым в них ключевым фразам составляет только 15%; и они сильно отличаются в плане основных рекламодателей. Как и раньше, в ТОП-3 синдикаторов вошли ресурсы с наибольшим числом цепочек переадресаций: looksmart.com (881), findwhat.com (809), и 7search.com (335), вкупе составляющих 2025 (68%) ото всех 2995 цепочек. Эти числа сообщают нам, что эти синдикаторы широко и глубоко вовлечены в индустрию поискового спама.

6. Прочие распространенные обманные практики

В данном разделе мы покажем, что многие синдикационные мошенники, которые не используют перенаправление на стороне клиента (чаще всего браузера) для показа рекламы делят нижнюю часть двухпоточности со спамерами, применяющими переадресацию; то есть, помимо организации показов рекламы на стороне сервера, они также направляют кликовый траффик со своих страниц на те же блоки IP-адресов, которые мы обнаружили в предыдущих разделах. За счет более высокого трафика, агрегаторы и синдикаторы получают еще большую прибыль. Всё последующее сканирование выполнялось в октябре 2006 года.

6.1 Блогофермы

Веб-страница на urch.ogymy.info является блоговой страницей, созданной с единственной целью демонстрации рекламы, которая состоит из трёх частей: список рекламных объявлений; несколько автоматически сгенерированных кратких комментариев; длинный список бессмысленных постов, созданных для продвижения нескольких рандомно названных и разбросанных по этим записям URL-адресов, относящихся к доменным зонам .ORG и .INFO. Введя следующие запросы: «Добро пожаловать в мой блог», «Привет, спасибо за советы», фентермин domain:info, а также «linkdomain:ogymy.info» и «linkfromdomain:ogymy.info» — мы нашли 1705 уникальных страниц, имевших схожий формат и принадлежавших той же блогоферме. Посетив каждую страницу и проанализировав рекламные URL-адреса, мы обнаружили, что все 17 050 рекламных объявлений перенаправляли трафик на 64.111.196.117, который был под номером #12 на Графике 7 и #7 на Графике 11.

6.2 Паразитирующие рекламные фермы

Три веб-страницы phentermine.IEEEpcs.orf, HistMed.org/Gambling-Online.phtml и ChildrensMuseumOfOakridge.org/PornStar-Finder.dhtml [32] являются примерами широко применяемой технологии, в которой страницы созданые с единственной целью агрессивной демонстрации рекламы и не представляющие для пользователей никакой информационной ценности, прикрепляются к добросовестным доменам для увеличения своей видимости в результатах органического поиска и избежания попадания в чёрный список. Поискав другие рекламные фермы со схожими сигнатурами, мы обнаружили 91 домен, относящийся к зоне .ORG, которые были инфицированы такими «паразитами»: 10 из них были удалены, 3 показывали заглушку «Under Construction», а остальные активно отображали рекламу. Посетив 10 страниц на каждой из активных ферм мы извлекли 15 580 рекламных объявлений и увидели, что 6200 из них направляли кликовый траффик на 64.111.210.10, 64.111.210.206 и 64.111.214.154 (#1 на Графике 7), и все они принадлежат блоку IP-адресов 64.111. Остальные 9380 рекламные объявления принадлежали 66.230.138.243 и 66.230.138.211, #2 и #4 на Графике 7 соответственно. Мы обнаружили, что некоторые домены в зоне .OGR использовали кликовое сокрытие [22]; например, рекламная страница urbanacademy.org/pc-fix-it.phtml в случае прямого захода выдавала ошибку «HTTP 404 Not Found», но уже при прохождении по результатам органического поиска отображала рекламу.

7. Связанные работы

Клоакинг и перенаправление являются двумя технологиями, которые Gyongyi и Garcia-Molina определили как мошенническую тактику скрытия некачественного содержимого [8]. Изучая клоакинг и перенаправление, Wu и Davison обнаружили, что более 8% из ТОП-200 URL, возвращенных поисковой системой Google, использовали клоакинг, а некоторые веб-сайты даже применяли перенаправляющий клоакинг (Redirection cloaking), то есть переадресовывали различных пользовательских агентов на отличные друг от друга интернет-сайты [23]. Они предложили автоматизированный метод обнаружения семантического сокрытия, который сначала идентифицировал подозрительные страницы посредством их содержимого, отдаваемого браузеру и поисковому роботу, а затем использовали машинное обучение для создания классификатора [25]. Используемые нами Search Monkey способны распознавать клоакинг, включая новейшие практики кликового сокрытия, эмулируя поведение пользователя с помощью полнофункционального браузера, благодаря чему анализ перенаправлений выполняется на истинных документах страницах, отображаемых пользователям. Безусловно, финансовый вопрос является основным стимулом для мошенников. Jansen отметил, что несмотря на проблему кликового мошенничества, спонсируемый поиск смог бы уменьшить количество спама [9]. Sarukkai предложил способ вычислить монетизацию поисковых фраз [17]. Chellapilla и Chikering исследовали клоакинг с экономической точки зрения, сравнив результаты поиска по ТОП-5000 популярных запросов и ТОП-5000 монетизируемых запросов. Рассматривая клоакингоемкие запросы, они обнаружили, что по популярным запросам мошенническими оказалось 73.1% страниц, в то время как среди монетизационных запросов мошенническими оказалось 98.5% страниц [5]. Мы же концентрировались на обнаружении спам-сетей и, в целях идентификации основных доменов, которые включаются в цепочку перенаправлений, использовали метод отслеживания финансовых потоков.

Различные механизмы ранжирования, такие как Google PageRank, HITS и TrustRank, объединены идеей того, что гиперссылка рассматривается в качестве «голоса» доверия [13, 26]. Baeza-Yates, Castillo и Lopez обнаружили, что PageRank был уязвим перед атаками Сибиллы, при которых низкосортные страницы формировали целый подграф или звезду [2]. Тем не менее, Adali и др. посчитали, что максимизация ранга также может быть выполнена просто в виде поисковой бомбы, состоящей из одной центральной страницы, на которую сошлются все прочие документы [1]. Методы адаптации алгоритмов ранжирования в целях противодействия ссылочным фермам включают изучение доверия и недоверия, начинающегося с заданного множества некачественных документов [26]. Krishnan и Raj использовали эту идею при разработке алгоритма недоверия Anti-Trust Rank, в котором они использовали методологию, схожую с Trust Rank, для распространения недоверия из начальной выборки некачественных страниц [12], подобно идентификации неблагонадёжных «соседей» по Сети в работе [13] и ссылочных ферм в работе [24]. Benczur и Csalgnany представили алгоритм SpamRank в качестве технологии автоматизированного обнаружения спама с помощью идентификации страниц, нарушающих степенной закон распределения, который часто не учитывается при продвижении сайтов [4]. Они обнаружили, что оценка самоподобия может быть эффективнее мер по вычислению доверия/недоверия в задачах классификации спам-страниц. Аналогично, Carvalho и др. сфокусировались на обнаружении ссылочного «шума», то есть сайтов с аномальной саппортизацией, с помощью измерения количества ссылок между двумя сайтами [6]. Для обнаружения поискового спама, Bechetti и др. проанализировали эвристики основанные: исключительно на гиперссылках, Google Pagerank, Trustrank, Truncated PageRank, а также в случае комбинирования данных эвристических алгоритмов. После чего была оценена их производительность [3]. Мы же используем только ссылочный анализ для определения заспамленных форумов, но для решения задач, связанных со спамом, применяющим переадресацию, мы полагаемся на анализ перенаправлений.

Анализ содержимого также полезен при обнаружении спама. Kolari, Finn и Joshi использовали машинное обучение для создания классификатора, основанного на мета-тегах, тексте ссылочных анкоров, а также токенизированных URL [11]. Fetterly, Manasse и Ntoulas начали с эвристиков, независящих от содержимого, таких как гиперссылочная структура и ее среднее изменение по всему веб-сайту [7], а продолжили эвристиками, зависящими от интернет-ресурса, таких как слова, используемые на странице или в TITLE; доля видимого содержимого. Urvoy и др. смоделировал стиль HTML документов, основываясь на таких свойствах, как спейсинг и HTML-тэги, для определения стилистического сходства, которые могут быть использованы для идентификации авторов [18]. Mishne, Carmel и Lempel сравнили языковую модель между записями простого блога и целевого документа посредством комментариев [14]. Наш анализ пользовательского трафика дополняет вышеуказанные анализы содержимого страниц.

8. Выводы

Мы проанализировали спам, использующий переадресацию, используя систему Strider Search Ranger, которая идентифицирует спам-страницы посредством наблюдения за перенаправляемым ими трафиком на известные спам-домены. Используя набор спам-таргетированных слов, мы показали, что «медицинские препараты» и «рингтоны» оказались наиболее спамоемкими темами со средней плотностью спама в 30.8% и 27.5% соответственно. Также мы создали второй набор, состоящий из рекламодатель-таргетированных ключевых фраз, чтобы изучить схожие и отличительные характеристики спама между обоими бенчмарками. Для анализа спама, использующего переадресацию, мы представили пятислойную двухпоточную модель в которой реклама от коммерческих рекламодателей следует через синдикаторы, агрегаторы и перенаправляющие домены и, наконец, отображается на мошеннических дорвейных страницах, в то время как кликовый траффик с этих рекламных блоков направляется в обратном направлении, проходя сквозь агрегаторов и синдикаторов, к рекламодателям. Домены в средних слоях обеспечивают критическую инфраструктуру для конвертации спам-трафика в денежные средства, но, в основном, они остаются скрытыми. Мы использовали технологии систематического и количественного анализа трафика для идентификации крупных игроков и выявления их широкого и глубокого вовлечения в мошенническую деятельность.


В Слое #1 – дорвейных доменах – мы показали, что бесплатный блогохостинг blogspot.com имел на порядок больше спам-URL в топовых результатах систем информационного поиска, нежели чем другие домены веб-хостингов в обоих бенчмарках, и отвечал за обнаружение спама почти в каждом четвёртом случае (если говорить точнее, то 22% и 29% в каждом бенчмарке, соответственно). Более того, каждые три из четырёх уникальных URL-адреса blogspot, которые были обнаружены нами в ТОП-50 по коммерческим запросам, тоже оказывались спамом (77% и 75%). Мы также показали, что более 60% уникальных URL, относящихся к доменной зоне .INFO и появляющихся в результатах органического поиска, были мошенническими, что на порядок выше, чем процент спама среди URL, относящихся к зоне .COM.

В Слое #2 – перенаправляющие домены – мы показали, что спамерский домен topsearch10.com был причастен к более чем 1000 появлений некачественных страниц в обоих бенчмарках, и что в блоке IP-адресов 209.8.25.10 – 209.8.25.159, на которых он находился, размещались и другие перенаправляющие домены, ответственность которых, в общей сложности, составляет 22-25% от всего обнаруженного нами спама. Мы также отметили, что большинство топовых перенаправляющих доменов были синдикационными и выдавали текстовые страницы, единственной целью которых была агрессивная демонстрация рекламы.

В Слое #3 – агрегаторы – мы сделали удивительное открытие, которое заключалось в том, что два IP-блока 66.20.128.0 – 66.230.191.255 и 64.111.192.0 – 64.111.223.235 оказались ответственными за направление невероятно большого процента кликового траффика мошеннической рекламы. При их изучении мы без особого труда собрали более 100 000 рекламных объявлений, ассоциированных с этими IP-блоками, включая множество рекламы, обслуживаемых спамерами и без использования редиректов. Эти два блока IP-адресов составляют «узкое место» двухпоточного спама, и данный слой может оказаться лучшим слоем для решения проблемы поискового спама.

В Слое #4 – синдикаторы – мы обнаружили, что всего несколько рекламных синдикаторов служили посредниками между рекламодателями и большинством спамеров. В частности, ТОП-3 синдикаторов были вовлечены в 59-58% спамерских цепочек переадресаций, которые мы исследовали. Размещая рекламу на огромном количестве низкокачественных страниц за потенциально малую цену, эти синдикаторы могут быть главными конкурентами для основных рекламных компаний, которые обслуживают рекламу тех же рекламодателей на страницах с результатами поиска и других высококачественных немошеннических страницах.

В Слое #5 – рекламодатели – мы показали, что реклама даже известных веб-сайтов часто демонстрируется на мошеннических страницах. В конечном счете, индустрия спама кормится именно за счёт рекламодателей, из-за чего интернет наполняется низкокачественным контентом, а удобство пользования органическим поиском ухудшается. Обрисовав вам полную картину деятельности интернет-мошенников, мы надеемся обучить пользователей не проходить по спамерским линкам и рекламным блокам, а также стимулировать рекламодателей более тщательно рассмотреть вопрос сотрудничества с теми синдикаторами и партнёрами, которые имеют прибыль с манипулятивного трафика за счёт снижения качества информации, содержащейся в Глобальной сети, в долгосрочной перспективе.


Ссылки:

[1] Adali, S., Liu, Т., and Magdon-Ismail, M. Optimal Link Bombs are Uncoordinated. In the Is’ International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), May 2005.

[2] Baeza-Yates, R, Castillo, C, and Lopez, V. Pagerank Increase Under Different Collusion Topologies. In the I International
Workshop on Adversarial Information Retrieval on the Web (AIRWeb), May 2005.

[3] Becchetti, L., Castillo, C, Donato, D., Leonardi, S., Baeza-Yates, R. Link-based Characterization and Detection of Web
Spam. In the 2nd International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), August 2006.

[4] Benczur, A., Csalogany, K., Sarlos, Т., and Uher, M. SpamRank — Fully Automatic Link Spam Detection. In the Is’International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), May 2005.

[5] Chellapilla, К. and Chickering, D.M. Improving Cloaking Detection Using Search Query Popularity and Monetizability. In the Td International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), August 2006.

[6] da Costa Carvalho, A. L., Chirita, P., de Moura, E. S., Calado, P., and Nejdl, W. Site Level Noise Removal for Search Engines. In Proc. of International World Wide Web Conference (WWW). May, 2006.

[7] Fetterly, D., Manasse, M., and Najork, M. Spam, Damn Spam, and Statistics: Using Statistical Analysis to Locate Spam Web Pages. In Proc of the 7th International Workshop on the Web and Databases, pp. 1-6, 2004.

[8] Gyongyi, Z. and Garcia-Molina, H. Web Spam Taxonomy. In the I International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2005.

[9] Jansen, B.J. Adversarial Informaton Retrieval Aspects of Sponsored Search. In the 2ml International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2006.

[10] Jarvelin, K. and Kekalainen, J. IR Evaluation Methods for Retrieving Highly Relevant Documents. In Proc. ACM SIGIR Conference on R&D in Information Retrieval, 2000.

[11] Kolari, P., Finin, Т., and Joshi, A. SVMs for the Blogosphere: Blog Identification and Splog Detection. In AAAI Spring Symposium on Computational Approaches to Analysing Weblogs, March 2006.

[12] Krishnan, V. and Raj, R. Web Spam Detection and Anti-Trust Rank. In the 2 International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), August 2006.

[13] Metaxas, P. and DeStephano, J. Web Spam, Propaganda and Trust. In the I International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), May 2005.

[14] Mishne, G., Carmel, D., and Lempel, R. Blocking Blog Spam with Language Model Disagreement. In the I International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), May 2005.

[15] Niu, Y., Wang, Y. M., Chen, H., Ma, M., and Hsu, F. A Quantitative Study of Forum Spamming Using Context-based Analysis. In Proc. Network and Distributed System Security (NDSS) Symposium, February 2007.

[16] Ntouias, A., Najork, M., Manasse, M., and Fetterly, D. Detecting Spam Web Pages through Content Analysis. In Proc. International World Wide Web Conference (WWW), May 2006.

[17] Sarukkai, R.R. How Much is a Keyword Worth? In Proc. International World Wide Web Conference, (WWW), May 2005.

[18] Urvoy, Т., Lavernge, Т., Filoche, P. Tracking Web Spam with Hidden Style Similarity. In the 2 International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), August 2006.

[19] Wang, Y. M., Beck, D., Jiang, X., Roussev, R., Verbowski, C, Chen, S., and King, S. Automated Web Patrol with Strider HoneyMonkeys: Finding Web Sites That Exploit Browser Vulnerabilities. In Proc. Network and Distributed System Security (NDSS) Symposium, February 2006.

[20] Wang, Y. M., Beck, D., Wang, J., Verbowski, C, and Daniels, B. Strider Typo-Patrol: Discovery and Analysis of Systematic Typo-Squatting. In Proc. 2nd Workshop on Steps to Reducing Unwanted Traffic on the Internet (SRUTI), July 2006.

[21] Wang, Y. M. and Ma, M. Strider Search Ranger: Towards an Autonomic Anti-Spam Search Engine. Microsoft Research Technical Report, MSR-TR- 2006-174, December 2006.

[22] Wang, Y. M. and Ma, M. Detecting Stealth Web Pages That Use Click-Through Cloaking. Microsoft Research Technical Report, MSR-TR- 2006-178, December 2006.

[23] Wu, B. and Davison, B.D. Cloaking and Redirection: A Preliminary Study. In the Is’ International Workshop on Adversarial Information Retrieval on the Web (AIRWeb), 2005.

[24] Wu, В., and Davison, B.D. Identifying Link Farm Pages. In Proc. International World Wide Web Conference (WWW), 2005.

[25] Wu, В. and Davison, B.D. Delecting Semantic Cloaking on the Web. In Proc. International World Wide Web Conference (WWW), August 2006.

[26] Wu, В., Goel, V., Davison, B.D. Propagating Trust and Distrust to Demote Web Spam. In Proc. Models of Trust for the Web Workshop (MTW), International World Wide Web Conference., 2006.

[27] Fiddler HTTP Proxy, tlddlertool.com

[28] Fighting Splogs, fightsplog.blogspot.com

[29] The Google AdSense Program, google.com/adsense

[30] Network Whois records

[31] Screenshots of sample redirection spam pages, research.microsoft.com/SearchRanger/Redirection-spam_3_types.htm

[32] Screenshots of sample click-through analyses, research.microsoft.com/SearchRanger/Spam_ads_click-through_analysis.htm


1. Для простоты восприятия, в данной статье под словом «форумы» мы также подразумеваем блоги, конференции, доски объявлений, гостевые книги, журналы, дневники, галереи, архивы и т. д. — всё, что может быть использовано спамерами для продвижения их ресурсов.

2. В данной статье мы используем термины «ключевые слова», «запросы», «поисковые фразы» и т.п. как взаимозаменяемые, для обозначения вопросов пользователей, адресуемых системам информационного поиска.

3. Отметим, что «процент спама» вычисляется для каждого домена по отдельности, и определяется как количество уникальных спам-URL, разделённое на количество уникальных URL данного домена, что были обнаружены в результатах поиска.

4. Мы уведомили некоторых владельцев интернет-сайтов об обнаружении нами спам-URL, и на момент публикации данного материала они могут быть уже неактивны. Однако при желании можно использовать оператор «link:», чтобы увидеть примеры тех форумов, которые их упоминали.

5. URL-адреса, предназначенные для перехода по рекламным объявлениям, содержали закодированные URL рекламодателей; однако их расшифровка оказалась нетривиальной задачей.

6. При работе с этим бенчмарком мы не использовали какую-либо категоризацию.

Перевод материала «Spam Double-funnel: Connecting Web Spammers with Advertisers» выполнил Максим Евмещенко

Полезная информация по продвижению сайтов:

Перейти ко всей информации