Mariusz Gąsiewski

Badanie spamu Microsoft i University of California

Pomimo tego, że algorytmy wyszukiwarek są coraz doskonalsze i bardziej odporne na nielegalne techniki pozycjonowania i zdobywania użytkowników, niektóre witryny internetowe tworzone przez spamerów pojawiają się nieraz na krótszy lub dłuższy okres dość wysoko w wynikach wyszukiwania wyszukiwarek. Nie ma oczywiście dokładnych danych na temat rozmiarów i zakresu spamu w wynikach wyszukiwania, aczkolwiek od czasu do czasu pojawiają się próby zbadania tego zjawiska.

Jedną z takich prób jest niedawno opublikowany raport przygotowany we współpracy firmy Microsoft z University of California.


Raport Spam-Double Funnel: Connecting Web Spammers with Advertisers (http://www.cs.ucdavis.edu/~hchen/paper/www07.pdf) poświęcony jest głównie badaniu przekierowań typu: sneaky redirect i cloaking. Duża część z tych stron zostało stworzonych z myślą o przekierowywaniu ruchu internetowego na witryny prezentujące reklamy sprzedawane w modelu CPC.


Opis badania

Bardzo ciekawa jest metodologia badania zastosowana w tym raporcie. Badacze postanowili zbadać cały proces tworzenia spamu – począwszy od podmiotów, które generowały spamerskie witryny poprzez pośredników po firmy, które finansowały wyświetlanie reklam na spamerskich witrynach.

Model spamu ujęty w raporcie obejmował 5 głównych elementów, które razem tworzyły swego rodzaju tunel spamu:

  • Doorway pages – spamerskie strony, które pojawiają sie w wynikach wyszukiwania;
  • Redirection domains – odpowiadają za przekierowanie użytkownika po kliknięciu spamerskiej strony w wynikach wyszukiwania;
  • Aggregators – pośrednicy, którzy kupują przekierowania od spamerów;
  • Syndicators – organizacje wyświetlające reklamy i kupujące ruch internetowe od agregatorów;
  • Advertisers – reklamodawcy.
Badanie spamu w wyszukiwarkach - model spamu


Wnioski z badania

  • Jak nietrudno się domyślić największe rozmiary spam ma w obrębie witryn poświęconych: medykamentom typu viagra i dzwonkom.
Badanie spamu w wyszukiwarkach

W przypadku tych kategorii zakres spamu obejmował prawie jedną trzecią wyników w wynikach wyszukiwania silników wyszukiwawczych.

  • Główne systemy blogowe stosowane przy tworzeniu spamu.
Badanie spamu w wyszukiwarkach
  • Względnie najczęściej stosowanymi w spamerskich stronach rozszerzeniami domen są:. info i .biz

Szczegółowe wyniki badania (w ujęciu procentowym stron, które okazały się stronami spamerskimi w stosunku do stron które pojawiły się w wynikach wyszukiwania.

.info – 68%
.biz – 53%
.net – 12%
.org – 11%
.com – 4,1%

Analizując wyniki tego badania nie można oczywiście zapominać, że domen typu .com jest najwięcej, wiec względny udział procentowy nie pokrywa się z bezwzględną liczą spamerskich stron w obrębie danego rozszerzenia domeny.

Całe badanie jest dostępne stronie University of California (http://www.cs.ucdavis.edu/~hchen/paper/www07.pdf).

Update
Link już nie działa.

Osobom zainteresowanym tematem polecam dodatkowe publikacje:

  • Dokładna metodologia badania spamu jak również sposoby na walkę z nim dostępne na stronie Microsoft: http://research.microsoft.com/SearchRanger/ – (Strider Search Ranger:War on Search Spam: Shifting the Battleground by “Following the Money”<)

Dokument przedstawia rady odnośnie walki ze spamem przeznaczone dla:

  • właścicieli blogów;
  • firm, których reklamy mogą się pojawiać na spamerskich stronach;
  • dostawców Internetu, którzy chcą walczyć ze spamem;
  • pośredników reklamowych, które chcą się strzec przed współpracą ze spamerami;
  • użytkowników Internetu;
  • właścicieli stron internetowych.

Na stronie publikacji można znaleźć wiele dodatkowych dokumentów poświęconych zagadnieniu spamu w Internecie.

  • Publikacja poświęcona problemowi spamu na forach internetowych: http://www.cs.ucdavis.edu/~hchen/paper/ndss07.pdf ( Quantitative Study of Forum Spamming Using Context-based Analysis).

Streszczenie

Forum spamming has become a major means of search engine spamming. To evaluate the impact of forum spamming on search quality, we have conducted a comprehensive study from three perspectives: that of the search user, the spammer, and the forum hosting site. We examine spam blogs and spam comments in both legitimate and honey forums. Our study shows that forum spamming is a widespread problem. Spammed forums, powered by the most popular software, show up in the top 20
search results for all the 189 popular keywords. On two blog sites, more than half (75% and 54% respectively) of the blogs are spam, and even on a major and reputably well maintained blog site, 8.1% of the blogs are spam1. The observation on our honey forums confirms that spammers target abandoned pages and that most comment spam is meant to increase page rank rather than generate immediate traffic. We propose context-based analyses, consisting of redirection and cloaking analysis, to detect spam automatically and to overcome shortcomings of content-based analyses. Our study shows that these analyses are very effective in identifying spam pages.

  • Dokument poświęcony spamowi przygotowany przez Yahoo dostępny na stronie: http://research.yahoo.com/publication/a_reference_collection_for_web_spam – (A Reference Collection for Web Spam)

Streszczenie:
We describe the WEBSPAM-UK2006 collection, a large set of Web pages that have been manually annotated with labels indicating if the hosts are include Web spam aspects or not. This is the first publicly available Web spam collection that includes page contents and links, and that has been labeled by a large and diverse set of judges.

W przypadku, kiedy uznasz strone za przydatna dodaj na swojej stronie link do niej.
Po prostu skopiuj i wklej link podany nizej (Ctrl+C to copy)
Wyglad linku po wklejeniu na stronie: Badanie spamu Microsoft i University of California

Dodaj link do:
| | | Y! MyWeb | +Google

6 komentarzy to “Badanie spamu Microsoft i University of California”

  1. […] Czytaj dalej » […]

  2. sohbeton 22 lis 2007 at 10:01

    Jedną z takich prób jest niedawno opublikowany raport przygotowany we współpracy firmy Microsoft z University of California.

  3. Spam - czyli co? - Blog programistyon 23 kw. 2008 at 07:04

    […] Badanie spamu Microsoft i University of California […]

  4. resimlerion 23 maja 2010 at 00:17

    Analizując wyniki tego badania nie można oczywiście zapominać, że domen typu .com jest najwięcej, wiec względny udział procentowy nie pokrywa się z bezwzględną liczą spamerskich

  5. resimlerion 23 maja 2010 at 00:18

    Względnie najczęściej stosowanymi w spamerskich stronach rozszerzeniami domen są:. info i .biz..

  6. Pawełon 20 paź 2014 at 06:33

    ciekawe te dane, ale jak tak patrze na portale internetowe – to dane pokrywają się z rzeczywsitymi moimi obserwacjami