Mariusz Gąsiewski

Roboty i Googlebot

Prawie każda wyszukiwarka internetowa ( może nawet każda wyszukiwarka) indeksuje strony za pomocą robotów, czyli programów które przeglądają strony przechodząc pomiędzy nimi poprzez linki hipertekstowe. Rozwiązaniem wykorzystanym przez uznawaną za jedną z najlepszych na świecie wyszukiwarek jest robot (inaczej spider, crawler, agent) o nazwie Googlebot.

Kiedy strona internetowa zostaje zgłoszona do wyszukiwarki, adres witryny (URL) jest dodany do kolejki stron oczekujących na odwiedzenie przez robotów. Jeśli strona nie została zgłoszona tradycyjnie najczęściej robot i tak do niej dochodzi poprzez linki prowadzące z innych stron do tej witryny. Najczęściej nawet droga do indeksacji poprzez budowanie linków jest efektywniejsza i skuteczniejsza niż tradycyjne zgłaszanie do wyszukiwarki poprzez formularze.

Kiedy Googlebot dociera do strony docelowej, sprawdza czy dostępny jest plik robots.txt. Plik ten służy do ograniczenia działania robotów na danej witrynie internetowej.

Robots.txt powinien znajdować się w katalogu głównym serwera. Plik robots.txt jest plikiem tekstowym bez tagów HTML. Robots.txt używa specjalnego protokołu – Robots Exclusion Protocol, który pozwala administratorowi zdefiniować, które katalogi / pliki na jego serwerze nie zostaną odwiedzone przez robota Google i inne roboty. Możemy zakazać (disallow) „wstępu” do katalogu CGI, private lub np. katalogu tymczasowego

Składania pliku Robots.txt

User-agent: *
Disallow:

Gwiazdka (*) w sekcji User-agent (nazwa robota), jest po prostu skrótem dla „wszystkie roboty”. Jako, że nic nie jest zabronione, wszystko jest dozwolone. (sytuacja, jakby nie było w ogóle pliku robots.txt)

User-agent: *
Disallow: /cgi-bin/
Disallow: /moje/
Disallow: /nie_chce/

W tym przykładzie wszystkie roboty mogą zaglądać gdzie im się podoba z wyjątkiem trzech niżej wymienionych katalogów, czyli cgi-bin, moje, nie_chce

User-agent: CosBot
Disallow: /

W tym przypadku robot o nazwie CosBot nie może katalogować żadnego pliku i katalogu z tego serwera( „/” to skrót do „wszystkie katalogi”)

User-agent: CosBot
Disallow: /moje/
Disallow: /nie_chce/
Disallow: /linki/moje.html

User-agent: *
Disallow: /moje/
Disallow: /nie_chce/

Te komendy zabraniają dostępu (Cosmubotowi) do wymienionych katalogów oraz do pliku moje.html. Wszystkie pozostałe roboty nie mogą wejść w moje/ i nie_chce/.

Dokładny opis składni dla pliku Robots.txt można znaleźć na stronie Wikipedii i Robotstxt.org

Składnia metatagów dla robota

Po przeanalizowaniu pliku robots.txt Googlebot indeksuje tekst na stronie, meta tagi, znaczniki Title i ALT , tekst w hyperlinkach i linkach. Z uzyskanych informacji robot a poprzez niego również wyszukiwarka rozstrzyga, o czym jest strona docelowa.

Aby ograniczyć same działanie robota Google już na samej stronie bez ingerencji w plik robots.txt można użyć odpowiednich znaczników, które są umieszczane w metatagach.W swojej konstrukcji robot Googlebot przestrzega znaczników: noindex, index, nofollow, follow, noarchive, meta tagi.

Najważniejsze znaczniki wykorzystywane w metatagach:

META NAME=”robots” CONTENT=”noindex”

Z tym znacznikiem Googlebot nie będzie indeksować strony internetowej

META NAME=”robots” CONTENT=”nofollow”

Z tym znacznikiem Googlebot nie będzie podążać za linkami umieszczonymi na stronie do innych stron.

META NAME=”robots” CONTENT=”noarchive”
Z tym znacznikiem Google nie będzie prowadzić zarchiwizowanych kopii strony

W przypadku, kiedy uznasz strone za przydatna dodaj na swojej stronie link do niej.
Po prostu skopiuj i wklej link podany nizej (Ctrl+C to copy)
Wyglad linku po wklejeniu na stronie: Roboty i Googlebot

Dodaj link do:
| | | Y! MyWeb | +Google

21 komentarzy to “Roboty i Googlebot”

  1. Wyniki uzupełniające w Googleon 17 sty 2007 at 01:18

    […] Jeżeli z jakiś powodów zależy nam na utrzymywaniu obu wersji danej podstrony (np. podstrony z podobną lub identyczną treścią dla Warszawy i Krakowa) wówczas powinniśmy jedną z nich wyindeksować z zasobów Google (np. poprzez dodanie tagu lub poprzez użycie pliku robots.txt – dokładany opis użycia tego pliku jest w poście Roboty i Googlebot). […]

  2. JarTSWon 16 cze 2007 at 17:54

    I jak napisałem ten comment moze bede mial wreszcie google bota na forum :]

  3. adminon 17 cze 2007 at 23:59

    No cóż roboty bardzo lubią linki, im więcej tym lepiej. Na samych linkach z komentarzy bym jednak się nie opierał 🙂

  4. okoon 27 cze 2007 at 21:41

    Świetny artykuł

  5. piteron 17 lip 2007 at 13:10

    pozdrawiam:)

  6. Zakaron 04 gru 2007 at 19:58

    Może teraz po tym commentcie będę miał wreszcie bota na stronie bo tak to nie chciał mnie odwiedzić…

  7. adminon 04 gru 2007 at 21:05

    Powodzenia :).
    Zastanów się nad wprowadzeniem trochę bardziej przejrzystego szablonu. Dla robota nie będzie to miało wielkiego znaczenia, ale dla Twoich użytkownikom znaczenie to już będzie miało. Na podstronie Darmowe szablony www masz do wyboru wiele darmowych szablonów zoptymalizowanych dla potrzeb niedużej firmy. Razem szablonów do wyboru jest ponad 60. Z wszystkich można skorzystać bez żadnych opłat.

  8. krisuson 14 gru 2007 at 14:13

    Również liczę że i mnie robocik odwiedzi. Czekam i czekam 🙂

  9. piotron 22 lut 2008 at 23:17

    Siemka :)) tez licze na bota hehehe 😛

  10. Aduinon 09 sie 2008 at 10:38

    Świetny artykuł!

  11. malarz2on 07 gru 2008 at 04:24

    A boty na forum?? Jak je wyświetlać ??

  12. pateuszon 12 lut 2009 at 12:09

    Ja też na bota czekam!!! 🙂

  13. shouteron 14 lut 2009 at 13:35

    fajny artykuł

  14. Mortison 21 maja 2009 at 14:44

    Ja również czekam na chwile w która odwiedzi Mnie robocik 🙂

  15. adruson 22 maja 2009 at 15:16

    mnie wczoraj odwiedził robocik przesledził każda strone i podstrone ale nadal niema mojej strony w wyszukiwarce 🙁 nie wiem dlaczego

  16. maxon 22 cze 2009 at 11:15

    Musisz czekać cierpliwie,pozdrawiam

  17. madikon 23 cze 2009 at 12:41

    kolega ma racje cierpliwości

  18. glson 30 wrz 2009 at 10:19

    no to czekamy 🙂

  19. x-programy.plon 14 gru 2009 at 22:47

    Witam,

    Tak się zastanawiam czy taki wpis jest prawidłowy:

    Strona będzie indeksowana i robocik będzie podążał za linkami. Ale czy dodatkowo nie będzie archiwizował strony ?

  20. Fon 29 gru 2009 at 00:58

    Pytanko. Też czekam na bota. Czy instalacja pliku robots.txt, jest niezbędna do tego aby GoogleBot odwiedził stronę??

  21. wzbogacsie.blogspot.comon 24 sty 2010 at 09:19

    Bardzo pomocny artykuł. Pozdrawiam.