mar 10th, 2006
Roboty i Googlebot
Prawie każda wyszukiwarka internetowa ( może nawet każda wyszukiwarka) indeksuje strony za pomocą robotów, czyli programów które przeglądają strony przechodząc pomiędzy nimi poprzez linki hipertekstowe. Rozwiązaniem wykorzystanym przez uznawaną za jedną z najlepszych na świecie wyszukiwarek jest robot (inaczej spider, crawler, agent) o nazwie Googlebot.
Kiedy strona internetowa zostaje zgłoszona do wyszukiwarki, adres witryny (URL) jest dodany do kolejki stron oczekujących na odwiedzenie przez robotów. Jeśli strona nie została zgłoszona tradycyjnie najczęściej robot i tak do niej dochodzi poprzez linki prowadzące z innych stron do tej witryny. Najczęściej nawet droga do indeksacji poprzez budowanie linków jest efektywniejsza i skuteczniejsza niż tradycyjne zgłaszanie do wyszukiwarki poprzez formularze.
Kiedy Googlebot dociera do strony docelowej, sprawdza czy dostępny jest plik robots.txt. Plik ten służy do ograniczenia działania robotów na danej witrynie internetowej.
Robots.txt powinien znajdować się w katalogu głównym serwera. Plik robots.txt jest plikiem tekstowym bez tagów HTML. Robots.txt używa specjalnego protokołu – Robots Exclusion Protocol, który pozwala administratorowi zdefiniować, które katalogi / pliki na jego serwerze nie zostaną odwiedzone przez robota Google i inne roboty. Możemy zakazać (disallow) „wstępu” do katalogu CGI, private lub np. katalogu tymczasowego
Składania pliku Robots.txt
User-agent: *
Disallow:
Gwiazdka (*) w sekcji User-agent (nazwa robota), jest po prostu skrótem dla „wszystkie roboty”. Jako, że nic nie jest zabronione, wszystko jest dozwolone. (sytuacja, jakby nie było w ogóle pliku robots.txt)
User-agent: *
Disallow: /cgi-bin/
Disallow: /moje/
Disallow: /nie_chce/
W tym przykładzie wszystkie roboty mogą zaglądać gdzie im się podoba z wyjątkiem trzech niżej wymienionych katalogów, czyli cgi-bin, moje, nie_chce
User-agent: CosBot
Disallow: /
W tym przypadku robot o nazwie CosBot nie może katalogować żadnego pliku i katalogu z tego serwera( „/” to skrót do „wszystkie katalogi”)
User-agent: CosBot
Disallow: /moje/
Disallow: /nie_chce/
Disallow: /linki/moje.html
User-agent: *
Disallow: /moje/
Disallow: /nie_chce/
Te komendy zabraniają dostępu (Cosmubotowi) do wymienionych katalogów oraz do pliku moje.html. Wszystkie pozostałe roboty nie mogą wejść w moje/ i nie_chce/.
Dokładny opis składni dla pliku Robots.txt można znaleźć na stronie Wikipedii i Robotstxt.org
Składnia metatagów dla robota
Po przeanalizowaniu pliku robots.txt Googlebot indeksuje tekst na stronie, meta tagi, znaczniki Title i ALT , tekst w hyperlinkach i linkach. Z uzyskanych informacji robot a poprzez niego również wyszukiwarka rozstrzyga, o czym jest strona docelowa.
Aby ograniczyć same działanie robota Google już na samej stronie bez ingerencji w plik robots.txt można użyć odpowiednich znaczników, które są umieszczane w metatagach.W swojej konstrukcji robot Googlebot przestrzega znaczników: noindex, index, nofollow, follow, noarchive, meta tagi.
Najważniejsze znaczniki wykorzystywane w metatagach:
META NAME=”robots” CONTENT=”noindex”
Z tym znacznikiem Googlebot nie będzie indeksować strony internetowej
META NAME=”robots” CONTENT=”nofollow”
Z tym znacznikiem Googlebot nie będzie podążać za linkami umieszczonymi na stronie do innych stron.
META NAME=”robots” CONTENT=”noarchive”
Z tym znacznikiem Google nie będzie prowadzić zarchiwizowanych kopii strony
W przypadku, kiedy uznasz strone za przydatna dodaj na swojej stronie link do niej.
Po prostu skopiuj i wklej link podany nizej (Ctrl+C to copy)
Wyglad linku po wklejeniu na stronie: Roboty i Googlebot
Dodaj link do:
| | | Y! MyWeb | +Google
[…] Jeżeli z jakiś powodów zależy nam na utrzymywaniu obu wersji danej podstrony (np. podstrony z podobną lub identyczną treścią dla Warszawy i Krakowa) wówczas powinniśmy jedną z nich wyindeksować z zasobów Google (np. poprzez dodanie tagu lub poprzez użycie pliku robots.txt – dokładany opis użycia tego pliku jest w poście Roboty i Googlebot). […]
I jak napisałem ten comment moze bede mial wreszcie google bota na forum :]
No cóż roboty bardzo lubią linki, im więcej tym lepiej. Na samych linkach z komentarzy bym jednak się nie opierał 🙂
Świetny artykuł
pozdrawiam:)
Może teraz po tym commentcie będę miał wreszcie bota na stronie bo tak to nie chciał mnie odwiedzić…
Powodzenia :).
Zastanów się nad wprowadzeniem trochę bardziej przejrzystego szablonu. Dla robota nie będzie to miało wielkiego znaczenia, ale dla Twoich użytkownikom znaczenie to już będzie miało. Na podstronie Darmowe szablony www masz do wyboru wiele darmowych szablonów zoptymalizowanych dla potrzeb niedużej firmy. Razem szablonów do wyboru jest ponad 60. Z wszystkich można skorzystać bez żadnych opłat.
Również liczę że i mnie robocik odwiedzi. Czekam i czekam 🙂
Siemka :)) tez licze na bota hehehe 😛
Świetny artykuł!
A boty na forum?? Jak je wyświetlać ??
Ja też na bota czekam!!! 🙂
fajny artykuł
Ja również czekam na chwile w która odwiedzi Mnie robocik 🙂
mnie wczoraj odwiedził robocik przesledził każda strone i podstrone ale nadal niema mojej strony w wyszukiwarce 🙁 nie wiem dlaczego
Musisz czekać cierpliwie,pozdrawiam
kolega ma racje cierpliwości
no to czekamy 🙂
Witam,
Tak się zastanawiam czy taki wpis jest prawidłowy:
Strona będzie indeksowana i robocik będzie podążał za linkami. Ale czy dodatkowo nie będzie archiwizował strony ?
Pytanko. Też czekam na bota. Czy instalacja pliku robots.txt, jest niezbędna do tego aby GoogleBot odwiedził stronę??
Bardzo pomocny artykuł. Pozdrawiam.