Çoğu web geliştirici ve web tasarımcı arama motoru robotları ve robots.txt hakkında fazla bilgiye (belki de hiç) sahip değildir. Arama motoru robotları web sitelerini ziyaret eden, bir sayfayı okuduktan sonra sayfada bulduğu önce iç sonra da dış linklere ziyarette bulunan yazılımlardır. Buldukları ve okudukları sayfaları ait oldukları arama motorunun veritabanına kaydederler.

Bir arama motoru robotu sitenizi ziyaret ettiğinde arayacağı ilk şey “robots.txt” dosyasıdır. Bu dosya sitenin ana dizininde olmalıdır. Dosya adının küçük harflerden oluşmasına dikkat edin. *nix (Unix, Linux) sistemler dosya adlarında büyük-küçük harf duyarlıdır.

Kod:
http://www.wmarsiv.com/robots.txt
Bu dosya arama robotuna hangi sayfaları gezmesi ya da gezmemesi gerektiğini söylemek için kullanılır. Bu sisteme “Robotları Uzak Tutma Standardı” denir. (The robots exclusion standard)

Robots.txt dosya formatı
robots.txt dosya formatı basit olmakla beraber özel bir formattır. “User-agent:” ve onu takip eden “Disallow:” satırlarından oluşur.

“User-agent:” satırı arama robot adına işaret eder. * kullanılarak tüm arama motor robotlarına referans verilebilir.

Örnek
Kod:
User-agent: *
Disallow: /cgi-bin/
Tüm arama motorlarını web sitenizin belli bir dizininden uzak tutmak için yukarıdaki kodlar yazılır.

Burada * tüm arama motorlarını ifade etmekte, /cgi-bin/ ise arama motor robotu tarafından gezilmesini istemediğiniz dizini belirtmektedir. Bu dizin altında başka dizinler varsa onlar da gezilmeyecektir.

Sadece belli bir arama motor robotunu engellemek için ise :

Örnek
Kod:
User-agent: googlebot
Disallow: /cgi-bin/
Burada ise sadece google arama robotunun cgi-bin dizinini ziyaret etmesi engellenmektedir.

Boşluk ve Yorumlar (Comment)
Dosya içine boşluk bırakılabilir ve yorum eklenebilir. Bazı robotlar aynı satırda hem komut hem de yorum olduğunda şaşırabileceğinden (robotlar çok akıllı olmadığından) yorumlar ayrı satırlara yazılmalıdır. Yani;

Kod:
User-agent: googlebot #Google Robot
yerine
Kod:
User-agent: googlebot
#Google Robot
kullanmak daha akıllıca olur

Yorum satırları# karakteri ile başlar. Robot bu karakteri gördüğü zaman satırın geri kalanını gözardı eder ve diğer satıra geçer.

Boşluk, dosya içinde kelimeler arasındaki boşlukları (klavyedeki uzun çubuğa basarak eklenir ve boş satırları ifade etmektedir. Komutların bulunduğu satırların başlangıç kısmında boşluk olmaması gerekir.

Yaygın Robot Adları
İşte internetteki en büyük arama motorlarına ait arama robotlarının (örümcek, sürüngen de denir ama biz robotu tercih ediyoruz) adları:

  • Googlebot – Google.com
  • Inktomi Slurp – HotBot.com
  • IA Archiver – Alexa
  • AskJeeves – AskJeeves.com


Kod:
User-agent: *
Disallow:
Burada robotlara tüm sayfaları ziyaret edebileceğini ifade edilmiştir.

Kod:
User-agent: *
Disallow: /
Burada robotlara hiçbirşeyi okumamalarını hiçbir sayfayı arama motoruna eklememelerini söylenmektedir.

Kod:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /downloads/
Disallow: admin.php
Burada tüm robotlara cgi-bin,images ve downloads dizinlerinden ve admin.php sayfasından uzak durmalarını söylenmektedir.

Robots.txt hakkında daha fazla bilgi
Robots.txt dosyaları hakkında daha fazla bilgi robotstxt.org sitesinde bulunabilir. Robots.txt kullanımı mecburi olmamakla beraber, kullanılmasının arama motorlarında üst sıralarda çıkmada etkin olduğu görüşü hakimdir.