$1.99 Domains* at GoDaddy.com

Arama motorları kayıt – Robots.txt dosyası

google2Arama motorları bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasını ararlar. Burada kısaca robot.txt dosyası nasıl oluşturulur, ne işe yarar, onu öğreneceğiz.
Arama motorları bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasını ararlar. Bu dosya robotlara hangi sayfaların indexlenip hangilerinin indexlenmeyeceği konusunda yol gösterir. Robots.txt dosyasını herhangi bir metin editörü ile oluşturabilirsiniz. Boş bir robots.txt dosyasını oluşturduğunuzu varsayarak devam edelim.

Robots.txt dosyasının içerisinde “User-agent” , “Disallow” ve “Allow” yönergeleri kullanılır. 
“User-agent” arama motorunu, “Disallow” engellenecek dosya yada klasörleri “Allow”ise izin verilen dosya ya da klasörleri gösterir.

ÖrneÄŸin arama motorlarının “resimler” klasörümüzü indexlenmesini istemiyorsak;

User-Agent: *
Disallow: /resimler/

ibarelerini kullanıyoruz. Burada “User-Agent: *” (yıldız) tüm arama motorlarını “Disallow: /resimler/” ise indexlenmeyecek klasörü belirtmektedir. Yani bu durumda sitemizi ziyaret eden bir arama motoru bu kodları gördüğünde sitemizi indexlemeye devam edecek fakat /resimler kalasörümüzü indexlemeyecektir. 

Ya da “site” isimli klasörümüzün arama motorları tarafından özellikle indexlenmesini istiyoruz; 

User-Agent: *
Allow: /site/

ibarelerini kullanıyoruz. Sitemizi ziyaret eden arama motorları buradaki yolu takip ederek “site” klasörümüzü indexleyecektir. Yani arama motoruna bu klasörü ziyaret edebilirsin, benim açımdan bir sakıncası yok diyoruz. O da bizi anlıyor:)

Buraya kadar arama motorlarının sitemizdeki bazı klasörleri aramasını ya da aramamasını nasıl sağlayacağımızı öğrendik. Bu işlemi sadece klasörler değil dosyalar için de kullanabiliriz. 

Örnek olarak ana dizinimizdeki “bilgilerim.html” dosyasının aranmasını ve indexlenmesini istemiyoruz. Yapmamız gereken robots.txt dosyasına;

User-Agent: *
Disallow: /bilgilerim.html

yönergelerini girmektir. Bu yönergeyi gören arama motoru “bilgilerim.html” dosyamızın yanından geçecek, içerisinde ne olduÄŸuna bakmayacaktır. Bu iÅŸlemi sadece kök dizinde deÄŸil alt klasördeki dosyalarda da uygulayabiliriz. Örnek: 

User-Agent: *
Disallow: /belgeler/kerim.html

Yukarıda klasör yada dosyaların indexlenmesi ya da indexlenmemesi ile ilgili işlemlerden bahsettik. Robots.txt dosyasının işlevi bunlarla bitmiyor elbette. Robots.txt dosyasına ekleyeceğimiz bazı yönergelerle, sitemizi bazı arama motorlarının indexlemesine izin verebilir, bazılarının ise indexlemesini engelleyebiliriz. Ya da tüm arama motorlarının sitemizi indexlemesini sağlayabiliriz. Bunu nasıl yaparız?
Sitemizin tüm arama motorları tarafından indexlemesini istiyorsak;

User-Agent: *
Disallow: 

ibarelerini robots.txt dosyasına yazıyoruz. Burada “*” iÅŸareti kullanıp “Disallow:” ibaresinin karşısını boÅŸ bıraktık. Bu yönergeyi gören arama motorları sitemizi indexlemeye devam edecektir.

Sitemizin hiçbir arama motoru tarafından indexlenmesini istemiyorsak;

User-Agent: *
Disallow: /

ÅŸeklinde yönerge uyguluyoruz. Burada yine “*” iÅŸareti tüm arama motorlarını ifade etmektedir. “Disallow: /” ise tüm klasörlerin indexlenmesinin engellendiÄŸini yani izin verilmediÄŸini gösterir.

EÄŸer herhangi bir arama motorunun sitemizi indexlemesini istemiyorsak;

User-Agent: Scooter
Disallow: /

ibaresini kullanırız. Burada “Scooter” altavista arama motorunun ismidir. Bu ÅŸekilde her arama motorunun kendi ismi bulunmakta ve bunlardan istediklerinizi buraya yazabilir, sitenizi indexlemelerini engelleyebilirsiniz. Tüm arama motorlarının listesine bu adresten ulaÅŸabilirsiniz.

http://www.robotstxt.org/db.html 
EÄŸer sadece Google’in “resimler” klasörünüzü indexlemesini istemiyorsanız;

User-Agent: Googlebot-Image
Disallow: /resim/

kodlarını kullanıyoruz. Bunu gören google arama motoru bizim “resimler” klasöründeki bilgileri indexlemeyecektir.

Robotlar sadece kök dizindeki robots.txt dosyasını inceler, dolayısı ile alt dizinlere bu dosyayı yerleştirmenin bir anlamı yoktur.

EÄŸer altdomain (subdomain) kullanıyorsanız robots.txt dosyasını altdomain klasörüne yerleÅŸtirebilirsiniz. Örnek olarak alt domian: “http://forum.sanalkurs.net” şeklinde ise, robots.txt dosyamızı kökdizinimizde bulunan “forum” klasörünün içine yerleÅŸtiririz.

İndexlenmesini istemediğimiz sayfaları ve dizinleri teker teker belirtmek zorundayız. Fakat indexlenmesini istemediğimiz bir klasörün içindeki dosyaları ayrıca belirtmenize gerek yoktur.

# www.orneksite.com için “robots.txt” dosyası:
User-agent: *
Disallow: /cgi-bin/
Disallow: /resimler/yoneticiler/
Disallow: /ozelbilgi.html

Not: burada hangi klasör ve dosyaların indexlenmeyeceğini belirttiğimiz için arama motoru sitemizin geri kalan kısmını zaten indexlemeye çlışacaktır. Dolayısı ile burada Allow ibaresini kullanmamıza gerek yoktur.
Ayrıca 
“User-agent: *bot*”, 
“Disallow: /tmp/*” 
“Disallow: *.gif” gibi ibareleri de kullanmak faydasızdır. Arama motorları bunları okumayacaktır.

Yukarıdaki örnekler ışığında kendi sitenize göre bir Robots.txt dosyası oluşturun ve sitenizin ana dizinine atın. Burada hangi kalasörlerin ya da dosyaların aranmasını hangilerinin aranmamasını istediğinizi belirtin ve arama motorlarının işini kolaylaştırın.

Bir sitenin robots.txt dosyasını analiz etmek için: 
* Google web yöneticisi araçlarında Google Hesabınızla oturum açın. 
*Kontrol Paneli’nde, istediÄŸiniz sitenin URL’sini tıklayın. (bu siteyi önceden eklemiÅŸ olmanız gerekmektedir.)
*Araçlar ve ardından [b] robots.txt dosyasını analiz et öğesini tıklayın. Sonuçlara gore değişiklikler yaparak robots.txt dosyanızı arama motorlarına uygun hale getirin.

Faydalı olması dileÄŸiyle…

Kategoriler: Google, Web Programlama

Tags: ,

Yorumlar

Yorum Yok

Yorumunuzu Ekleyin

Yorum eklemek için giris yapmalısınız.