Arama motorları na kayıt - Robots.txt dosyası

Arama motorları bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasını ararlar. Burada kısaca robot.txt dosyası nasıl oluşturulur, ne işe yarar, onu öğreneceğiz.

Arama motorları bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasını ararlar. Burada kısaca robot.txt dosyası nasıl oluşturulur, ne işe yarar, onu öğreneceğiz.

Arama motorları bir web sitesine ulaştıklarında ilk olarak kök dizinde bulunan robots.txt dosyasını ararlar. Bu dosya robotlara hangi sayfaların indexlenip hangilerinin indexlenmeyeceği konusunda yol gösterir. Robots.txt dosyasını herhangi bir metin editörü ile oluşturabilirsiniz. Boş bir robots.txt dosyasını oluşturduğunuzu varsayarak devam edelim.

Robots.txt dosyasının içerisinde "User-agent" , "Disallow" ve "Allow" yönergeleri kullanılır.
"User-agent" arama motorunu, "Disallow" engellenecek dosya yada klasörleri "Allow" ise izin verilen dosya ya da klasörleri gösterir.

Örneğin arama motorlarının "resimler" klasörümüzü indexlenmesini istemiyorsak;

User-Agent: *
Disallow: /resimler/

ibarelerini kullanıyoruz. Burada "User-Agent: *" (yıldız) tüm arama motorlarını "Disallow: /resimler/" ise indexlenmeyecek klasörü belirtmektedir. Yani bu durumda sitemizi ziyaret eden bir arama motoru bu kodları gördüğünde sitemizi indexlemeye devam edecek fakat /resimler kalasörümüzü indexlemeyecektir.

Ya da "site" isimli klasörümüzün arama motorları tarafından özellikle indexlenmesini istiyoruz;

User-Agent: *
Allow: /site/


ibarelerini kullanıyoruz. Sitemizi ziyaret eden arama motorları buradaki yolu takip ederek "site" klasörümüzü indexleyecektir. Yani arama motoruna bu klasörü ziyaret edebilirsin, benim açımdan bir sakıncası yok diyoruz. O da bizi anlıyor:)

Buraya kadar arama motorlarının sitemizdeki bazı klasörleri aramasını ya da aramamasını nasıl sağlayacağımızı öğrendik. Bu işlemi sadece klasörler değil dosyalar için de kullanabiliriz.

Örnek olarak ana dizinimizdeki "bilgilerim.html" dosyasının aranmasını ve indexlenmesini istemiyoruz. Yapmamız gereken robots.txt dosyasına;

User-Agent: *
Disallow: /bilgilerim.html

yönergelerini girmektir. Bu yönergeyi gören arama motoru "bilgilerim.html" dosyamızın yanından geçecek, içerisinde ne olduğuna bakmayacaktır. Bu işlemi sadece kök dizinde değil alt klasördeki dosyalarda da uygulayabiliriz. Örnek:

User-Agent: *
Disallow: /belgeler/kerim.html


Yukarıda klasör yada dosyaların indexlenmesi ya da indexlenmemesi ile ilgili işlemlerden bahsettik. Robots.txt dosyasının işlevi bunlarla bitmiyor elbette. Robots.txt dosyasına ekleyeceğimiz bazı yönergelerle, sitemizi bazı arama motorlarının indexlemesine izin verebilir, bazılarının ise indexlemesini engelleyebiliriz. Ya da tüm arama motorlarının sitemizi indexlemesini sağlayabiliriz. Bunu nasıl yaparız?
Sitemizin tüm arama motorları tarafından indexlemesini istiyorsak;

User-Agent: *
Disallow:


ibarelerini robots.txt dosyasına yazıyoruz. Burada "*" işareti kullanıp "Disallow:" ibaresinin karşısını boş bıraktık. Bu yönergeyi gören arama motorları sitemizi indexlemeye devam edecektir.

Sitemizin hiçbir arama motoru tarafından indexlenmesini istemiyorsak;

User-Agent: *
Disallow: /


şeklinde yönerge uyguluyoruz. Burada yine "*" işareti tüm arama motorlarını ifade etmektedir. "Disallow: /" ise tüm klasörlerin indexlenmesinin engellendiğini yani izin verilmediğini gösterir.

Eğer herhangi bir arama motorunun sitemizi indexlemesini istemiyorsak;

User-Agent: Scooter
Disallow: /


ibaresini kullanırız. Burada "Scooter" altavista arama motorunun ismidir. Bu şekilde her arama motorunun kendi ismi bulunmakta ve bunlardan istediklerinizi buraya yazabilir, sitenizi indexlemelerini engelleyebilirsiniz. Tüm arama motorlarının listesine bu adresten ulaşabilirsiniz.

http://www.robotstxt.org/db.html
Eğer sadece Google'in "resimler" klasörünüzü indexlemesini istemiyorsanız;

User-Agent: Googlebot-Image
Disallow: /resim/


kodlarını kullanıyoruz. Bunu gören google arama motoru bizim "resimler" klasöründeki bilgileri indexlemeyecektir.


Robotlar sadece kök dizindeki robots.txt dosyasını inceler, dolayısı ile alt dizinlere bu dosyayı yerleştirmenin bir anlamı yoktur.

Eğer altdomain (subdomain) kullanıyorsanız robots.txt dosyasını altdomain klasörüne yerleştirebilirsiniz. Örnek olarak alt domian: "http://forum.sanalkurs.net" şeklinde ise, robots.txt dosyamızı kökdizinimizde bulunan "forum" klasörünün içine yerleştiririz.

İndexlenmesini istemediğimiz sayfaları ve dizinleri teker teker belirtmek zorundayız. Fakat indexlenmesini istemediğimiz bir klasörün içindeki dosyaları ayrıca belirtmenize gerek yoktur.

# www.orneksite.com için "robots.txt" dosyası:
User-agent: *
Disallow: /cgi-bin/
Disallow: /resimler/yoneticiler/
Disallow: /ozelbilgi.html


Not: burada hangi klasör ve dosyaların indexlenmeyeceğini belirttiğimiz için arama motoru sitemizin geri kalan kısmını zaten indexlemeye çlışacaktır. Dolayısı ile burada Allow ibaresini kullanmamıza gerek yoktur.
Ayrıca
"User-agent: *bot*",
"Disallow: /tmp/*"
"Disallow: *.gif" gibi ibareleri de kullanmak faydasızdır. Arama motorları bunları okumayacaktır.

Yukarıdaki örnekler ışığında kendi sitenize göre bir Robots.txt dosyası oluşturun ve sitenizin ana dizinine atın. Burada hangi kalasörlerin ya da dosyaların aranmasını hangilerinin aranmamasını istediğinizi belirtin ve arama motorlarının işini kolaylaştırın.

Bir sitenin robots.txt dosyasını analiz etmek için:
* Google web yöneticisi araçlarında Google Hesabınızla oturum açın.
*Kontrol Paneli'nde, istediğiniz sitenin URL'sini tıklayın. (bu siteyi önceden eklemiş olmanız gerekmektedir.)
*Araçlar ve ardından robots.txt dosyasını analiz et öğesini tıklayın. Sonuçlara gore değişiklikler yaparak robots.txt dosyanızı arama motorlarına uygun hale getirin.

Faydalı olması dileğiyle...

  • Etiketler;
Kerim Sarıgül
1979'da Bulancak'ta (Giresun) dünyaya geldim. Eğitim Hayatım İlköğrenimini Küçükdere Köyünde, orta öğrenimini Bulancak'ta, lise öğrenimini ise Amasya İmam Hatip Lisesinde tamamladım. 2000 yılında Kırgızistan Türkiye Manas Üniversitesi Türkoloji Bölümünü kazandım ve 2005 yılında bölüm üçüncüsü olarak mezun oldum. Mezuniyet sonrası Yüksek Lisansa başladım ve bu eğitimimi de 2008 yılında başarıyla tamamladım. Şu an Bişkek Sosyal Bilimler Üniversitesi Türkoloji Bölümünde "Bilgisayarlı Dilbilim" alanında doktora eğitimime devam etmekteyim. İş Hayatım 2005-2013 yılları arasında (8 yıl) Kırgızistan Türkiye Manas Üniversitesi Yabancı Dilller Yüksek Okulunda Türkçe Okutmanı olarak, 2013-2015 yılları arasında Yunus Emre Enstitüsü Sınav Merkezinde Müdür Yardımcısı olarak görev yaptım. Şu an Yunus Emre Enstitüsü Türkçe Öğretim Merkezi Müdürü olarak görevime devam etmekteyim. *** Bilgisayarla tanışmam lise yıllarına dayanır. Bu tanışma sonucu oluşan arkadaşlığı hiç bitirmedim. Bilgisayar programları, programa dilleri ve içerik yönetim sistemleri konusunda araştırma ve çalışmalarım bulunmaktadır. Flash, Corel, PhotoShop, 3ds Max vb. programlar; asp, asp.net, C# programlama dilleri ve Açık Kaynak Kodlu Yazılımlar ile haşır neşir durumdayım. Ayrıca bir çok sitede Flash, Corel, Photoshop, Joomla, eğitimde ve dil öğretiminde teknoloji kullanımı konularında derslerim ve makalelerim yayınlanmaktadır. İyi derecede Rusça ve Kırgızca biliyorum. İngilizce ve Arapça öğrenmeye devam ediyorum. Evliyim ve 3 çocuk babasıyım.
Yorum Yaz

Yorum yazabilmek için üye girişi yapmanız gerekiyor!

Ellerinize sağlık bu gerçekden de faydalı bir yazı olmuş.
dsotum gerçekten çok faydalı bi çalışma olmuş ellerine emeğine sağlık ama bunlarda konuyla alakalı da ben ne işe yaradğını bilmyorum tam olarak bunları da açıklayabilrmisin? <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW"> <META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> yada şu sayfadaki yazıya tr ye çevirip buraya yazabilrmisin? çok sevinirim eğer böle bişi yaparsan benim kafam karıştı ben sitemi hazırlıyorum da tamda bu aşamada çok faydalı olur.
Tüm arama motorlarının sayfalarınızı listelememesi için : <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Sayfalarınızın sadece Google tarafından listelenmemesi için: <META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"> Sayfalarınızda bulunan bağlantıları arama motorlarının takip etmemesi için: <META NAME="ROBOTS" CONTENT="NOFOLLOW"> Arama motorlarının resim dosyalarınızı indexlememesi için: <META NAME="ROBOTS" CONTENT="NOIMAGEINDEX">
hocam ellerinize sağlık.çok faydalı bir çalışma olmuş.
Elinize sağlık kerim abi :kirp:
Saol kardeşim Sanal Kursa minnettarım...
Yazdıgım yorumlar neden görünmüyor ?
peki hocam burada hep listelememesi ,indexlememesi var bunun tam tersi için ne yapmalıyız... Teşekkürler
site haritası oluşturup, google webmaster araçları aracılığı ile google'a tanıtacaksınız. Google da devamlı sizin o site haritanızı indirecek ve ekleyecek. 100 de 100 e yakın bir başarı elde edeceksiniz sayfaların indexlenmesi konusunda
evet. not defterien yapıştırın ve sitenizin olduğu ana dizine yerleştirin...
Tüm arama motorlarının sayfalarınızı listelememesi için : <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> Sayfalarınızın sadece Google tarafından listelenmemesi için: <META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"> Sayfalarınızda bulunan bağlantıları arama motorlarının takip etmemesi için: <META NAME="ROBOTS" CONTENT="NOFOLLOW"> Arama motorlarının resim dosyalarınızı indexlememesi için: <META NAME="ROBOTS" CONTENT="NOIMAGEINDEX"> kardeş bunlar küçük harflemi yazılcak:sasir:
farketmez. İngilizce olsun da büyük küçük farketmez...
FTP de tam olarak nereye atıcaz ? tema klasörün içine rasgele bir yere ? Teşekkürler.
TEma klasörü değil sitenizin dosyalarını nereye yükledi iseniz oraya. muhtemelen site dosyalarınız ya public_html içindedir ya da httpdocs. siteniz hangi klasörde nerede ise ilgili dosyayı da oraya yükleyeceksiniz.

Yukarı Git