Web Sitenizin Robots.txt Dosyası Oluştuması ve Kullanması — Sunucu Kaynak Tüketimi Optimize Edilmesi

Robots.txt dosyası, web sitenizin kök dizininde bulunan ve web tarayıcılarına ve arama motorlarına hangi sayfaların dizine eklenip eklenmeyeceğini belirten bir metin dosyasıdır. İşte robots.txt dosyası oluşturmak için temel adımlar:

1.Bir metin düzenleyici kullanarak bir metin dosyası oluşturun ve adını “robots.txt” olarak kaydedin.

2.Dosyanın içeriğini aşağıdaki gibi düzenleyin:

User-agent: *
Disallow: /gizli/
Allow: /izinli/

3.Buradaki “*” (yıldız), tüm arama motorlarına uygulanacak bir kuralı temsil eder. Disallow komutu, dizini engellemek istediğiniz dizini belirtirken, Allow komutu, engellenen dizin içinde izin vermek istediğiniz özel dizinleri belirtir. Bu örnekte, “/gizli/” dizini arama motorları tarafından indekslenmezken, “/izinli/” dizini indekslenir.

4.robots.txt dosyasını web sitenizin kök dizinine yükleyin. Yani, bu dosya, web sitenizin ana URL’sinin sonunda olmalıdır (örneğin, “www.ahmetorhan.com/robots.txt“).

5.Yapılan değişiklikleri doğrulamak için Google Search Console veya diğer arama motorlarının web yönetici araçlarına erişebilirsiniz.

Şimdi de aşağıdaki örnek üzerinden inceleme yapalım;

User-agent: Googlebot
Disallow:

User-agent: AdsBot-Google
Disallow:

User-agent: Googlebot-Image
Disallow:

User-agent: yandex
Disallow:

User-agent: uptimebot
Disallow:

User-agent: Amazonbot 
Disallow: /do-not-crawl

User-agent: PetalBot
Disallow: /

User-agent: Applebot
Disallow: /not-allowed/

User-agent: GPTBot
Disallow: /

Örnek robots.txt dosyası, farklı kullanıcı ajanlarına (web tarayıcı robotlarına) özgü olarak dizinleri engelleme veya izin verme kurallarını içerir. İşte bu örneği detaylı olarak inceleyelim:

`User-agent: Googlebot`

Bu kural Googlebot için geçerli. Google’ın web tarayıcı robotunu hedef alır.
Herhangi bir dizini engellemiyor, yani tüm sayfalar indekslenebilir.

2. `User-agent: AdsBot-Google`

Bu kural Google AdsBot için geçerli. Google’ın reklam hizmeti için kullanılan robotu hedef alır.
Herhangi bir dizini engellemiyor, yani tüm sayfalar indekslenebilir.

3. `User-agent: Googlebot-Image`

Bu kural Googlebot-Image için geçerli. Google’ın resim indeksleme robotunu hedef alır.
Herhangi bir dizini engellemiyor, yani tüm resimler indekslenebilir.

4. `User-agent: Yandex`

Bu kural Yandex için geçerli. Yandex arama motorunun robotunu hedef alır.
Herhangi bir dizini engellemiyor, yani tüm sayfalar indekslenebilir.

5. `User-agent: uptimebot`

Bu kural uptimebot için geçerli. Belirli bir hizmetin uptime kontrolünü yapan bir robotu hedef alır.
Herhangi bir dizini engellemiyor, yani tüm sayfalar indekslenebilir.

6. `User-agent: Amazonbot`

Bu kural Amazonbot için geçerli. Amazon’ın kendi robotunu hedef alır.
“/do-not-crawl” dizinini engeller, yani bu dizindeki sayfalar indekslenmez.

7. `User-agent: PetalBot`

Bu kural PetalBot için geçerli. Huawei’nin Petal Search adlı arama motorunun robotunu hedef alır.
Tüm dizinleri engeller, yani tüm sayfalar indekslenmez.

8. `User-agent: Applebot`

Bu kural Applebot için geçerli. Apple’ın arama motoru robotunu hedef alır.
“/not-allowed/” dizinini engeller, yani bu dizindeki sayfalar indekslenmez.

9. `User-agent: GPTBot`

Bu kural GPTBot için geçerli. GPTBot’u hedef alır.
Tüm dizinleri engeller, yani tüm sayfalar indekslenmez.

Sonuç olarak; “robots.txt” dosyasında yaptığınız düzenlemeler ile web sunucunuz ve bunlara bağlı olan diğer veri tabanı sunucularınızda gereksiz kaynak tüketiminin önüne geçebilir ve sizin için önemli olan botlara izin vererek en doğru sonuçlara ulaşabilirsiniz.

Herhangi bir sorunuz veya eklemek istediğiniz detaylar varsa bana yazmaktan çekinmeyin.

Bir yanıt yazın Yanıtı iptal et