Menggunakan berkas robots.txt untuk mengendalikan akses ke situs AndaCetak

Sunday, March 29, 2009 | 6:22 PM|

Cara termudah membuat file robots.txt adalah dengan menggunakan alat bantu Generate robots.txt di Alat Webmaster. Setelah Anda membuat file, Anda dapat menggunakan alat bantu Analyze robots.txt untuk memastikan bahwa file tersebut bekerja sebagaimana mestinya.
Setelah Anda membuat file robots.txt Anda, simpan ke root domain Anda dengan nama robots.txt. Di file ini robot akan memeriksa file Anda. Jika disimpan di tempat lain, robot tidak akan menemukannya.

Anda juga dapat membuat file robots.txt secara manual, dengan menggunakan editor teks. File itu harus berupa teks yang dikodekan dengan ASCII, bukan file HTML. Nama file tidak boleh kapital.

Sintaks
File robots.txt paling sederhana menggunakan dua aturan:

User-agent (Agen-pengguna): robot aturan berikut berlaku untuk
Disallow (Larang): URL yang ingin Anda blokir
Dua baris ini dianggap entri tunggal dalam file tersebut. Anda dapat mencantumkan entri sebanyak yang Anda inginkan. Anda dapat mencantumkan beberapa baris Larang dan beberapa agen-pengguna dalam satu entri.

Apa yang harus didaftar dalam baris Agen-pengguna?
Agen-pengguna adalah robot mesin pencarian khusus. Database Robot Web mendaftar banyak bot umum. Anda dapat mengatur entri agar berlaku untuk bot khusus (dengan mendaftarkan namanya) atau Anda dapat mengaturnya agar berlaku untuk semua bot (dengan mendaftar asterisk). Entri yang berlaku untuk semua bot nampak seperti:

User-agent: *
Google menggunakan beberapa bot yang berbeda (agen-pengguna). Bot yang digunakan untuk pencarian kami adalah Googlebot. Bot lain seperti Googlebot-Mobile dan Googlebot-Gambar mengikuti aturan yang Anda buat untuk Googlebot, tetapi Anda juga dapat membuat aturan khusus untuk bot khusus ini.

Apa yang harus didaftar dalam baris Disallow?
Baris Disallow berisi laman yang ingin Anda blokir. Anda dapat mendaftar URL khusus atau pola. Entri harus diawali dengan garis miring ke depan (/).

Untuk memblokir seluruh situs, gunakan garis miring ke depan.
Disallow: /
Untuk memblokir direktori dan segala yang ada di dalamnya, ikuti nama direktori dengan garis miring ke depan.
Disallow: /junk-directory/
Untuk memblokir laman, daftar laman itu.
Disallow: /private_file.html
Untuk menghapus gambar khusus dari pencarian gambar Google, tambahkan berikut ini:
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Untuk menghapus semua gambar dalam situs Anda dari pencarian gambar Google:
User-agent: Googlebot-Image
Disallow: /
Untuk memblokir file dari jenis file khusus (misalnya, .gif), gunakan berikut ini:
User-agent: Googlebot
Disallow: /*.gif$
Agar laman situs Anda tidak ditelusuri, saat masih menampilkan iklan AdSense di laman itu, larang semua bot kecuali Mediapartners-Google. Ini mencegah laman Anda muncul dalam hasil pencarian, tetapi memperbolehkan robot Mediaparters-Google menganalisis laman untuk menentukan iklan apa yang akan ditampilkan. Robot Mediapartners-Google tidak berbagi laman dengan agen-pengguna Google lainnya. Misalnya:
User-agent: *
Disallow: /folder1/

User-agent: Mediapartners-Google
Allow: /folder1/
Ingat bahwa petunjuk peka huruf besar dan kecil. Sebagai contoh, Disallow: /junk_file.asp akan menghalangi http://www.example.com/junk_file.asp, tetapi akan membiarkan http://www.example.com/Junk_file.asp.

Pencocokan pola
Googlebot (tetapi tidak semua mesin pencarian) menilai beberapa pencocokan pola.

Untuk mencocokkan urutan karakter, gunakan asterisk (*). Misalnya, untuk memblokir akses ke subdirektori yang diawali dengan private:
User-agent: Googlebot
Disallow: /private*/
Untuk memblokir akses ke semua URL yang memuat tanda tanya (?) (lebih khusus lagi, URL yang diawali dengan nama domain Anda, diikuti beberapa string, diikuti tanda tanya, diikuti beberapa string):
User-agent: Googlebot
Disallow: /*?
Untuk menentukan pencocokan akhir URL, gunakan $. Misalnya, untuk memblokir URL diakhiri .xls:
User-agent: Googlebot
Disallow: /*.xls$
Anda dapat menggunakan pola pencocokan ini bersamaan dengan direktif Izinkan. Misalnya, jika ? menandakan ID sesi, mungkin Anda ingin mengeluarkan semua URL yang memuat ID sesi untuk memastikan Googlebot tidak menelusuri laman duplikat. Tetapi URL yang diakhiri dengan ? bisa jadi versi laman yang ingin Anda cantumkan. Untuk situasi ini, Anda dapat mengatur file robots.txt Anda sebagai berikut:

User-agent: *
Allow: /*?$
Disallow: /*?
Perintah Disallow: / *? akan memblokir URL yang memuat ? (lebih khusus lagi, direktif akan memblokir URL yang diawali dengan nama domain anda, diikuti beberapa string, diikuti tanda tanya, diikuti beberapa string).

Perintah Allow: /*?$ akan mengizinkan URL yang diakhiri ? (lebih khusus lagi, ini akan mengizinkan URL yang dimulai dengan nama domain Anda, diikuti string, diikuti ?, tanpa karakter setelah ?).