Cara menjauhkan robot dari situs web Anda
Daging merupakan makanan yang di sukai banyak orang, Daging dapat kita variasikan menajadi steak ataupun makanan lainnya sesuai selera dan keinginan. Memilih daging yang memiliki kualitas yang baik dan segar dan lembut saat di makan itu yang paling utama, untuk mendapatkan daging terbaik silahkan kunjungi Daging Slice Surabaya anda dapat menemukan daging segar dan harga terjangkau.
Anda tahu bahwa mesin pencari telah dibuat untuk membantu orang menemukan informasi dengan cepat di Internet, dan mesin pencari memperoleh banyak informasi mereka melalui robot (juga dikenal sebagai spider atau crawler), yang mencari halaman web untuk mereka.
Robot laba-laba atau perayap menjelajahi web mencari dan merekam semua jenis informasi. Mereka biasanya mulai dengan URL yang dikirimkan oleh pengguna, atau dari tautan yang mereka temukan di situs web, file sitemap atau tingkat atas situs.
Setelah robot mengakses halaman beranda kemudian secara rekursif mengakses semua halaman yang terhubung dari halaman itu. Tetapi robot juga dapat memeriksa semua halaman yang dapat ditemukan di server tertentu.
Setelah robot menemukan halaman web itu berfungsi mengindeks judul, kata kunci, teks, dll. Tapi kadang-kadang Anda mungkin ingin mencegah mesin pencari mengindeks beberapa halaman web Anda seperti posting berita, dan halaman web yang ditandai secara khusus (misalnya: halaman afiliasi), tetapi apakah robot individu mematuhi konvensi ini adalah murni sukarela.
PROTOKOL PENGECUALIAN ROBOT
Jadi, jika Anda ingin robot keluar dari beberapa halaman web Anda, Anda dapat meminta robot untuk mengabaikan halaman web yang tidak ingin Anda indeks, dan untuk itu Anda dapat menempatkan file robots.txt di server root lokal situs Anda.
Misalnya, jika Anda memiliki direktori yang disebut e-book dan Anda ingin meminta robot untuk menghindarinya, file robots.txt Anda harus membaca:
User-agent: * Disallow: e-books /
Ketika Anda tidak memiliki kendali yang cukup atas server Anda untuk mengatur file robots.txt, Anda dapat mencoba menambahkan tag META ke bagian kepala dokumen HTML apa pun.
Misalnya, tag seperti yang berikut ini memberi tahu robot untuk tidak mengindeks dan tidak mengikuti tautan pada halaman tertentu:
meta name = "ROBOTS" content = "NOINDEX, NOFOLLOW"
Dukungan untuk tag META di antara robot tidak begitu sering seperti Protokol Pengecualian Robot, tetapi sebagian besar indeks web utama saat ini mendukungnya.
POS BERITA
JaAnda ingin menjaga mesin pencari dari posting berita Anda, Anda dapat membuat baris "X-no-arsip" di header posting Anda:
X-no-arsip: ya
Tetapi meskipun klien berita umum, memungkinkan Anda untuk menambahkan garis X-no-arsip ke header posting berita Anda, beberapa dari mereka tidak mengizinkan Anda untuk melakukannya.
Masalahnya adalah sebagian besar mesin pencari menganggap bahwa semua informasi yang mereka temukan bersifat publik kecuali ditandai sebaliknya.
Jadi berhati-hatilah karena meskipun standar pengecualian robot dan arsip dapat membantu menjaga materi Anda dari mesin pencari utama, ada beberapa yang tidak menghormati aturan tersebut.
Jika Anda sangat prihatin tentang privasi e-mail dan postingan Usenet Anda, Anda harus menggunakan beberapa pengirim email dan PGP anonim. Anda dapat membacanya di sini: