Siapa yang Memberikan Tips Tentang Cara Mengatasi Bots, Spider, dan Crawler

[ad_1]

Apa bot ini?

Mereka adalah jenis perangkat lunak yang digunakan oleh mesin pencari untuk menghapus konten baru dari internet untuk keperluan pengindeksan.

Mereka melakukan tugas-tugas berikut:

Kunjungi halaman web yang Anda tautkan

Periksa kode HTML Anda untuk kesalahan

Mereka menyimpan halaman web apa yang Anda tautkan dan melihat halaman web apa yang terhubung dengan konten Anda

Mereka mengindeks konten Anda

Namun, beberapa bot jahat dan mencari situs Anda untuk alamat email dan formulir yang biasanya digunakan untuk mengirimi Anda pesan yang tidak diinginkan atau spam. Orang lain bahkan mencari celah keamanan dalam kode Anda.

Apa yang dibutuhkan untuk memblokir perayap web?

Sebelum menggunakan file .htaccess, Anda perlu memeriksa hal-hal berikut:

1. Situs Anda harus berjalan di server Apache. Saat ini, bahkan perusahaan web hosting setengah layak dalam pekerjaan mereka, memberi Anda akses ke file yang diperlukan.

2. Anda harus memiliki akses ke log server mentah dari situs web Anda sehingga Anda dapat menemukan bot apa yang telah mengunjungi halaman web Anda.

Perhatikan tidak ada cara Anda dapat memblokir semua bot berbahaya kecuali Anda memblokir semuanya, bahkan yang Anda anggap bermanfaat. Bot baru muncul setiap hari, dan yang lebih tua dimodifikasi. Cara yang paling efisien adalah mengamankan kode Anda dan menyulitkan bot untuk mengirim spam kepada Anda.

Mengidentifikasi bot

Bot dapat diidentifikasi dengan alamat IP atau dari "String Agen Pengguna," yang mereka kirim di header HTTP. Misalnya, Google menggunakan "Googlebot."

Anda mungkin memerlukan daftar ini dengan 302 bot jika Anda sudah memiliki nama bot yang ingin Anda singkirkan menggunakan .htaccess

Cara lain adalah dengan mengunduh semua file log dari server dan membukanya menggunakan editor teks. Lokasi mereka di server dapat berubah tergantung pada konfigurasi server Anda. Jika Anda tidak dapat menemukannya, mintalah bantuan dari host web Anda.

Jika Anda tahu halaman apa yang dikunjungi, atau waktu kunjungan, lebih mudah untuk datang dengan bot yang tidak diinginkan. Anda bisa mencari file log dengan parameter ini.

Sekali, Anda telah mencatat apa bot yang Anda butuhkan untuk memblokir; Anda kemudian dapat memasukkan mereka dalam file .htaccess. Harap dicatat bahwa memblokir bot tidak cukup untuk menghentikannya. Ini mungkin kembali dengan IP atau nama baru.

Bagaimana cara memblokir mereka

Unduh salinan file .htaccess. Buat cadangan jika diperlukan.

Metode 1: memblokir oleh IP

Potongan kode ini memblokir bot menggunakan alamat IP 197.0.0.1

Order Deny, Allow

Tolak dari 197.0.0.1

Baris pertama berarti bahwa server akan memblokir semua permintaan yang sesuai dengan pola yang telah Anda tetapkan dan mengizinkan semua yang lain.

Baris kedua memberi tahu server untuk mengeluarkan halaman 403: terlarang

Metode 2: Memblokir oleh agen Pengguna

Cara termudah adalah menggunakan mesin penulisan ulang Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. – [F, L]

Baris pertama memastikan bahwa modul penulisan ulang diaktifkan. Baris kedua adalah kondisi dimana aturan berlaku. The "F" di baris 4 memberitahu server untuk mengembalikan 403: Forbidden sementara "L" berarti ini adalah aturan terakhir.

Anda kemudian akan mengunggah file .htaccess ke server Anda dan menimpa yang sudah ada. Seiring waktu, Anda perlu memperbarui IP bot. Jika Anda membuat kesalahan, cukup unggah cadangan yang Anda buat.

[ad_2]