Google Robot Exclusion Protocol (REP), juga dikenal sebagai robots.txt , adalah standar yang digunakan oleh banyak situs untuk memberitahu crawler otomatis bagian mana dari situs dijelajahi atau tidak.

Namun, itu bukan standar yang diadopsi secara resmi, yang mengarah pada interpretasi yang berbeda. Dalam upaya menjadikan REP sebagai standar web resmi, Google memiliki parser robots.txt bersumber terbuka dan library C++ terkait yang pertama kali dibuat 20 tahun yang lalu. Anda bisa menemukan tool di GitHub .

REP disusun kembali pada tahun 1994 oleh seorang insinyur perangkat lunak Belanda Martijn Koster, dan hari ini adalah standar de facto yang digunakan oleh situs web untuk menginstruksikan crawler.

Crawler Googlebot menjelajahi file robots.txt untuk menemukan instruksi apa pun yang harus diabaikan oleh bagian situs web tersebut. Jika tidak ada file robots.txt , bot menganggap tidak apa-apa untuk menjelajahi seluruh situs web.

Namun, protokol ini telah ditafsirkan “agak berbeda selama bertahun-tahun” oleh pengembang, yang mengarah pada ambiguitas dan kesulitan dalam “menulis aturan dengan benar.”

Misalnya, ada ketidakpastian dalam kasus di mana “editor teks menyertakan karakter BOM dalam file robots.txt mereka .” Sedangkan untuk perayap dan pengembang tool, selalu ada ketidakpastian tentang “bagaimana mereka harus berurusan dengan file robots.txt yang berukuran ratusan megabita besar? “

Inilah mengapa Google ingin REP secara resmi diadopsi sebagai standar internet dengan aturan tetap untuk semua. Perusahaan mengatakan telah mendokumentasikan dengan tepat bagaimana REP harus digunakan dan mengajukan proposal ke Internet Engineering Task Force (IETF).

Meskipun kami tidak dapat mengatakan dengan pasti bahwa REP akan menjadi standar resmi; itu pasti akan membantu pengunjung web serta pemilik situs web dengan menunjukkan hasil pencarian yang lebih konsisten dan menghormati keinginan situs.