วันศุกร์ที่ 13 กรกฎาคม พ.ศ. 2555

เขียนไฟล์ robots.txt เรียก Googlebot และ Bot อื่น

robots.txt คืออะไร ?

robots.txt

ไฟล์เอกสารชนิดหนึ่งมีนามสกุล (.txt) ภายในระบุคำสั่งเพื่อควบคุมการทำงาน ในการเข้ามาเก็บข้อมูลหน้าเว็บเพจของบรรดา robots ของ Search Engine ทั่วโลก โดยเราสามารถกำหนดให้อนุญาต หรือไม่ให้อนุญาต เข้ามาเก็บข้อมูลในโฟล์เดอร์หรือไฟล์ ไหนบ้าง ซึ่งในการทำเว็บไซต์นั้นการเขียนไฟล์ robots.txt มีความสำคัญอย่างมากในเรื่องของความปลอดภัยและการทำ SEO(Search Engine Optimization) คือบางครั้งเราไม่ต้องการให้บรรดา search ต่างๆ เข้ามาเก็บค่าต่าง ๆ ในโฟล์เดอร์ที่เราต้องการให้เป็นความลับ หรือการค้นหาข้อมูลของเว็บไซต์เราบางหน้า ก็สามารถจำกัดการเข้ามาเก็บค่าดัชนีเว็บไซต์เราได้

ตัวอย่าง robots.txt

  1. ถ้าไม่ต้องการให้ robots ทุกชนิดเข้ามาข้อมูลภายในเว็บไซต์ของเราทั้งหมด โดยไม่ปรากฎการค้นหาใน Search ดังนี้
    # robots.txt for http://www.example.com/
    User-agent: *
    Disallow: /
  2. ถ้าอนุญาติให้ robots บางชนิดเข้ามาเก็บข้อมูลในเว็บไซต์เราโดยใช้คำสั่งดังตัวอย่างต่อไปนี้
    User-agent: Googlebot
    User-agent: msnbot
    Disallow: /
  3. ถ้าไม่ต้องการให้ robots เข้ามาเก็บข้อมูลบางไฟล์ หรือ บางโฟล์เดอร์ ซึ่งบางครั้งใช้สำหรับป้องกัน File Admin
    User-agent:*
    Disallow: /admin
    Disallow: /cgi-bin
    Disallow: /profile
    Allow: /images
    Allow: /index.html
  4. ถ้าต้องการให้ robots ทุกชนิดเข้ามาเก็บข้อมูลในทุกไฟล์หรือทุกโฟล์เดอร์
    User-agent:*
    Allow: /

0 ความคิดเห็น:

แสดงความคิดเห็น