Ưu và nhược điểm của robot.txt và thẻ meta robots trong việc tối ưu website
Robots.txt
- Sử dụng file robots.txt để điều khiển truy cập vào các files và các thư mục trong website của bạn. File này hoạt động giống như một biển báo giao thông. Nó báo với googlebot và các con bọ tìm kiếm khác những file và thư mục trên website của bạn mà không được dò quét
- Để sử dụng file robots.txt, bạn phải có quyền truy cập vào thư mục gốc của website. Nếu bạn không truy cập vào thư mục gốc, bạn cũng có thể điều khiển truy cập của bọ tìm kiếm bằng cách sử dụng thẻ meta robots trên từng trang riêng lẻ
- Tuy nhiên, khi bạn sử dụng file robots.txt để chặn bọ tìm kiếm truy cập vào nội dung của bạn.Google vẫn có thể khám phá ra nội dung của bạn và đưa nó vào bảng kết quả tìm kiếm nhờ những cách khác.
- Bọ tìm kiếm của các công cụ tìm kiếm lớn đều tôn trọng chỉ dẫn trong file robots.txt, một vài bọ tìm kiếm khác thì không. Ví file robots.txt chỉ là bảng chỉ dẫn, nên những người có mục đích xấu hoàn toàn có thể bỏ qua chúng và vẫn dò quét nội dung website như thường. Ví lý do này, theo chúng tôi cách an toàn nhất là đặt password bảo vệ
- Bạn nên sử dụng file này khi muốn ngăn bọ tìm kiếm dò quét một trang web hoặc toàn bộ website. Nhưng bạn không thể sử dụng phương pháp này để gỡ bỏ trang web khỏi cơ sở dữ liệu của máy tìm kiếm khi nó đã được lưu vào từ trước , file robots.txt có thể ngăn chặn truy cập đến cả một thư mục hoặc đến một trang web cụ thể .
- Ban có thể sử dụng để ngăn chặn bọ tìm kiếm truy cập vào các file không thuộc định dạng HTML như hình ảnh, file PDFs, file Microsoft Office…
Meta robots
- Chèn thuộc tính “noindex” vào thẻ meta robots để ngăn chặn nội dung xuất hiện trên bảng kết quả tìm kiếm
- Khi bọ tìm kiếm nhìn thấy thuộc tính”noindex” trên một trang web, google bỏ qua trang web đó không đưa nó lên bảng kết quả tìm kiếm,kể cả khi có các trang web khác trỏ link tới nó. Còn nếu nội dung đã toàn tại trong cơ sở dữ liệu của google, họ sẽ gỡ bỏ hoàn toàn những nội dung này. Chú ý , với các máy tìm kiếm khác không phải là google , tác dụng của thẻ meta này sẽ có khác biệt
- Lưu ý, vì google phải dò quét trang web của bạn thì mới biết được trong đó có thẻ meta robots không và nội dung của nó cụ thể như thế nào, có thể xảy ra trường hợp là bạn đã cài đặt thuộc tính noindex trong thẻ meta robots nhưng trang web của bạn kể từ khi bạn cập nhật nội dung thẻ meta robots