Kiểm tra robots.txt
Kiểm tra xem tệp robots.txt của bạn có cú pháp hợp lệ không và liệu đường dẫn cụ thể có được phép đối với bot đã chọn không.
Công cụ Kiểm tra Robots.txt làm gì?
Bộ kiểm tra Robots.txt lấy tệp robots.txt từ tên miền của bạn và phân tích các quy tắc của nó. Công cụ phát hiện chuyển hướng và kiểm tra các quy tắc trên máy chủ lưu trữ đích. Nhờ vậy, bạn tránh được các lỗi khi tên miền được chuyển hướng về phiên bản ngôn ngữ khác.
Bạn có thể chọn một User agent phổ biến, ví dụ như Googlebot. Sau đó, công cụ kiểm tra xem địa chỉ URL được chỉ định là Được phép hay Bị chặn. Kết quả sẽ hiển thị quy tắc phù hợp và số dòng.
Công cụ cũng thực hiện kiểm tra cú pháp của tệp robots.txt. Nó hiển thị các vấn đề đã phát hiện và đánh dấu các dòng sai. Ngoài ra, toàn bộ nội dung tệp robots.txt sẽ được hiển thị trong trường văn bản.
Công cụ Kiểm tra Robots.txt hỗ trợ các chuyên gia SEO và chủ website như thế nào?
Chỉ một quy tắc sai có thể ngăn chặn crawl và lập chỉ mục các trang quan trọng của website. Điều này thường dẫn đến giảm hiển thị và mất lưu lượng truy cập tự nhiên. Nhờ kiểm tra một đường dẫn, bạn có thể nhanh chóng phát hiện rủi ro trước khi triển khai thay đổi.
Trong thực tế, bạn tiết kiệm thời gian khi kiểm tra. Thay vì phân tích quy tắc thủ công, bạn nhận được kết quả rõ ràng và quy tắc phù hợp. Việc xác minh sẽ diễn ra trong vài giây thay vì vài phút và giảm số lượng sai sót.
- Kiểm tra xem địa chỉ có được truy cập bởi bot tìm kiếm không.
- Xem quy tắc phù hợp và số dòng trong robots.txt.
- Đánh giá tính hợp lệ của cú pháp và chỉ ra vấn đề nhanh chóng.
- Đọc robots.txt an toàn sau khi chuyển hướng tới tên miền đích.
- Kiểm soát trạng thái HTTP của các địa chỉ sitemap được khai báo trong robots.txt.
Các tình huống sử dụng điển hình của công cụ Kiểm tra Robots.txt
- Kiểm tra xem các trang mới có bị chặn bởi Disallow không.
- Kiểm chứng quy tắc sau khi di chuyển tên miền hoặc triển khai CDN.
- Kiểm tra quyền truy cập của các bot khác nhau, bao gồm Googlebot và Bingbot.
- Chuẩn đoán sự cố crawl budget và loại trừ ngoài ý muốn của các trang con.
- Kiểm tra xem robots.txt có trả về HTML thay vì tệp văn bản không.
- Kiểm tra nhanh các directive Sitemap và trạng thái HTTP của chúng.
So sánh công cụ Kiểm tra Robots.txt với các công cụ khác
| Chức năng | DiagnoSEO | Các công cụ khác |
|---|---|---|
| Tự động lấy robots.txt từ tên miền | ✅ | ✅ |
| Kiểm tra quy tắc cho User agent đã chọn | ✅ | ✅ |
| Quyết định Được phép hay Bị chặn cho đường dẫn cụ thể | ✅ | ✅ |
| Hiển thị quy tắc phù hợp và số dòng | ✅ | ❌ |
| Đánh dấu lỗi cú pháp trong nội dung robots.txt | ✅ | ❌ |
| Xử lý chuyển hướng và lấy robots.txt từ tên miền cuối cùng | ✅ | ❌ |
| Kiểm tra trạng thái HTTP của các sitemap trong robots.txt | ✅ | ❌ |
| Hiển thị toàn bộ nội dung robots.txt trong trường văn bản | ✅ | ✅ |
Gợi ý và thực hành tốt
- Kiểm tra các URL của trang danh mục, bộ lọc và phân trang trước khi đăng tải thay đổi.
- Sử dụng quy tắc Allow chính xác khi bạn chặn mẫu Disallow rộng.
- Bảo đảm tính nhất quán giữa robots.txt và chiến lược lập chỉ mục trên website.
- Sau khi triển khai, kiểm tra trạng thái HTTP của tệp robots.txt và sitemap được khai báo.
- Tránh vô tình chặn các tài nguyên cần thiết để render trang.
Lỗi thường gặp
- Thiếu tệp robots.txt.
- Chặn các phần quan trọng do Disallow quá chung chung.
- Sai cú pháp directive và thiếu dấu hai chấm.
- Quy tắc đặt trước User agent gây khó khăn cho việc diễn giải nhóm.
- Vô tình chuyển hướng robots.txt sang HTML hoặc trang chủ.
- Mục Sitemap không cập nhật hoặc mã phản hồi máy chủ sai.
Cách sử dụng công cụ Kiểm tra Robots.txt
- Dán địa chỉ URL của trang bạn muốn kiểm tra.
- Chọn User agent từ danh sách, ví dụ Googlebot.
- Khởi chạy kiểm tra và xem kết quả Được phép hoặc Bị chặn.
- Xem quy tắc phù hợp và số dòng trong robots.txt.
- Kiểm tra thông báo kiểm tra cú pháp và lỗi được đánh dấu.
- Ở cuối, kiểm tra trạng thái HTTP của các địa chỉ sitemap XML từ robots.txt.
Nghiên cứu tình huống
Một cửa hàng trực tuyến nhận thấy số lượng trang trong chỉ mục giảm. Sau khi kiểm tra, hóa ra quy tắc Disallow đã chặn đường dẫn danh mục mới. Công cụ chỉ ra quy tắc phù hợp và số dòng trong robots.txt. Sau khi sửa đổi quy tắc và kiểm tra lại, các địa chỉ đã trở lại được crawl bình thường.
Thêm vào đó, bảng trạng thái sitemap chỉ ra sự cố với một bản đồ website. Máy chủ trả về lỗi nên các bot không thể lấy về. Sau khi sửa sitemap, việc theo dõi trở nên dễ dàng hơn.
Câu hỏi thường gặp
-
"Được phép" nghĩa là quy tắc robots.txt không chặn đường dẫn này với bot đã chọn. "Bị chặn" nghĩa là có chặn.
-
Có. Công cụ sẽ phát hiện tên miền cuối cùng và lấy robots.txt từ máy chủ đích.
-
Công cụ tìm quy tắc khớp tốt nhất. Quy tắc khớp dài nhất sẽ áp dụng. Allow ưu tiên nếu bằng nhau.
-
Lỗi xuất hiện khi directive định dạng sai hoặc đặt trước User agent. Đánh dấu giúp bạn sửa lỗi dễ dàng hơn.
-
Robots.txt thường chứa các directive Sitemap. Bảng này kiểm tra xem máy chủ trả về trạng thái HTTP hợp lệ cho các địa chỉ này không.