Mục Đích Và Cách Sử Dụng File Robots.Txt Là Gì?

Ngày đăng: 06/02/2023
Lượt xem: 223
Theo dõi: youtube tiktok
Chia sẻ:
Đánh giá: 5/5 - (3 bình chọn)

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web & đây không phải là cơ chế để ẩn một trang web khỏi Google.

Mục đích của file Robots.txt là gì?

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Nó cũng có thể chỉ ra vị trí trang web của bạn trên XML Sitemap. Sau đó các công cụ tìm kiếm sẽ gửi “bot”, “robot” hoặc “spider” để thu thập thông tin trang web của bạn theo như hướng dẫn của file Robots.txt (các công cụ tìm kiếm sẽ không gửi nếu file Robot.txt nói với họ là không thể chỉ mục).

Google, Bing hay các công cụ tìm kiếm khác như Excite, Lycos, Alexa… đều có những “bot” riêng của họ. Hầu hết các bot này đều bắt nguồn từ các công cụ tìm kiếm nhưng cũng có một vài trường hợp các trang web sẽ gửi các bot riêng, ví dụ một số trang web sẽ yêu cầu bạn đặt mã để xác minh quyền sở hữu của bạn đối với trang web đó, sau đó họ sẽ gửi bot và để xem bạn có đưa mã của mình vào hay không.

1 luật "bất thành văn" trên internet là Bots của bất kỳ công cụ tìm kiếm nào cũng phải tuân thủ sự điều hướng của File robots.txt. Nếu nội dung trong file chỉ rõ "đừng index tôi" (Disallow) thì lập tức bots sẽ quay đầu và không lập chỉ mục nữa.

File robots.txt

File Robots.txt nằm ở đâu?

File Robots.txt thường nằm ở thư mục gốc của bạn, bạn có thể dễ dàng tạo một file trống và đặt tên là Robots.txt, điều này giúp bạn tránh được các lỗi cho trang web đồng thời cho phép tất cả các công cụ tìm kiếm thu thập thông tin về trang web của bạn.

Cách khóa file Robots.txt và các công cụ tìm kiếm

Nếu bạn muốn ngăn chặn các bot từ các công cụ tìm kiếm xâm nhập vào trang web của mình thì có thể sử dụng đoạn code sau:
#Code to not allow any search engines!
User-agent: *
Disallow: /

Bạn cũng có thể ngăn chặn các bot xâm nhập và lấy thông tin của một số file nhất định bằng việc sử dụng đoạn code dưới đây (đoạn code này là để ngăn chặn xâm nhập cho các file cgi-bin, tmp, junk)
# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Trong ví dụ trên http://www.yoursitesdomain.com/junk/index.html là đường link bị chặn nhưng http://www.yoursitesdomain.com/index.html và http://www.yoursitesdomain.com/someotherfolder/ sẽ có thể được thu thập thông tin.

*Lưu ý: File Robots.txt hoạt động giống như biển báo “không xâm phạm”. Nó cho các bot biết rằng chúng có thể thu thập dữ liệu của trang web hay không chứ nó không thực sự ngăn chặn các bot xâm nhập. Các bot chuẩn và hợp pháp sẽ nghe theo chỉ thị của bạn có cho phép xâm nhập hay không chính vì vậy mà bạn cần sử dụng các công cụ quản trị web cho Bingbot và Googlebot vì họ không nghe theo file Robots.txt, nội dung bên dưới sẽ giúp bạn hiểu rõ hơn.

>>Xem thêm: Tôi phải làm sao khi thấy điều này trong bản quản trị Wordpress "Yêu cầu cập nhật PHP"

Hệ thống Google và Bing

Google và Bing không nghe theo file tiêu chuẩn Robots.txt nên bạn có thể tạo tài khoản quản trị hệ thống Google và Bing và cấu hình các tên miền của mình để có chế độ thu thập dữ liệu thấp hơn. Bạn có thể xem thêm tài liệu của Google về file Robots.txt https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1, ngoài ra bạn cũng phải sử dụng các công cụ webmaster của Google để thiết lập hầu hết các tham số của Googlebot.

Mình có một lời khuyên dành cho các bạn là các bạn nên cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn, đồng thời làm giảm tài nguyên mà nó yêu cầu từ hệ thống, điều này làm cho lưu lượng truy cập trang web của bạn tốt hơn.
Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần phải cấu hình file .htaccess.

File Robots mặc định của wordpress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Hoặc Bạn có thể tham khảo code này

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://hostingviet.vn/sitemap.xml

(thay hostingviet.vn bằng domain của Bạn)

Với những thông tin hướng dẫn các bạn cách sử dụng file robots.txt cũng như mục đích của file.  Hi vọng bạn sẽ có thể trang bị thêm thật nhiều kiến thức khác mà chúng tôi đã chia sẻ! Nếu thấy bài viết này hữu ích hãy subscribe để theo dõi những thông tin mới nhất từ Hosting Việt nhé. Chúc các bạn thành công!

Bình luận
  • Báo xấu
    Phản hồi
    {comment_author}
    {comment_content}
Bài viết liên quan
 
4 CÁCH RESET MÁY TÍNH ĐƠN GIẢN NHẤT TRÊN MÁY TÍNH WINDOWS
2023/11/16

4 CÁCH RESET MÁY TÍNH ĐƠN GIẢN NHẤT TRÊN MÁY TÍNH WINDOWS

Việc thường xuyên gặp phải các vấn đề và sự cố trên máy tính có thể gây ảnh hưởng lớn đến hiệu suất công v...
Tác giả:
Đọc thêm
 
Chiến lược khác biệt hóa là gì? Ưu nhược điểm và cách vận dụng tốt nhất
2023/11/16

Chiến lược khác biệt hóa là gì? Ưu nhược điểm và cách vận dụng tốt nhất

Trong kinh doanh, yếu tố khác biệt của sản phẩm, dịch chính là 1 trong những chìa khóa dẫn đến thành công của doanh n...
Tác giả:
Đọc thêm
 
Chiến lược xúc tiến là gì? Cách vận dụng thành công vào doanh nghiệp
2023/11/16

Chiến lược xúc tiến là gì? Cách vận dụng thành công vào doanh nghiệp

Xúc tiếp bán hàng là hoạt động không thể thiếu trong quá trình kinh doanh của doanh nghiệp. Chiến lược xúc tiế...
Tác giả:
Đọc thêm
 
Cách khắc phục lỗi SSL trên Windows 7 đơn giản, nhanh chóng
2023/08/29

Cách khắc phục lỗi SSL trên Windows 7 đơn giản, nhanh chóng

Mặc dù đã xuất hiện hơn 10 năm nhưng hệ điều hành Windows  7 vẫn được nhiều người lựa chọn để sử dụng. Trong quá trình sử dụn...
Tác giả:
Đọc thêm
 
SFTP Là Gì? Những thông tin cần biết về SFTP Server
2023/08/29

SFTP Là Gì? Những thông tin cần biết về SFTP Server

SFTP là gì? SFTP hay SSH File Transfer Protocol là một giao thức mạng được sử dụng để truyền tải và quản lý dữ liệu trên m&...
Tác giả:
Đọc thêm
 
Máy Trạm Là Gì? Tìm Hiểu Khái Niệm Và Chức Năng Của Máy Trạm
2023/08/29

Máy Trạm Là Gì? Tìm Hiểu Khái Niệm Và Chức Năng Của Máy Trạm

Máy trạm là gì? Tại sao lại cần sử dụng máy trạm Máy trạm là gì, máy tính trạm là gì?...
Tác giả:
Đọc thêm