Mục Đích Và Cách Sử Dụng File Robots.Txt Là Gì?

Ngày đăng: 06/02/2023
Tác giả: Hostingviet
Lượt xem: 176
Theo dõi:

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Tệp robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết có thể truy cập vào những URL nào trên trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web & đây không phải là cơ chế để ẩn một trang web khỏi Google.

Mục đích của file Robots.txt là gì?

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Nó cũng có thể chỉ ra vị trí trang web của bạn trên XML Sitemap. Sau đó các công cụ tìm kiếm sẽ gửi “bot”, “robot” hoặc “spider” để thu thập thông tin trang web của bạn theo như hướng dẫn của file Robots.txt (các công cụ tìm kiếm sẽ không gửi nếu file Robot.txt nói với họ là không thể chỉ mục).

Google, Bing hay các công cụ tìm kiếm khác như Excite, Lycos, Alexa… đều có những “bot” riêng của họ. Hầu hết các bot này đều bắt nguồn từ các công cụ tìm kiếm nhưng cũng có một vài trường hợp các trang web sẽ gửi các bot riêng, ví dụ một số trang web sẽ yêu cầu bạn đặt mã để xác minh quyền sở hữu của bạn đối với trang web đó, sau đó họ sẽ gửi bot và để xem bạn có đưa mã của mình vào hay không.

1 luật "bất thành văn" trên internet là Bots của bất kỳ công cụ tìm kiếm nào cũng phải tuân thủ sự điều hướng của File robots.txt. Nếu nội dung trong file chỉ rõ "đừng index tôi" (Disallow) thì lập tức bots sẽ quay đầu và không lập chỉ mục nữa.

File robots.txt

File Robots.txt nằm ở đâu?

File Robots.txt thường nằm ở thư mục gốc của bạn, bạn có thể dễ dàng tạo một file trống và đặt tên là Robots.txt, điều này giúp bạn tránh được các lỗi cho trang web đồng thời cho phép tất cả các công cụ tìm kiếm thu thập thông tin về trang web của bạn.

Cách khóa file Robots.txt và các công cụ tìm kiếm

Nếu bạn muốn ngăn chặn các bot từ các công cụ tìm kiếm xâm nhập vào trang web của mình thì có thể sử dụng đoạn code sau:
#Code to not allow any search engines!
User-agent: *
Disallow: /

Bạn cũng có thể ngăn chặn các bot xâm nhập và lấy thông tin của một số file nhất định bằng việc sử dụng đoạn code dưới đây (đoạn code này là để ngăn chặn xâm nhập cho các file cgi-bin, tmp, junk)
# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Trong ví dụ trên http://www.yoursitesdomain.com/junk/index.html là đường link bị chặn nhưng http://www.yoursitesdomain.com/index.html và http://www.yoursitesdomain.com/someotherfolder/ sẽ có thể được thu thập thông tin.

*Lưu ý: File Robots.txt hoạt động giống như biển báo “không xâm phạm”. Nó cho các bot biết rằng chúng có thể thu thập dữ liệu của trang web hay không chứ nó không thực sự ngăn chặn các bot xâm nhập. Các bot chuẩn và hợp pháp sẽ nghe theo chỉ thị của bạn có cho phép xâm nhập hay không chính vì vậy mà bạn cần sử dụng các công cụ quản trị web cho Bingbot và Googlebot vì họ không nghe theo file Robots.txt, nội dung bên dưới sẽ giúp bạn hiểu rõ hơn.

>>Xem thêm: Tôi phải làm sao khi thấy điều này trong bản quản trị Wordpress "Yêu cầu cập nhật PHP"

Hệ thống Google và Bing

Google và Bing không nghe theo file tiêu chuẩn Robots.txt nên bạn có thể tạo tài khoản quản trị hệ thống Google và Bing và cấu hình các tên miền của mình để có chế độ thu thập dữ liệu thấp hơn. Bạn có thể xem thêm tài liệu của Google về file Robots.txt https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1, ngoài ra bạn cũng phải sử dụng các công cụ webmaster của Google để thiết lập hầu hết các tham số của Googlebot.

Mình có một lời khuyên dành cho các bạn là các bạn nên cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn, đồng thời làm giảm tài nguyên mà nó yêu cầu từ hệ thống, điều này làm cho lưu lượng truy cập trang web của bạn tốt hơn.
Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần phải cấu hình file .htaccess.

File Robots mặc định của wordpress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Hoặc Bạn có thể tham khảo code này

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://hostingviet.vn/sitemap.xml

(thay hostingviet.vn bằng domain của Bạn)

Với những thông tin hướng dẫn các bạn cách sử dụng file robots.txt cũng như mục đích của file.  Hi vọng bạn sẽ có thể trang bị thêm thật nhiều kiến thức khác mà chúng tôi đã chia sẻ! Nếu thấy bài viết này hữu ích hãy subscribe để theo dõi những thông tin mới nhất từ Hosting Việt nhé. Chúc các bạn thành công!

Bài viết liên quan
 
 
2024/11/12

Hướng dẫn remote VPS linux GUI chi tiết, dễ dàng

Tương tự với việc truy cập remote VPS Windows, với các bản VPS Linux có cài sẵn GUI tại Hostingviet quý khách thao tác th...
Tác giả:
Đọc thêm
 
 
2024/11/07

2 Cách Fix lỗi đen màn hình khi remote nhanh chóng, hiệu quả

Cách 1: Khắc Phục Sự Cố Remote Desktop Services Sử Dụng Task Manager và Services Bạn hãy thực hiện theo các bước sau: Bước 1: Mở Task...
Tác giả:
Đọc thêm
 
 
2024/11/08

Hướng dẫn active license Fast Panel nhanh chóng, dễ dàng

Để active license Fast Panel, sau khi quý khách cài đặt xong VPS từ phiên bản Alma Linux 8 Fast Panel truy cập vào link quản trị ...
Tác giả:
Đọc thêm
 
 
2024/10/14

Cách Fix lỗi không show được User khi restore bằng Jetbackup

  Nguyên Nhân Gây Ra Lỗi không show được User khi restore bằng Jetbackup Khi thực hiện restore bằng JetBackup, quá trì...
Tác giả:
Đọc thêm
 
 
2024/07/11

Hướng dẫn Restore/Download tài khoản bằng Jetbackup trên Directadmin

Đây là tính năng Backup hoàn toàn tự động mà Hostingviet cung cấp cho khách hàng của mình, bạn ho&agrav...
Tác giả:
Đọc thêm
 
 
2024/03/04

Sitejet Builder là gì? Hướng dẫn dùng Sitejet Builder trên cPanel

Sitejet Builder là gì? Sitejet Builder là một sản phẩm của Webpros - công ty công nghệ nổi tiếng với các giải pháp v&...
Tác giả:
Đọc thêm