HostingViet | Công ty Cổ phần Công nghệ số Thiên Quang

Robots.txt là gì? Tổng quan về file robots.txt của website

Tin tức | 2026-01-13 16:08:39+07

Robots.txt là gì?

Robots.txt là một tệp văn bản đơn giản có định dạng .txt, nằm trong thư mục gốc (root) của website, thuộc Robots Exclusion Protocol (REP). Tệp này được sử dụng để giao tiếp và hướng dẫn các trình thu thập dữ liệu (bot) của công cụ tìm kiếm như Googlebot, Bingbot biết những khu vực nào trên website được phép hoặc không được phép truy cập, thu thập và lập chỉ mục.

Thông qua robots.txt, quản trị viên có thể kiểm soát lưu lượng bot, ngăn bot truy cập các khu vực không cần thiết hoặc nhạy cảm (như trang quản trị, giỏ hàng, kết quả tìm kiếm nội bộ), từ đó tối ưu hiệu suất máy chủ và quá trình lập chỉ mục cho SEO. Robots.txt thường được sử dụng kết hợp với sitemap.xml để giúp công cụ tìm kiếm hiểu rõ cấu trúc website và ưu tiên thu thập các trang quan trọng.

Lưu ý, robots.txt chỉ là chỉ thị hướng dẫn, không phải cơ chế bảo mật tuyệt đối; việc chặn URL trong robots.txt không đảm bảo trang đó sẽ không xuất hiện trên kết quả tìm kiếm nếu vẫn có liên kết trỏ đến từ bên ngoài.

Chức năng chính của Robots.txt

Robots.txt đóng vai trò quan trọng trong việc kiểm soát và tối ưu quá trình thu thập dữ liệu (crawl) của các công cụ tìm kiếm trên website. Thông qua tệp này, quản trị viên có thể:

Việc cấu hình robots.txt đúng cách không chỉ giúp quản lý crawl hiệu quả mà còn góp phần cải thiện hiệu  suất SEO tổng thể của website.

Các hạn chế của file robots.txt

Mặc dù mang lại nhiều lợi ích trong việc kiểm soát quá trình thu thập dữ liệu, robots.txt vẫn tồn tại một số hạn chế mà người làm SEO cần lưu ý:

Cú pháp của Robots.txt

File robots.txt sử dụng một tập hợp cú pháp riêng để hướng dẫn các công cụ tìm kiếm cách thu thập dữ liệu trên website. Trong đó, có 5 thuật ngữ quan trọng mà bạn thường gặp khi cấu hình robots.txt:

Pattern Matching trong robots.txt

Trong thực tế, file robots.txt trên WordPress thường có cấu trúc khá phức tạp do cho phép sử dụng Pattern Matching, giúp quản trị viên dễ dàng cho phép hoặc chặn bot truy cập theo nhóm URL thay vì từng đường dẫn riêng lẻ.

Các công cụ tìm kiếm lớn như Google và Bing hỗ trợ hai ký tự đặc biệt phổ biến để xác định phạm vi URL hoặc thư mục cần loại trừ khỏi quá trình thu thập dữ liệu:

Định dạng cơ bản của file robots.txt

File robots.txt được xây dựng theo một cấu trúc tiêu chuẩn nhằm hướng dẫn các công cụ tìm kiếm thu thập dữ liệu trên website. Định dạng cơ bản thường bao gồm các thành phần sau:

User-agent:

Disallow:

Allow:

Crawl-delay:

Sitemap:

Ví dụ về một file robots.txt:

Trong đó, Crawl-delay và Sitemap là các chỉ thị không bắt buộc và có thể lược bỏ tùy theo nhu cầu sử dụng. Đây cũng là cấu trúc phổ biến của robots.txt trên WordPress, dù trên thực tế tệp này thường phức tạp hơn.

Một file robots.txt có thể chứa nhiều User-agent cùng lúc, mỗi bot sẽ đi kèm các chỉ thị riêng như Disallow, Allow, Crawl-delay, … Thông thường, các nhóm lệnh dành cho từng bot được phân tách rõ ràng để dễ quản lý.

Trong trường hợp một bot nhận được nhiều chỉ thị khác nhau, trình thu thập dữ liệu sẽ ưu tiên thực hiện quy tắc cụ thể và chi tiết nhất. Vì vậy, việc sắp xếp và viết robots.txt rõ ràng, chính xác sẽ giúp kiểm soát crawl hiệu quả và tránh xung đột không cần thiết.

File Robots.txt nằm ở đâu trên website WordPress?

Trên website WordPress, hệ thống sẽ tự động tạo một file robots.txt ảo và đặt tại thư mục gốc của máy chủ ngay sau khi cài đặt. Người dùng có thể truy cập tệp này thông qua đường dẫn:

tenmiencuaban.com/robots.txt

Một lưu ý là robots.txt mặc định của WordPress là tệp ảo, vẫn hoạt động nhưng không thể chỉnh sửa trực tiếp. Để tùy chỉnh theo nhu cầu SEO, bạn cần tạo một file robots.txt vật lý và đặt tại thư mục gốc của website (thường là public_html, www hoặc thư mục mang tên domain). Khi đó, file mới sẽ ghi đè và thay thế cấu hình robots.txt mặc định.

File robots.txt chuẩn

Dưới đây là một số mẫu robots.txt chuẩn thường được sử dụng để kiểm soát quyền truy cập của các trình thu thập dữ liệu trên website:

1. Chặn toàn bộ bot truy cập website:

Cấu hình này ngăn tất cả các web crawler thu thập dữ liệu trên website, bao gồm cả trang chủ:

User-agent: *

Disallow: /

2. Cho phép toàn bộ bot thu thập dữ liệu:

Áp dụng khi bạn muốn công cụ tìm kiếm truy cập và index toàn bộ nội dung trên website:

User-agent: *

Disallow:

3. Chặn Googlebot truy cập một thư mục cụ thể:

Ngăn bot của Google thu thập dữ liệu trong thư mục xác định:

User-agent: Googlebot

Disallow: /example-subfolder/

4. Chặn Bingbot truy cập một trang cụ thể:

Không cho bot của Bing thu thập dữ liệu tại một URL nhất định:

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Ví dụ file robots.txt chuẩn

Dưới đây là một mẫu robots.txt đang được sử dụng phổ biến cho website www.example.com:

User-agent: *

Disallow: /wp-admin/

Allow: /

Sitemap: https://www.example.com/sitemap_index.xml

--> Ý nghĩa của cấu trúc robots.txt trên là:

Nhờ cấu hình này, website được index toàn bộ nội dung cần thiết, đồng thời vẫn đảm bảo loại trừ các khu vực nội bộ, góp phần tối ưu hiệu quả SEO và bảo mật.

Cách file Robots.txt hoạt động

Các công cụ tìm kiếm thực hiện 2 nhiệm vụ chính là thu thập dữ liệu (crawl) để khám phá nội dung website và lập chỉ mục (index) nhằm hiển thị kết quả phù hợp cho truy vấn của người dùng.

Quá trình crawl diễn ra khi bot của công cụ tìm kiếm di chuyển qua các liên kết từ trang này sang trang khác để thu thập thông tin. Hoạt động này còn được gọi là spidering, giúp bot tiếp cận và phân tích nội dung trên hàng tỷ trang web.

File robots.txt hoạt động như một bộ hướng dẫn (quy tắc) được đặt tại thư mục gốc của website, chỉ định cho các công cụ tìm kiếm biết những trang/thư mục nào được phép hoặc bị cấm cào dữ liệu (crawl). Nó giúp quản lý băng thông, tránh index nội dung riêng tư và tối ưu hóa SEO.

Khi truy cập một website, bot của Google sẽ kiểm tra file robots.txt trước tiên. Nếu tệp này tồn tại, bot sẽ đọc và tuân theo các chỉ thị được thiết lập trước khi tiếp tục thu thập dữ liệu.

Trong trường hợp không có file robots.txt hoặc tệp không chứa quy tắc dành cho user-agent, bot sẽ mặc định thu thập dữ liệu theo hành vi tiêu chuẩn.

Trình thu thập dữ liệu của Google hỗ trợ những lệnh nào?

Trước khi cấu hình robots.txt, bạn cần nắm rõ các chỉ thị mà Googlebot hỗ trợ, bởi Google là công cụ tìm kiếm chính trong hầu hết chiến lược SEO. Việc hiểu đúng cú pháp giúp bạn kiểm soát hiệu quả quá trình crawl và index website. Dưới đây là các lệnh mà được trình thu thập dữ liệu của Google hỗ trợ:

User-agent

User-agent là chỉ thị bắt buộc trong mỗi nhóm quy tắc của file robots.txt. Lệnh này xác định trình thu thập dữ liệu (crawler) nào sẽ áp dụng các quy tắc đi kèm và luôn được đặt ở dòng đầu tiên của mỗi nhóm.

Google cung cấp danh sách đầy đủ các user-agent mà họ hỗ trợ. Trong đó, dấu hoa thị (*) đại diện cho tất cả các bot, ngoại trừ AdsBot - loại bot này cần được khai báo cụ thể nếu muốn kiểm soát riêng.

Disallow

Mỗi nhóm quy tắc cần có ít nhất một lệnh Disallow hoặc Allow. Chỉ thị Disallow dùng để xác định đường dẫn (trang hoặc thư mục) mà user-agent không được phép thu thập dữ liệu.

Đường dẫn bị chặn phải được khai báo tương đối so với domain gốc, bắt đầu bằng ký tự “/”. Với trang cụ thể, URL cần được ghi đầy đủ; với thư mục, đường dẫn nên kết thúc bằng dấu “/” để đảm bảo bot hiểu đúng phạm vi chặn.

Allow

Trong mỗi nhóm quy tắc của robots.txt, cần có ít nhất một chỉ thị Allow hoặc Disallow. Lệnh Allow được sử dụng để xác định trang hoặc thư mục mà bot được phép thu thập dữ liệu, tính theo đường dẫn tương đối từ domain gốc.

Chỉ thị này thường dùng để ghi đè quy tắc Disallow, cho phép crawler truy cập một trang cụ thể hoặc thư mục con nằm trong khu vực đang bị chặn.

Khi cấu hình:

Sitemap

Sitemap là chỉ thị không bắt buộc trong file robots.txt, có thể có hoặc không tùy theo cấu hình website. Chỉ thị này dùng để khai báo vị trí của sơ đồ trang web, giúp công cụ tìm kiếm nhanh chóng phát hiện các URL quan trọng.

URL sitemap phải là địa chỉ đầy đủ và chính xác. Google không tự động suy đoán hay kiểm tra các biến thể khác như http/https hoặc www/không www.

Một lưu ý bạn cần nắm là Sitemap chỉ có tác dụng gợi ý nội dung nên được thu thập dữ liệu, chứ không dùng để cấp quyền hay chặn quyền truy cập của bot. Việc cho phép hoặc hạn chế crawl vẫn cần được kiểm soát thông qua các chỉ thị như Allow và Disallow.

Cách kiểm tra File Robots.txt của website

Nếu bạn muốn kiểm tra website có tồn tại file robots.txt hay không, cách thực hiện rất đơn giản. Bạn chỉ cần nhập domain gốc của website và thêm /robots.txt vào cuối URL, sau đó truy cập đường dẫn đó trên trình duyệt.

Ví dụ: tenmiencuaban.com/robots.txt

Nếu trình duyệt hiển thị nội dung của tệp, nghĩa là website đã có robots.txt. Ngược lại, nếu không xuất hiện tệp .txt, website của bạn hiện chưa tạo robots.txt cho WordPress.

Cách kiểm tra này nhanh chóng, dễ thực hiện và có thể áp dụng cho bất kỳ website nào để xác định tình trạng cấu hình robots.txt.

Các quy tắc cần bổ sung vào File Robots.txt

Thông thường, mỗi quy tắc trong file robots.txt sẽ được xử lý riêng lẻ. Tuy nhiên, trong nhiều trường hợp, bạn có thể cần áp dụng các quy tắc khác nhau cho từng bot tìm kiếm.

Để thực hiện điều này, bạn chỉ cần khai báo User-agent tương ứng cho từng bot, sau đó thiết lập các quy tắc riêng biệt cho mỗi nhóm.

Ví dụ: Nếu bạn muốn áp dụng một quy tắc cho toàn bộ bot và một quy tắc khác chỉ dành cho Bingbot, bạn có thể cấu hình như sau:

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot

Disallow: /

Trong cấu hình trên, tất cả các bot đều bị chặn truy cập thư mục /wp-admin/, trong khi Bingbot sẽ không được phép thu thập dữ liệu trên toàn bộ website.

Các quy tắc của file Robots.txt

Việc cấu hình robots.txt không chỉ đơn giản là chặn hay cho phép bot truy cập, mà còn cần tuân thủ một số nguyên tắc quan trọng, cụ thể là:

Ngoài ra, mỗi subdomain sẽ sử dụng file robots.txt riêng biệt.

Ví dụ, example.com và blog.example.com cần có hai file robots.txt độc lập tương ứng. Ngoài ra, việc khai báo sitemap ở cuối file robots.txt được xem là thực hành tốt, giúp công cụ tìm kiếm dễ dàng xác định cấu trúc website.

Cách tạo File Robots.txt cho website Wordpress

Trong trường hợp website WordPress của bạn chưa có file robots.txt hoặc cần chỉnh sửa nội dung hiện tại, bạn có thể áp dụng một trong các phương pháp tạo robots.txt dưới đây.

Tạo robots.txt bằng plugin Yoast SEO

Yoast SEO cho phép bạn tạo và chỉnh sửa file robots.txt trực tiếp trong bảng quản trị WordPress chỉ với vài thao tác đơn giản.

Trước tiên, hãy đăng nhập vào WordPress Dashboard. Tại thanh menu bên trái, truy cập theo đường dẫn SEO → Tools → File Editor để bắt đầu tạo hoặc chỉnh sửa file robots.txt.

Lưu ý: Nếu mục File Editor không hiển thị, rất có thể website của bạn chưa được cấp quyền chỉnh sửa tệp. Khi đó, bạn cần kích hoạt quyền này thông qua FTP (File Transfer Protocol). Sau khi hoàn tất, hệ thống sẽ hiển thị hai tệp robots.txt và .htaccess - đây chính là nơi bạn có thể quản lý và cấu hình file robots.txt cho website.

Tạo file robots.txt WordPress bằng plugin All in One SEO

Bên cạnh Yoast SEO, bạn cũng có thể sử dụng plugin All in One SEO để tạo file robots.txt cho WordPress một cách nhanh chóng. Đây là plugin phổ biến, giao diện đơn giản và dễ thao tác, phù hợp với cả người mới bắt đầu.

Để thiết lập robots.txt, hãy truy cập vào All in One SEO → Features Manager, sau đó kích hoạt (Activate) tính năng Robots.txt. Ngay sau đó, hệ thống sẽ hiển thị thêm các tùy chọn cấu hình liên quan.

Khi tính năng được bật, robots.txt sẽ xuất hiện như một tab riêng trong khu vực quản lý All in One SEO, cho phép bạn tạo mới và điều chỉnh nội dung file trực tiếp ngay trong bảng quản trị WordPress.

Tuy nhiên, All in One SEO có cách hoạt động khác với Yoast SEO. Plugin này không cho phép chỉnh sửa trực tiếp toàn bộ file robots.txt mà sẽ quản lý thông qua các thiết lập sẵn có. Điều này có thể khiến bạn ít chủ động hơn trong quá trình chỉnh sửa, nhưng bù lại giúp hạn chế rủi ro cấu hình sai, đồng thời tăng mức độ an toàn cho website trước các bot độc hại và malware.

Tạo và upload file robots.txt WordPress bằng FTP

Nếu không muốn sử dụng plugin, bạn hoàn toàn có thể tự tạo file robots.txt cho WordPress theo cách thủ công. Phương pháp này phù hợp với những ai muốn chủ động kiểm soát cấu hình website.

Bạn chỉ cần dùng các trình soạn thảo văn bản cơ bản như Notepad hoặc TextEdit để tạo file robots.txt dựa trên các quy tắc đã đề cập trước đó. Sau khi hoàn tất, hãy upload file robots.txt lên hosting thông qua FTP.

Toàn bộ quá trình này chỉ mất vài phút, thao tác đơn giản và không yêu cầu cài đặt thêm plugin, từ đó sẽ giúp bạn tiết kiệm thời gian và tài nguyên cho website.

Cách Submit File Robots.txt lên công cụ tìm kiếm

Các bước submit file robots.txt như sau:

Submit robots.txt bằng Google Search Console

Submit robots.txt bằng Bing Webmaster Tools

Việc submit file robots.txt không bắt buộc, tuy nhiên đây là bước nên thực hiện để tăng tốc quá trình thu thập dữ liệu của công cụ tìm kiếm đối với website. Khi gửi robots.txt, bạn sẽ nhận được các lợi ích như:

Lưu ý khi sử dụng file robots.txt

Robots.txt là công cụ mạnh trong việc kiểm soát bot tìm kiếm, tuy nhiên nếu cấu hình sai có thể gây ra nhiều rủi ro cho SEO. Vì vậy, bạn cần đặc biệt lưu ý các điểm sau khi sử dụng file robots.txt.

FAQs về Robots.txt

Dưới đây là các câu hỏi thường gặp về robots.txt mà bạn nên nắm rõ khi tối ưu SEO cho website.

1. Điều gì xảy ra nếu tôi không có tệp robots.txt?

Trong trường hợp website không tồn tại file robots.txt, các công cụ tìm kiếm sẽ mặc định hiểu rằng toàn bộ trang và tài nguyên đều được phép truy cập. Khi đó, bot tìm kiếm có thể crawl tất cả nội dung khả dụng trên website và tiến hành lập chỉ mục mà không có bất kỳ giới hạn nào.

2. Một website có thể sử dụng nhiều tệp robots.txt không?

Không. Mỗi website chỉ nên sử dụng một file robots.txt duy nhất, đồng thời file này phải được đặt tại thư mục gốc (root) của website. Việc tạo nhiều robots.txt trên cùng một website không được công cụ tìm kiếm ghi nhận, thậm chí có thể khiến bot hiểu sai chỉ thị và ảnh hưởng đến quá trình crawl dữ liệu.

3. robots.txt có thể chặn hoàn toàn một website trên kết quả tìm kiếm không?

Không. File robots.txt chỉ đóng vai trò định hướng hành vi thu thập dữ liệu của công cụ tìm kiếm, chứ không phải là cơ chế bắt buộc. Trong trường hợp trang bị chặn vẫn nhận được liên kết từ website khác, Google vẫn có thể phát hiện và lập chỉ mục trang đó.

Để loại bỏ hoàn toàn một trang khỏi kết quả tìm kiếm, bạn cần sử dụng thẻ meta noindex, đây là giải pháp hiệu quả và được công cụ tìm kiếm tuân thủ chặt chẽ hơn.

4. Mất bao lâu để các thay đổi trong robots.txt có hiệu lực?

Các cập nhật trong file robots.txt thường được công cụ tìm kiếm ghi nhận khá nhanh khi chúng tải lại tệp này. Tuy nhiên, việc crawl và lập chỉ mục nội dung theo các thay đổi mới lại phụ thuộc vào nhiều yếu tố như từng URL cụ thể, tần suất thu thập dữ liệu và mức độ ưu tiên của trang. Vì vậy, không có mốc thời gian cố định để các thay đổi này phản ánh hoàn toàn trên kết quả tìm kiếm.

5. Làm cách nào để chỉnh sửa robots.txt WordPress?

Bạn có thể chỉnh sửa file robots.txt trên WordPress bằng hai phương pháp chính. Thứ nhất là can thiệp thủ công trực tiếp vào file trong thư mục gốc của website. Thứ hai, bạn có thể sử dụng các plugin SEO phổ biến như Yoast SEO, cho phép chỉnh sửa robots.txt ngay trong khu vực quản trị WordPress (backend) một cách nhanh chóng và thuận tiện.

Trên đây là những thông tin HostingViet mang đến giúp bạn hiểu rõ robots.txt là gì và các vấn đề quan trọng xoay quanh tệp này. Có thể thấy, robots.txt là một thành phần không thể thiếu trong cấu trúc website, đặc biệt trong bối cảnh công cụ tìm kiếm ngày càng đóng vai trò then chốt trong việc tiếp cận và khai thác thông tin trên môi trường số hiện nay. Cảm ơn bạn đã đọc bài viết và hẹn gặp bạn trong những kiến thức tiếp theo!


Bài viết khác