Robots.txt là gì? 3 Cách tạo Robots.txt đơn giản và nhanh nhất!

  • Last update: 01/06/2021

Nguyễn Lê Hoài Thương

Chuyên Gia Digital Marketing

Robots.txt là gì? 3 Cách tạo Robots.txt đơn giản và nhanh nhất! hình ảnh 1

Chỉ khi các Googlebot tìm kiếm crawl và index những page quan trọng trên website, thì trang của bạn mới có thể xuất hiện trên SERPs.

File robots.txt nếu được viết tốt sẽ giúp bạn quản lý mỗi khi những bots này muốn truy cập vào trang để thu thập nội dung (tránh quét những trang không cần thiết).

Trong bài viết này, Prodima sẽ hướng dẫn cho bạn chi tiết cách tạo file robots.txt đơn giản nhất. Bắt đầu ngay nhé!

Tệp robots.txt là gì?

Robots.txt đóng vai trò thông báo cho các bot tìm kiếm biết được nên – không nên crawl những trang hoặc tệp nào trên website của bạn.

Bên cạnh đó, tệp này còn giúp ngăn bot tìm kiếm gửi yêu cầu quá nhiều đến trang web dưới dạng “đây không phải là cơ chế ẩn một website khỏi Google”.

Nếu bạn muốn ẩn một trang bất kỳ khỏi Google thì nên gắn tag “Noindex” hoặc sử dụng mật khẩu riêng để bảo vệ trang.

Robots.txt là gì
Tệp robots.txt

Cấu tạo cơ bản của robots.txt

Tệp Robots.txt có cấu trúc đơn giản, được tạo ra bởi sự kết hợp giữa các từ khóa và giá trị đã được coder lập trình như sau:

1. User-agent:

Chỉ định các trình thu thập dữ liệu theo chỉ thị yêu cầu. Bạn chỉ cần thêm dấu * hoặc thêm tên vào phía sau để tất cả trình thu thập dữ liệu có thể crawl thông tin trên website.

2. Disallow:

Chỉ định các trình thu thập dữ liệu (được cho phép) không cral những URL, thông tin hoặc tệp cụ thể nào đó.

3. Allow:

Chỉ áp dụng cho Googlebot, cho phép truy cập để thu thập các thư mục, tệp hoặc thông tin theo chỉ thị.

4. Crawl-delay:

Thời gian cho phép các trình thu thập dữ liệu chờ đợi trước khi tiến hành crawl thông tin ở trang tiếp theo trên website của bạn.

Thường các lập trình viên sẽ setup cho tệp này với đơn vị là ms. Nhưng Googlebot là ngoại lệ – vì không bị ràng buộc bởi các tiêu chí này.

5. Sitemap:

Hỗ trợ các bots tìm kiếm xác định chính xác vị trí của sơ đồ XML. Tuy nhiên, các trang tìm kiếm vẫn có thể tìm thấy được, dù không có chỉ thị này của robots.txt.

Vai trò của tệp robots.txt đối với website

Nhiệm vụ chính của các tệp robots.txt là kiểm soát các bots khi crawl các tranh hay danh mục được chỉ thị trên website của bạn. Điều này có thể tiềm ẩn nhiều rủi ro, nếu bạn vô tình ngăn không cho Googlebot thu thập toàn bộ dữ liệu trang web.

Trong một vài tình huống nhất định, tệp robots.txt mang lại nhiều lợi ích sau:

  • Ngăn chặn hiển thị nội dung trùng lặp trên SERPs (Lưu ý: Sử dụng Robot meta sẽ làm công việc này tốt hơn).
  • Đảm bảo các phần của website đều ở chế độ riêng tư.
  • Không hiển thị công khai các trang có kết quả tìm kiếm nội bộ trên SERPs.
  • Chỉ định vị trí của Sitemap trên trang.
  • Ngăn Googlebot lập chỉ mục các tệp nhất định như hình ảnh, PDF… trên website.
  • Chỉ định độ trễ khi crawl thông tin giúp server không bị quá tải khi Googlebot thu thập dữ liệu nhiều thông tin cùng một lúc.

Nếu website của bạn không có bất kỳ khu vực nào muốn kiểm soát User-agent, thì không cần sử dụng tệp robots.txt.

Những hạn chế của tệp robots.txt

Trước khi tạo hay chỉnh sửa file robots.txt, bạn cần hiểu rõ những mặt hạn chế của tệp này như sau:

Hạn chế một vài công cụ tìm kiếm

Hướng dẫn trong tệp robots.txt không thể yêu cầu tất cả trình thu thập tuân thủ chỉ thị. Có thể, Googlebot và các trình thu thập dữ liệu có uy tín khác sẽ làm đúng đúng theo hướng dẫn đó, nhưng một vài bots sẽ không làm như vậy.

Do đó, để bảo mật thông tin trước các trình thu thập dữ liệu web, bạn nên sử dụng phương thức chặn khác như bằng mật khẩu trên server.

Mỗi trình thu thập dữ liệu sẽ sử dụng cú pháp riêng

Khi crawl dữ liệu, mỗi trình thu thập dữ liệu sẽ áp dụng cách thức riêng để hiểu được các lệnh đó.

Bạn nên biết từng cú pháp nào sẽ phù hợp với trình thu thập dữ liệu nào, vì đôi khi có các trình thu thập không hiểu rõ một vài hướng dẫn trong robots.txt.

Nếu một trang bị tệp robots.txt chặn nhưng có liên kết từ trang web khác thì Google vẫn index

Thông thường, Googlebot sẽ không crawl hay index những trang bị tệp robots.txt chặn. Nhưng nếu URL đó có liên kết từ những trang web khác, thì Googlebot vẫn lập chỉ mục được.

Kết quả: Địa chỉ URL và tất cả thông tin trong trang đó vẫn xuất hiện trên SERPs.

=> Để ngăn chặn vấn đề này, bạn nên gắn thẻ “Noindex” hay sử dụng mật khẩu trên server.

Phương thức hoạt động của file robots.txt

Các công cụ tìm kiếm sẽ thực hiện 2 công việc chính:

  • Crawl: Quét và thu thập dữ liệu trên website để khám phá nội dung.
  • Index: Lập chỉ mục những nội dung đáp ứng với truy vấn của người dùng.

Sau khi truy cập vào một trang web, Googlebot sẽ tìm các tệp robots.txt để đọc đầu tiên rồi mới tiến hành các bước tiếp theo như sau

  • Để crawl dữ liệu trên website, các bots phải đi theo đường liên kết từ trang này đến trang kia.
  • Cuối cùng sẽ thu thập lưỡng dữ liệu khổng lồ từ hàng tỷ trang web trên internet.

=> Toàn bộ quá trình thu thập dữ liệu còn được gọi với cái tên là “Spidering”.

  • File robots.txt sẽ hướng dẫn chi tiết cho các trình thu thập dữ liệu biết làm thế nào để crawl thông tin website.

Trong trường hợp bạn không tạo tệp robots.txt hoặc robots.txt không chứa bất kì chỉ thị nào cho các User-agent, thì các trình thu thập sẽ tự động quét tất cả thông tin (gồm các trang bạn không chỉ thị).

Vị trí của file robots.txt trên website

Thông thường, khi thiết kế một website trên WordPress sẽ tự động tạo một tệp robots.txt tại vị trí bên dưới thư mục gốc của máy chủ.

Ví dụ: Nếu một trang web đặt trong thư mục gốc của địa chỉ prodima.com => có thể truy cập vào tệp robots.txt ở đường dẫn prodima.com/robots.txt => kết quả hiển thị ban đầu sẽ dưới dạng sau:

  • User-agent: * – đồng nghĩa có thể áp dụng cho tất cả trình thu thập dữ liệu trên internet khi truy cập vào website.
  • Disallow: /wp-admin/
  • Disallow: /wp-includes/
Robots.txt là gì? 3 Cách tạo Robots.txt đơn giản và nhanh nhất! hình ảnh 2
Vị trí của file robots.txt trên website

Đồng thời, tệp sẽ thông báo cho các trình thu thập rằng chúng không được phép crawl thông tin trong thư mục wp-admin và wp-includes – vì 2 thư mục này chứa nhiều dữ liệu nhạy cảm.

Tuy nhiên, bạn hãy nhớ rằng: Đây chỉ là 1 file ảo được tạo bởi WordPress sau khi cài đặt thành công và bạn không thể chỉnh sửa (dù nó vẫn hoạt động).

Thông thường, vị trí đặt file robots.txt chính xác là trong thư mục gốc, được gọi là public_html và www / tên website. Nếu bạn muốn tạo tệp robots.txt riêng thì cần tạo một file mới để thay thế cho file cũ đã xuất hiện trước đó.

3 Cách tạo file robots.txt đơn giản và phổ biến

Và bây giờ, Prodima sẽ hướng dẫn cho bạn 3 cách tạo file robots.txt cực kỳ đơn giản trên WordPress:

Cách 1: Sử dụng Yoast SEO

Yoast SEO là plugin quá đỗi quen thuộc với những ai đang sử dụng website WordPress. Công cụ này hướng dẫn cho bạn các cách tối ưu bài viết như thế nào tốt nhất để hỗ trợ cho quá trình làm SEO cũng như nâng cao trải nghiệm người dùng tốt hơn.

Cách tạo file robots.txt trên Yoast SEO cũng rất đơn giản, bạn thực hiện như sau:

Bước 1: Đầu tiên bạn cần cài đặt plugin này => chuyển tới tab SEO => Tool trong dashboard => chọn mục File Editor.

Bước 2: Click vào đường dẫn sẽ đưa bạn sang trang mới, lúc nào bạn có thể chỉnh sửa file .htaccess trực tiếp mà không cần thoát dashboard.

Bước 3: Tìm kiếm nút Create robots.txt file để tạo và chỉnh sửa tệp robots.txt. Nhớ nhấn Save changes to robots.txt để lưu lại dữ liệu mỗi khi bạn muốn thêm rules mới hoặc xóa rules cũ nhé!

  • Lưu ý: Yoast SEO tự động setup giá trị mặc định để bạn có thể ghi đè lên file ảo robots.txt.

Cách 2: Sử dụng bộ plugin All in One SEO Pack

Đây là cách tạo file robots.txt cực kỳ nhanh chóng, đầu tiên bạn truy cập vào giao diện chính của Plugin All in One SEO Pack => chọn All in One SEO => Features Manager => Click Active cho mục robots.txt.

Lúc này, bạn sẽ thấy giao diện xuất hiện một số tính năng thú vị, bao gồm mục robots.txt nằm trong thư mục lớn All in One SEO – tại đây, bạn có thể tạo và chỉnh file robots.txt.

Một điều khác biệt nhỏ, All in One SEO sẽ làm mờ phần thông tin trong tệp robots.txt. Điều này khiến nhiều người cảm thấy khó xử lý khi cần điều chỉnh file.

Nhưng theo hướng tích cực, thì chính yếu tố này giúp bạn giảm thiểu rủi ro xảy ra cho website của mình. Nhất là những Malware bots thường gây ra những thiệt hại nguy hiểm cho trang web mà bạn không ngờ tới.

Robots.txt là gì? 3 Cách tạo Robots.txt đơn giản và nhanh nhất! hình ảnh 3
Tạo file robots.txt bằng plugin All in One SEO Pack

Cách 3. Tạo rồi upload file robots.txt qua FTP

Bước 1: Bạn cần mở Text Editor yêu thích, chẳng hạn như TextEdit hay NotePad.

Bước 2: Gõ vài dòng và lưu lại dưới dạng file là txt. Chỉ mất vài phút để thực hiện các bước này là có thể tạo file robots.txt nhanh chóng trong WordPress rồi.

Bước 3: Sau khi tạo xong, bạn hãy kết nối trang web qua FTP => truy cập thư mục public_html => tải file robots.txt từ máy tính sang tới máy chủ là xong. Phương pháp này khá đơn giản đúng không!

Kiểm tra tệp robots.txt bằng robots.txt Tester

robots.txt Tester cho bạn biết file robots.txt có chặn các bots thu thập dữ liệu một vài URL cụ thể trên website.

Ngoài ra, bạn có thể sử dụng công cụ này để check Googlebot-Image có thể crawl thông tin trên URL của một hình ảnh bạn muốn chặn trên kết quả của Google Hình ảnh hay không.

Cách thực hiện dễ dàng như sau:

Bước 1: Mở Trình kiểm tra robots.txt

Bạn có thể gửi URL đến công cụ .txt tester. Công cụ này hoạt động giống như một trình thu thập dữ liệu file robots.txt và xác minh các URL của bạn được chặn đúng cách.

Bước 2: Kiểm tra tệp robots.txt của bạn

  • Mở công cụ và đọc tất cả bộ mã có trong file robots.txt để biết được chính xác vị trí của những cảnh báo về lỗi logiccú pháp (được tô đậm) – số lượng cảnh báo sẽ hiển thị ngay bên dưới trình chỉnh sửa. robots.txt
  • Nhập URL của một trang page bất kỳ vào hộp văn bản ở cuối trang.
  • Chọn User-agent mà bạn muốn mô phỏng trong list thả xuống ở bên phải hộp văn bản.
  • Click nút TEST để kiểm tra quyền truy cập.
  • Xem nút TEST hiện tại ĐƯỢC CHẤP NHẬN hay BỊ CHẶN để tìm hiểu URL của bạn có bị Googlebot chặn hay không.
  • Sau khi chỉnh sửa tệp trên trang thì nên kiểm tra lại để đảm bảo không bị lỗi. Đồng thời, nên lưu ý những nội dung này không được SAVE vào trang.
  • Sao chép thông tin đã chỉnh sửa vào tệp .txt của robot trên website của bạn Công cụ này không thực hiện thay đổi đối với tệp thực tế mà chỉ kiểm tra bản sao được lưu trữ trong công cụ.
Robots.txt là gì? 3 Cách tạo Robots.txt đơn giản và nhanh nhất! hình ảnh 4
Công cụ robots.txt Tester

Hạn chế của công cụ .txt robot Tester

  • Công cụ chỉ hoạt động với tiền tố URL – không hoạt động với thuộc tính Domain.
  • Các chỉnh sửa của bạn không được lưu tự động vào server. Do đó, bạn cần copy và paste từ trình chỉnh sửa vào file được lưu trữ trên server của bạn.
  • Công cụ .txt Tester chỉ kiểm tra User-agent và các Googlebot.

Lưu ý quan trọng khi tạo file robots.txt

Khi tạo file robots.txt, có những lưu ý quan trọng bạn cần ghi nhớ để tránh phạm sai lầm:

  • Cần đặt các tệp robots.txt vào trong thư mục cao cấp nhất của website thì các trình thu thập dữ liệu mới tìm thấy.
  • Tệp quy định là “robots.txt.”, không sử dụng Robots.txt hay robots.TXT.
  • Không đặt /wp-content/plugins/ hay /wp-content/themes/ vào mục Disallow. Điều này sẽ khiến các công cụ nhìn nhận sai lệch về giao diện website / blog của bạn.
  • Một vài User-agent bất chính sẽ bỏ qua các file robots.txt chuẩn của bạn như: Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email hay Malware robots (bot của các đoạn mã độc hại).
  • Thông thường, các file robots.txt sẽ có sẵn và được công trên website (ai cũng có thể thấy trang bạn muốn). Chỉ cần thêm đuôi “/robots.txt” vào bất kỳ Root Domain nào là bạn có thể xem các chỉ thị của trang web. Do đó, bạn không nên sử dụng file này để ẩn thông tin cá nhân của người dùng.
  • Mỗi Subdomain trên một Root Domain sẽ dùng một tệp robots.txt khác nhau. Chính vì thế, bạn cần tạo các tệp robots.txt riêng cho cả blog.example.com và example.com. Đây cũng là cách tốt nhất giúp bạn tìm được vị trí chính xác của các Sitemap liên kết với Domain ở ở cuối tệp robots.txt.

Các lưu ý cần nhớ khi sử dụng robots.txt

  • Hãy đảm bảo bạn không chặn bất kỳ trang hoặc nội dung vào trên website mà bạn muốn Googlebot tiến hành crawl và index dữ liệu.
  • Những liên kết trên trang bị tệp robots.txt chặn sẽ không được các bots tìm thấy. Trừ khi những link đó có liên kết đến trang khác (không bị chặn). Nếu không, tất cả dữ liệu được liên kết sẽ bị Googlebot bỏ qua.
  • Link Juice không được liên kết từ các trang bị chặn đến trang đích. Để xử lý vấn đề này, thay vì tạo file robots.txt thì bạn nên thực hiện phương pháp khác.
  • Nếu bạn muốn chặn một trang web khỏi SERPs, hã sử dụng tag Noindex hoặc dùng mật khẩu để bảo vệ – Điều mà Prodima đã nhấn mạnh nhiều lần ở trên.
Robots.txt là gì? 3 Cách tạo Robots.txt đơn giản và nhanh nhất! hình ảnh 5
Gắn tag Noindex để ngăn chặn các bots không thu thập dữ liệu trang cụ thể
  • Các User-agent từ một công cụ thường sẽ làm theo một quy tắc nhất định. Do đó, bạn không cần thiết lập lệnh riêng cho từng User-agent. Thông qua đó, bạn có thể điều chỉnh được các lập chỉ mục thông tin / nội dung cho website của mình.
  • Các bots tìm kiếm sẽ tự động lưu dữ liệu file robots.txt WordPress và cập nhật tất cả thông tin trong bộ nhớ cache ít nhất một lần/ngày. Nếu bạn muốn chỉnh sửa và cập nhật tệp nhanh hơn thì nên dùng tính năng gửi của robots.txt Tester.

Robots.txt, Meta robot và X-robot khác nhau như thế nào?

Đầu tiên, robots.txt là một tệp văn bản, Meta robot và X-robot là các Meta Directives. Đồng thời, tính năng của 3 loại Robot này cũng khác nhau hoàn toàn.

  • Meta Robot là các đoạn mã cung cấp trình hướng dẫn cho các bots về quy cách crawl và index dữ liệu website.
  • X-robot được gửi từ server và là một phần của tiêu đề HTTP. Và thẻ này không xuất hiện trong HTML của trang web (là phần <head>).
  • X-Robots giúp ngăn các bots tìm kiếm index các loại tệp cụ thể như hình ảnh, PDF hay các tệp không phải HTML.
  • X-Robots là bất kỳ lệnh được sử dụng cho thẻ meta robots.
  • X-Robots có phép bạn kiểm soát tất cả tệp được index, tính năng này linh hoạt hơn thẻ Meta robots và tệp robots.txt.
  • File robots.txt cho phép các bots index trình thu thập dữ liệu trên thư mục và trang web. Với Meta robot và X-robot chỉ ra lệnh Index ở một vài trang riêng lẻ.

Lời kết

Nếu muốn cải thiện thứ hạng tìm kiếm website trên SERPs, bạn cần chắc chắn các trình thu thập dữ liệu không bị chặn và crawl đúng những thông tin quan trọng nhất. Tạo một file robots.txt chuẩn sẽ tăng tương tác tốt hơn với các công cụ tìm kiếm. Nhờ vậy mà thông tin website sẽ hiển thị đầy đủ và chính xác hơn đến người dùng.

Nếu bạn thích bài viết này, chắc hẳn bạn sẽ thích thú với dịch vụ SEO của chúng tôi. Prodima là đội ngũ chuyên gia về Digital Marketing tại TP. Hồ Chí Minh. Chúng tôi có thể mang đến cho bạn những chiến lược xuất sắc để giúp bạn bứt phá lượng truy cập và tăng doanh thu một cách bền vững. Liên hệ ngay với các chuyên gia của chúng tôi để được tư vấn ngay bây giờ với sự hỗ trợ tận tình 24/7.