Mẫu file robots.txt chuẩn cho website WordPress

File robots.txt chuan cho website WordPress

File robots.txt chuẩn cho website WordPress – ảnh minh họa

Để website của bạn xuất hiện trên trang kết quả tìm kiếm Google thì nó cần cho bot tìm kiếm đi vào bên trong và thu thập dữ liệu.

Một trong những việc mà webmaster (dùng WordPress) cực kỳ chú trọng, đó là cấu hình file robots.txt này cho chuẩn, để hiệu quả thu thập dữ liệu là tốt nhất.

Không những thế, việc cấu hình file này tốt sẽ giúp bạn giảm bớt sự phá hoại về SEO từ đối thủ. Bài này mình chia sẻ đến bạn Mẫu file robots.txt chuẩn cho website WordPress để áp dụng vào site đang làm nhé !

File robots.txt là gì ?

File robots.txt đơn giản là một file text thông thường, nó có nhiệm vụ khai báo cho Bots Google về những trang nào được thu thập dữ liệu, trang nào thì không.

Mặc định bots Google sẽ quét site của bạn kể cả khi bạn không có tùy chỉnh file robots.txt. Nhưng sẽ không đạt hiểu quả cao, do bots sẽ thu thập toàn bộ nội dung của bạn, có những thứ không cần phải index như plugin đang dùng, các thư viện nội dung bạn không muốn hiển thị trên kết quả tìm kiếm.

Nơi lưu file robots.txt trên WordPress

Khi bạn tạo website WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của hosting/server (thư mục public_html trên hosting cPanel).

Ví dụ: nếu site của bạn đặt trong thư mục gốc của địa chỉ Hocban.vn, bạn có thể xem file robots.txt ở đường dẫn Hocban.vn/robots.txt, kết quả thông thường sẽ như này, tuy nhiên có lúc mình sẽ sửa đổi lại cho phù hợp với hoàn cảnh, thời điểm:

User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /search/?q=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://hocban.vn/sitemap_index.xml

Còn nếu bạn dùng Yoast SEO thì không cần phải vào host để tìm nó, mà theo trình tự: Yoast SEO >> Tools >>  File editor >> Robots.txt | Nó hiển thị ngay đầu tiên luôn, bạn có thể sửa trực tiếp ngay trong đó và lưu lại.

Mình khuyến khích bạn sửa lại thay vì tạo mới file robots.txt | vì tạo lại nó cũng vậy thôi mà, quan trọng là nội dung bên trong, hay người ta còn gọi là cấu hình hay tùy chỉnh file robots.txt

Mẫu file robots.txt chuẩn cho WordPress

Như ở trên bạn đã thấy mẫu robots.txt của Hocban.vn đang sử dụng rồi đấy, mẫu này mình cũng tham khảo ở rất nhiều nơi và quyết định sử dụng nó, bạn cũng có thể lấy nó về và chỉnh sửa lại tên miền cũng như thêm những nội dung cần chặn nếu có.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /search/?q=*
Disallow: /s/
Disallow: /?s=
Disallow: *?replytocom
Disallow: */attachment/*
Disallow: /refer/
Disallow: /wp-login.php*
Disallow: /component/*

Allow: /*.js$
Allow: /*.css$
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://hocban.vn/sitemap_index.xml

Trong đó:

  • Disallow: là khai báo những trang / đường dẫn chặn thu thập dữ liệu;
  • Allow: khai báo những trang / đường dẫn cho phép thu thập dữ liệu;

Nói về chuẩn SEO hay chưa thì cũng chưa chắc mẫu trên là nhất, tùy từng website mà mình tùy chỉnh lại cho phù hợp. Mẫu trên dùng cho blog WordPress mình thấy NGON, bạn có thể dùng thử một thời gian để xem thành quả.

Điểm quan trọng là mẫu này sẽ giúp bạn tránh được việc lợi dụng khung tìm kiếm của WordPress để tạo ra các link bẩn nội bộ, gây ảnh hưởng đến vấn đề SEO của website. Ví dụ: Các bên muốn phá hoại website của bạn về mặt SEO thì chỉ cần nhập nhiều truy vấn tìm kiếm “tầm bậy” và nếu bạn không chặn thì site bạn sẽ bị Google đánh giá xấu và rớt tóp tìm kiếm sau đó.

Xác nhận đã thay đổi nội dung file robots.txt với Google search console

Việc này rất quan trọng vì nếu sau khi bạn sửa lại file robots.txt nhưng không báo lại trong Google search console thì cũng chẳng có tác dụng gì. Do đó bạn phải thực hiện thêm bước này nữa, đây là cách thực hiện:

Bước 1: Copy toàn bộ nội dung trong file robots.txt sau khi đã chỉnh sửa >> mở Trình kiểm tra robots.txt của Google search console lên và dán đè nội dung đã copy vào đó.

Bước 2: Nhìn xuống dưới bạn thấy nút Gửi, nhấn vào đó >> nhấn tiếp Yêu cầu Google cập nhật là xong.

Nhan vao yeu cau cap nhat file robots.txt de hoan tat

Nhấn vào yêu cầu cập nhật file robots.txt để hoàn tất

Như vậy là bây giờ file robots.txt trên host và trên Google search console đã thống nhất với nhau rồi đấy, rất đơn giản đúng không nào. Bài viết này mình chia sẻ dựa trên cách ứng dụng của mình để cho nhanh gọn hơn thôi chứ nó không phải là cách làm duy nhất. Bạn nào có những cách tùy chỉnh Robots TXT cho nó chuẩn hơn nữa hoặc bạn đang sử dụng file đó như thế nào, mời để lại bình luận bên dưới, cảm ơn bạn !

guest
2 Comments
Inline Feedbacks
View all comments
Món Ngon Mỗi Ngày <span style="color: #2196f3;">(</span><span class="wpdiscuz-comment-count">1</span><span style="color: #2196f3;">) </span>
Guest

Mình thấy hiện nay nhiều Plugin hỗ trợ SEO rất tốt. Trong đó họ đã tối ưu robot.txt, sitema.xml,…