Robots.txt và những lưu ý khi sử dụng

Khi học SEO bạn đã từng nghe nhắc đến Robots.txt, vậy Robots.txt là gì ? Tạo và sử dụng file Robots.txt như thế nào? 

Robots.txt là gì ?

- Robots.txt là một file dạng text có đuôi ".txt" có chứa các câu lệnh để cho hay không cho Bot của các công cụ tìm kiếm đánh chỉ mục (index) một thư mục nào đó trong website. Nó là một tập tin văn bản đơn giản (không chứa mã HTML) và được đặt trong thư mục gốc của website.
- Khi các Spider (Bot, Crawler) của các Search Engine vào website để thu nhập dữ liệu thì sẽ vào file Robots.txt để xem các chỉ dẫn trong file này.
- Robots.txt có thể kiểm soát được từng loại Bot khác nhau của các Search Engine khác nhau vào website hoặc từng khu vực của website.

robots.txt va nhung luu y khi su dung
Robots.txt là gì?

Tạo và sử dụng file Robots.txt

Để tạo tập tin Robots.txt hãy mở chương trình Notepad ++, sau đó lưu lại với tên Robots.txt và chép vào thư mục gốc của website.
* 3 lệnh cơ bản của một tập tin Robots.txt:
User-agent: *                  (dùng để xác định Bot của công cụ tìm kiếm)
Allow: /SEO/                 (cho phép Bot vào thư mục trang nào đó)
Disallow: /wp-includes/ (chặn Bot vào thư mục, trang nào đó)

Những cú pháp thông dụng trong file Robots.txt:

  • Chặn tất cả các web vào Bot:
User-agent: *
Disallow: /
Với lệnh trên thì không có công cụ tìm kiếm nào lập chỉ mục (index) website của bạn, có nghĩa là các bài viết trên website của bạn sẽ không xuất hiện trong kết quả tìm kiếm của các công cụ tìm kiếm.
  • Không cho Bot truy cập vào một thư mực, trang nào đó:
User-agent: *
Disallow: /wp-includes/
Disallow: /test.html
Điều này có nghĩa là cho tất cả các loại bot truy cập vào website và trừ thư mục wp-includes và trang test.html không được truy cập.
  • Chặn một Bot nào đó:
User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /wp-includes/
SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục “wp-includes”.

robots.txt va nhung luu y khi su dung
Robots.txt và những lưu ý khi sử dụng
  • Cho phép Bot truy cập vào một thư mục, trang nào đó:
User-agent: *
Allow: /bai-viet/
Allow: /demo.html
Disallow: /wp-includes/
Cho tất cả bot truy cập vào thư mục bai-viet vài trang demo, nhưng không truy cập được thu mục wp-includes.
  • Chặn Bot vào nhiều đường dẫn có cùng cấu trúc:
Ví dụ với 2 hay nhiều đường dẫn như sau:
www.abc.com/geolat10=1235345
www.abc.com/geolat12=1345
.....
Để chặn bot truy cập vào tất các các đường dẫn có dạng này thì làm thế nào? Hãy để ý trong URL có chung phần /geolat là cấu trúc giống nhau của 2 hoặc nhiều URL. Chúng ta sẽ dùng đoạn code sau để chặn. Chặn bot vào nhiều đường dẫn có cùng cấu trúc
Disallow: /geolat*

Những lưu ý khi tạo file Robots.txt

Khi tạo và sử dụng một file robots.txt cho website cần lưu ý các điểm sau:
- Không thay đổi trật tự của các dòng lệnh (User-agent luôn ở trên).
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoảng trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
- Không được để khoảng trắng ở đầu dòng lệnh.

 

TÌM HIỂU THÊM VỀ KHÓA HỌC SEO GIA TĂNG DOANH SỐ


Share This

LỊCH KHAI GIẢNG KHÓA HỌC SEO

ngay khai giang SEO Ngày khai giảng : 28/11/2016
Gio hoc seo Giờ học : 6pm – 10.00pm
hoc seo Thời lượng : 9 buổi (2-4-6)

👉 40 tiết học và thực hành chỉ với 4.800.000 VND (trung bình học phí mỗi tiết chỉ có hơn 100.000 VND )
👉 Chưa hết, nếu bạn có mã giảm giá của Hà bạn còn được giảm thêm 720.000 VND học phí. Bạn sẽ tiết kiệm được rất nhiều tiền

Đăng ký khóa học với mã giảm giá HADGM giảm ngay 720.000 VNĐ
LƯU Ý MÃ GIẢM GIÁ CHỈ CÓ TÁC DỤNG NẾU ĐĂNG KÝ HÔM NAY



  ĐĂNG KÝ KHÓA HỌC NGAY

Tư Vấn Qua Facebook

Nguyễn Ngọc Hà

Phone: 0938.447.082 - Email: ha@dgm.vn