Tạo và sử dụng file robots.txt

Thứ năm, 10/05/2012 - 03:39

Tạo và sử dụng file robots.txt

Dưới đây là hướng dẫn tạo và sử dụng file robots.txt cho website, để các bộ máy tìm kiếm quản lý index nội dung của website bạn

 

robots_txt

 

robots.txt là file văn bản có cấu trúc, khi các spider (bot, crawler) của các SE (Search engine) vào website để thu thập dữ liệu thì sẽ vào file robots.txt để xem các chỉ dẫn trong file này.

robots.txt có thể quy định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không?

Vài loại bot của các SE: Googlebot (Google), Googlebot-Image(Google),  Yandex(SE của Nga), Bingbot(Bing)/Yahoo Slurp(Yahoo)...

Những cú pháp thông dụng trong file robots.txt

User-agent: đối tượng bot được chấp nhận
Disallow/Allow: URL muốn chặn/cho phép

*: Đại diện cho tất cả

Ví dụ: User-agent: * (Có nghĩa là chấp nhận tất cả các loại bot.)

Khóa toàn bộ site
Disallow: /

Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /wp-admin/

Chặn 1 trang
Disallow: /private_file.html

Loại bỏ 1 hình từ  Google Images
User-agent: Googlebot-Image
Disallow: /images/sexy.jpg

Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /

Chặn 1 file hình bất kỳ, ví dụ .gif
User-agent: Googlebot
Disallow: /*.gif$

Những điều cần tránh trong file robots.txt

- Phân biệt chữ hoa chữ thường.

- Không được viết dư, thiếu khoản trắng.

- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.

- Mỗi một câu lệnh nên viết trên 1 dòng.

Cách tạo và vị trí đặt file robots.txt

- Dùng notepad hay bất cứ chương trình nào tạo file, sau đó đổi tên file là robots.txt.

- Đặt ở thư mục gốc của website. (http://igoo.vn/robots.txt)

 

Thanks luuquangvu.net

Bài hướng dẫn cách sử dụng file robots.txt hy vọng đã giúp ích được cho các bạn đọc.

Url Link

5 16

Bình luận (16)

Ảnh cá nhân của item[

Nguyen Hien

3 năm trước

Cho em hỏi, site em hôm qua bị lỗi 500 có nhờ bên kỹ thuật giúp, hôm nay thì vào WM thì thấy thông báo k có file robot.txt cũng như sitemaps k tìm thấy, anh Bình chỉ cho em cách khắc phục được không ạ?
Ảnh cá nhân của item[

sim Viettel nets

3 năm trước

Bên mình kinh doanh sim số đẹp nên rất đau đầu về tình trạng truy vấn nhiều khiến các đơn vị kinh doanh hosting than quá trời mà không biết cách khắc phục.
Ái có cú pháp hoặc đoạn code chặn Bingbot chỉ jùm mình với
Ảnh cá nhân của item[

Đạt MuaChungAloha.vn

3 năm trước

mình đang làm cho site này htt://likeyou.vn , nó bị cái gì đó về robots.txt mà google analytics nó thông báo :
"Sự khác biệt giữa số nhấp chuột và số phiên trên thiết bị di động
URL đích likeyou.vn/vi/searchs?online=... có sự khác biệt về dữ liệu. Tệp robots.txt chặn phân tích sâu hơn."
anh em xem giúp xem vấn đề gì với?

MuaChung

Ảnh cá nhân của item[

Tú Trần

4 năm trước

site của mình được trỏ thẳng đến sub domain của nó dạng: domain.com -> sub.domain.com thì mình nên đặt file robots.txt ở sub domain hay ở domain gốc ạ :)
Thank.

Ảnh cá nhân của item[

Thanh Nghia Truong

4 năm trước

mình mới tập tành seo chưa biết cách tạo 1 file robots.txt ai cho mình 1 demo cụ thể với.hi
Ảnh cá nhân của item[

Lâm khiếu Ngọc

4 năm trước

em thấy bảo nếu để
"Allow : / "
là sai cú pháp, liệu để nguyên có ảnh hưởng gì ko ạ, hay phải xóa đi?
Ảnh cá nhân của item[

Hai Duong Xuat Khau

4 năm trước

Kiểm tra mới biết trang mình chưa có robot.txt, có bài viết này thì tự tin làm rồi !!!
Ảnh cá nhân của item[

Huy Nguyễn Tiến

5 năm trước

Hi giờ mới biết ý nghĩa của file này! Thanks admin nhiều
Ảnh cá nhân của item[

Diễn đàn y tế

5 năm trước

Sử dụng CMS thì thường không cần chỉnh sửa những file robots này phải không admin
E thấy trong đó nó đã Disallow tất cả các forder nhưng k biết có ý nghĩa j
Ảnh cá nhân của item[

mrhoa.573

5 năm trước

Bạn update website kiểu gì thì upload file robots lên kiểu đó mà ta :(

Gửi bình luận của bạn

Đăng nhập hoặc Đăng ký ngay để đăng nhận xét!