Khả năng tìm kiếm của các spider là rất lơn, chúng có thể lùng xục khắp nơi trên web của bạn. Với bài viết này chúng ta sẻ cũng tìm hiểm cách thức sử dụng file robots.txt để quy định các spider, đặc biệt là googlebot.
Các User Agent của Google
Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ tìm kiếm tương ứng và trong dòng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot thì có nghĩa là bạn chặn tất cả các bọ tìm kiếm với từ khóa “Googlebot”.
- Googlebot
- Đánh chỉ số từ các chỉ mục cũ và mới của Google.
- Googlebot-Mobile
- Đánh chỉ số cho các thiết bị cầm tay hoặc di động.
- Googlebot-Image
- Đánh chỉ số các tệp tin ảnh.
- Mediapartners-Google
- Xuất hiện trong các trang dăng quảng cáo của Google Adsense.
- Adsbot-Google
- Đánh chỉ số các trang được nhà quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ thông qua Google Adwords. Nó cho phép đánh giá chất lượng của trang dùng dịch vụ Adwords.
Chặn Googlebot
Để chặn toàn bộ Googlebot thì bạn thêm cú pháp sau vào file robots loại trừ :
User-agent: Googlebot
Disallow: /
Cho phép Googlebot
Trong trường hợp bạn muốn chặn tất cả các bọ tìm kiếm khác trừ một robot, Googlebot chẳng hạn, thì bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn không muốn trang liên quan biến mất khỏi kết quả tìm kiếm của các máy tìm kiếm như Yahoo, MSN Live hay Ask thì bạn không nên làm như thế.
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
Cho phép mở rộng
Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin robots.txt. Có nhiều máy tìm kiếm không hỗ trợ phần mở rộng này, vì thế bạn nên tham khảo kỹ. Dòng lệnh “Allow” hoạt động cũng giống như “Disallow” chỉ khác là nó liệt kê các thư mục hay trang bạn cho phép đánh chỉ số.
Bạn có thể sử dụng đồng thời “Allow” và “Disallow” cùng nhau. Chẳng hạn để cấm tất cả các trang trong một thư mục “seotips” chẳng hạn, trừ tệp tin “toi-uu-hoa.html”, bạn hãy làm như sau :
User-agent: Googlebot
Disallow: /seotips/
Allow: /seotips/toi-uu-hoa.html
Còn trong trường hợp bạn muốn chặn Googlebot và sau đó lại vẫn muốn cho các bot khác của Google (Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng lệnh Allow như sau :
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow: /
Sử dụng mẫu tổ hợp
Đặc biệt hữu ích trong trường hợp bạn không muốn phải liệt kê tất cả các trang mà bạn muốn chặn. Đây là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ý là các máy tìm kiếm khác chưa chắc đã hỗ trợ tính năng này.
Mẫu tổ hợp chuỗi các ký tự sử dụng dấu sao (*)
Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin, wp-content cho blog WordPress) như sau :
User-agent: Googlebot
Disallow: /wp*/
Để chặn tất cả đường dẫn URL mà chứa ký tự (?) chứa tham biến (trong ngôn ngữ PHP), bạn hãy làm như sau :
User-agent: *
Disallow: /*?
Kiểm tra phần kết của chuỗi ký tự URL bằng $
Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê các URL có phần kết tương ứng. Ví dụ để chặn tất cả các đường dẫn URL kết thúc với pdf (phiên bản pdf trên website để tránh trùng nội dung chẳng hạn) :
User-agent: Googlebot
Disallow: /*.pdf$
Bạn cũng có thể sử dụng tổ hợp kết này với lệnh Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một session ID, bạn có thể loại trừ chúng để tránh cho GoogleBot phải đánh chỉ số một nội dung trùng lặp. Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một phiên bản trang mà bạn muốn thêm vào. Trong trường hợp này, hãy đặt tệp tin robots.txt của bạn như sau :
User-agent: *
Allow: /*?$
Disallow: /*?
Dòng lệnh Disallow:/ *? sẽ chặn tất cả các URL có chứa ký tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắt đầu bằng tên miền, tiếp theo các ký tự, tiếp theo là dấu hỏi ?, tiếp theo bởi bất kể ký tự nào khác)
Dòng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫn nào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URL nào bắt đầu bằng tên miên, theo bởi chuỗi ký tự, theo tiêp bởi dấu hỏi ?, không có ký tự nào nằm sau dấu hỏi này).
seo Việt Nam
- 28/10/2010 13:25 - Cần gì để lọt vào top 100 website của thế giới?
- 28/10/2010 13:24 - Ảnh hưởng của sandbox với những URL mới
- 28/10/2010 13:20 - Chọn tên miền theo từ khóa hay theo thương hiệu
- 28/10/2010 13:18 - 5 điều cần tránh trong SEO
- 28/10/2010 13:14 - 12 yếu tố quan trong nhất ảnh hưởng SEO On page
- 04/10/2010 17:41 - Tăng tốc website phần 6: không sử dụng “404 error”
- 04/10/2010 17:39 - Tăng tốc website phần 7: Tối thiểu hoá số lượng thẻ iframe
- 04/10/2010 17:37 - Đánh giá thành công của một Website
- 28/02/2010 03:15 - Sau đây là danh sách 50 mẹo nhỏ giúp bạn tự cải thiện thứ hạng rank của mình.
- 28/02/2010 03:14 - 9 yếu tố ảnh hưởng thứ hạng, SEO và tính khả dụng
- 28/02/2010 03:12 - Hướng dẫn quảng bá website
- 28/02/2010 03:11 - Trao đổi liên kết là gì?
- 28/02/2010 01:40 - SEO là gì?
- 28/02/2010 01:25 - Robot.txt là gì
- 28/02/2010 01:22 - 6 thủ thuật SEO bất chính khiến website bị cấm
- 28/02/2010 01:19 - Thủ thuật SEO Copywriting
- 27/02/2010 19:17 - Virtuemart SEO 1 : Duplicate, SEF url và Sitemaps
- 27/02/2010 19:16 - Virtuamart SEO 2 : Google Analytics & Meta Tag
- 27/02/2010 19:15 - Thủ thuật SEO - Thay đổi tên miền nhưng không ảnh hưởng đến traffic và ranking
- 27/02/2010 19:11 - Liệu google pagerank có ảnh hưởng đến việc làm SEO ?
- 27/02/2010 19:10 - SEO cho website về khách sạn và du lịch
- 27/02/2010 18:49 - SEO, Marketing & những yêu tố tác động đến giá trị chuyển đổi
- 27/02/2010 18:46 - Canonical - Khắc phục lỗi trùng lặp nội dung trong SEO
- 27/02/2010 18:41 - SEO là nghệ thuật hay khoa học ?
- 27/02/2010 18:40 - Cách phát hiện & xử lý những phần trong website không được google crawl
- 27/02/2010 18:38 - Sức mạnh & Cách sử dụng Anchor Text trong SEO
- 27/02/2010 18:37 - Sự thật đằng sau những lời đồn về công việc SEO
- 27/02/2010 18:35 - Tối ưu hóa keyword cho SEO tốt hơn
- 27/02/2010 18:33 - 7 bước làm tăng tốc độ index webiste của Google
- 27/02/2010 18:28 - Tỷ lệ nhắp chọn CRT & Google Ranking
- 27/02/2010 18:24 - Hướng dẫn làm sitemap cho website
- 27/02/2010 18:23 - Làm thế nào để quảng bá website thành công trên Internet
- 27/02/2010 18:20 - Tối ưu hóa cấu trúc nội liên kết trong website
- 27/02/2010 18:14 - Thủ thuật tối ưu hóa Meta Title
- 25/02/2010 18:43 - Sử dụng web 2.0 để tăng traffic cho website
- 25/02/2010 18:38 - Lấy lại pagerank cho website trên google
- 25/02/2010 18:34 - Tối ưu hóa snippets với meta description
- 25/02/2010 18:31 - Trao đổi liên kết - Reciprocal linking - Interlinking
- 25/02/2010 18:30 - Những sai lầm khi xây dựng liên kết cho Website
- 25/02/2010 18:29 - Giá trị của Link
- 25/02/2010 18:15 - .htaccess và redirect 301
- 25/02/2010 18:14 - 15 thủ thuật xây dựng liên kết cho những Website mới
- 25/02/2010 18:12 - Ảnh hường của liên kết đến kết quả xếp hạng website
- 25/02/2010 18:11 - Cách làm sitemap cho Yahoo
- 25/02/2010 18:08 - Phương pháp đưa website ra khỏi black list của Google
- 25/02/2010 18:07 - Tại sao cần một kế hoạch duy trì làm SEO
- 25/02/2010 18:06 - Tối ưu hóa Blog cho search engine & người đọc
- 25/02/2010 18:05 - Nội dung kép và phương pháp phát hiện mới của Google
- 25/02/2010 18:03 - Suy nghĩ giống Google.....
- 25/02/2010 18:02 - Quảng bá web theo kết quả tìm kiếm hay Adwords?
- 25/02/2010 18:00 - Tăng lượng truy cập cho website
- 25/02/2010 17:07 - Thuật ngữ web traffic
- 25/02/2010 17:06 - Thêm 5 cách tăng lượng truy cập đến trang web
- 25/02/2010 16:58 - 7 bước làm tăng tốc độ index webiste của Google
- 25/02/2010 16:52 - Tăng thứ hạng Alexa cho website
- 25/02/2010 16:49 - Chỉ số thứ hạng Google (Google PageRank)
- 25/02/2010 16:46 - Các thuật ngữ Quảng bá website
Kiến Thức Thiết Kế Web 

