Tạo file Robots txt trên Blogspot


Robot.txt là một file cài đặt trong thư mục gốc để hướng dẫn cho các công cụ tìm kiếm được phép lấy phần thông tin dữ liệu nào ở bên trong webisite phần nào không được phép lấy.


Ý nghĩa các dòng lệnh nhỏ trong robots.txt

User-agent: Tên loại bot ví dụ: Googlebot, Bingbot,…
Allow: (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Disallow: Không cho phép
Sitemap: Đường dẫn sơ đồ của trang web.
Ghi chú: Dấu * thay cho chuỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có một cái tên như googlebot, bingbot, coccocbot… nếu muốn chặn một loại bot cụ thể chúng ta sẽ khai báo tên cụ thể của loại bot đó.

Việc tùy chỉnh file robots.txt giúp cho việc đưa những thông tin tốt chất lượng có chọn lọc giúp cho website uy tín hơn theo mục tiêu tình huống và giai đoạn phát triển website của bạn.

1. Chặn các liên kết đối thủ có thể tạo ra để chơi xấu bạn

Cú pháp:mặc định của robots.txt blogspot đã có sẵn khi bạn chưa tiến hành chỉnh sửa.

User-agent: *
Disallow: /search

2. Bạn có thể tạm thời chặn index toàn bộ website trong giai đoạn xây dựng còn giang dở tránh google update những thông tin chưa chuẩn ảnh hưởng đến hình ảnh doanh nghiệp

User-agent: *
Disallow: /

3. Bạn có thể chặn những những thư mục hay bài viết kém chất lượng do đi copy về kéo view

User-agent: *
Disallow: /phim

Ý nghĩa: chặn toàn bộ những bài viết nào có chứa từ phim sau dấu / 

4. Sử dụng để chặn các công cụ thu thập liên kết như AHREFS

User-agent: AhrefsBot Disallow: /

5. Sử dụng khi giấu đường link dowload có trả phí mà bạn không muốn google index công bố rộng rãi giả sử tôi cần giấu file pdf

User-agent: *
Disallow: *.pdf

Thực hiện tùy chỉnh robots.txt tối ưu chuẩn seo cho Blogspot

Các bạn vào Cài đặt -> Tùy chọn tìm kiếm -> Robots.txt tùy chỉnh -> chọn chỉnh sửa . Bạn coppy đoạn bên dưới vào

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=8
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://ketnoi89.blogspot.com/posts/default?orderby=UPDATED
Sitemap: https://ketnoi89.blogspot.com/sitemap.xml
Sitemap: https://ketnoi89.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500

Giải thích về chi tiết

User-agent: Mediapartners-Google
Disallow: //Mình chặn index các trang đối tác của Google (Google Adsense)
User-agent: * //Khai báo cho tất cả bộ máy tìm kiếm (SE)
Allow: / - Tức là cho phép bots có thể index nội dung trên trang web.
Allow: / >> Cho phép đọc trang domain.com/ (Khác với domain.com không có / phía sau .com) 
Disallow: /search* >> Chặn trang tìm kiếm 
Allow: /search  >> Cho phép đọc trang bài viết mới 
Disallow: *archive.html  >> Chặn index trang lưu trữ (ở đây tôi bỏ dòng này và vẫn index lưu trữ)
Disallow: *?m=0  >> chặn index trang có giá trị domain.com?m=0 
Allow: /search/label/   >> Cho phép index trang nhãn 
Allow: *max-results=10 >> Cho phép Index trang nhãn có max-results=10 (vì mình muốn như thế) 
Dành cho các site không index các trang *max-results=* Disallow: 
*max-results=*  >> Chặn index đuôi max-results=10, max-results=20, max-results=xxx.  Thường dùng cho code phân trang.
Disallow: *max-results=* - Chặn không cho bots index đường dẫn chứa cụm từ max-results=, đây là đường dẫn sinh ra khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
Disallow: *archive.html  - Chặn không có bots index các trang lưu trữ, tác dụng mấy trang này không nhiều mà lại làm xấu sitemap của Blogspot.
Disallow: *?m=0 – Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
2 mục sitemap – Khai báo sitemap cho bots crawl toàn bộ trang web, 2 sitemap ở trên đều được tạo ra từ RSS Feedburner. Vì vậy, để sử dụng được nó, các bạn nhớ tham khảo bài viết tạo RSS/Feedburner này nhé. Nhớ thay đường dẫn lại cho đúng blog của bạn nhé.

RIÊNG ĐỐI VỚI BLOGGER SỬ DỤNG NGUỒN CẤP DỮ LIỆU QUA ATOM VÀ MỖI LẦN CẤP LÀ TỐI ĐA 500 BÀI NÊN TA MỚI KHAI BÁO THÊM NHƯ SAU:

Sitemap: https://ketnoi89.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: https://ketnoi89.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500
Sitemap: https://ketnoi89.blogspot.com/atom.xml?redirect=false&start-index=1001&max-results=500
Sitemap: https://ketnoi89.blogspot.com/atom.xml?redirect=false&start-index=1501&max-results=500


Mẫu robots.txt của một số trang blog xem cách họ đặt 

Đôi khi các blog lớn họ cũng dùng những sitemap mặc định mà không cần tùy chỉnh

User-agent: Mediapartners-Google
Disallow: User-agent: *
Disallow: /search
Allow: / Sitemap: https://www.goicongay.xyz/sitemap.xml


Các blog tùy chỉnh cho SEO label

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search?updated-min=*
Disallow: /search?updated-max=*
Disallow: /search/label/*?max-results=*
Disallow: /search/label/*?updated-min=*
Disallow: /search/label/*?updated-max=*
Disallow: *archive.html
Allow: /
Sitemap: https://marketinglagiwiki.blogspot.com/feeds/posts/default?orderby=UPDATED

Hành trình Seo Top

User-agent: Mediapartners-Google
Disallow: /
User-agent: *
Allow: /
Allow: /search
Disallow: /*?updated-max=*
Disallow: /*&max-results=*
Disallow: /*archive.html
Sitemap: https://marketinglagiwiki.blogspot.com/feeds/posts/default?orderby=UPDATED


Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh

Bạn vào Cài đặt -> Tùy chọn tìm kiếm -> thẻ tiêu đề robot tùy chỉnh -> chọn có


Bạn tích vào các vị trí như trên rồi lưu thay đổi

Ý nghĩa của tag trên:

all - Cho phép công cụ tìm kiếm lập chỉ mục.
noindex - Không hiển thị trang này trong kết quả tìm kiếm.
nofollow - Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
none - Tương tự như nonidex và nofollow.
noarchive - Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
nosnippet - Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.
noodp - Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này.
notranslate - Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
noimageindex - Không lập chỉ mục cho hình ảnh trên trang này.
unavailable_after - Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.

Lời khuyên:
Bạn để nguyên không đụng gì đến nó cũng rất tốt và đỡ tốn thời gian trừ khi có một kế hoạch rất dài hạn hãy đào sâu rồi lựa chọn





Đánh giá bài viết

Cảm ơn bạn đã đọc bài viết!

  • Mọi thắc mắc, gợi ý hoặc Báo link hỏng xin chia sẻ bên dưới hoặc Gửi Tin Nhắn
  • Không chèn liên kết quảng cáo, spam khi đăng nhận xét.
  • Không sử dụng những từ ngữ thô tục, vi phạm thuần phong mỹ tục.

Bình luận bài viết này!