Bạn vẫn đang gặp khó khăn với SEO?
Chắc chắn SEO vẫn là thứ làm bạn mất nhiều công sức và thời gian.
Nhưng có những kỹ thuật đơn giản không tốn thời gian mà bạn có thể áp dụng ngay được.
Tạo file robots.txt tối ưu SEO là một trong những kỹ thuật như vậy.
Bạn không biết về file robots.txt?
Không ngạc nhiên vì đây là chỉ là file text nhỏ và mọi người thường không để ý đến nó.
Nhưng nếu bạn hiểu về file robots.txt, bạn có thể tận dụng sức mạnh của file này để cải thiện SEO cho website.
Bạn không có kiến thức kỹ thuật?
Không cần phải quá lo lắng?
Làm việc file robots.txt cũng không quá phức tạp. Chỉ cần biết vài dòng lệnh cơ bản là bạn đã có file robots.txt tối ưu rồi.
Mình sẽ chỉ cho bạn cách chính xác để tạo và thay đổi file robots.txt mà bộ máy tìm kiếm sẽ yêu thích.
Đọc thêm: Học SEO cho người mới: tổng hợp kiến thức căn bản nhất
File robots.txt là gì? Và Cách sử dụng file robots.txt tối ưu cho SEO?
Đầu tiên chúng ta cùng xem file robots.txt là gì?
File robots.txt là một file text có tác dụng báo cho web robot (con bọ của bộ máy tìm kiếm) biết trang nào cần quét (crawl) và trang nào không cần quét trên website của bạn.
Về cơ bản:
Khi bộ máy tìm kiếm truy cập website của bạn để quét và đánh chỉ mục, nó sẽ kiểm tra file robots.txt đầu tiên.
File này sẽ cho bộ máy tìm kiếm biết cách quét và đánh chỉ mục website của bạn.
Đây là ví dụ một file robots.txt
Ý nghĩa file này như sau:
Dấu * sau User-agent có nghĩa là file robots.txt này sẽ áp dụng với tất cả web robot ghé thăm website.
Nét gạch chéo sau disallow bảo robot không ghé thăm bất cứ trang nào trên website.
Dĩ nhiên đây chỉ là ví dụ để cho bạn hình dung file robots.txt là như thế nào.
Khi tạo website bạn muốn robot của bộ máy tìm kiếm ghé thăm trang web do vậy website website có xếp hạng tốt.
Đây cũng là mục tiêu mà chúng ta cần tối ưu file robots.txt sao cho bộ máy tìm kiếm quét trang của bạn hợp lý nhất.
Bạn cần biết rằng:
Website của bạn có rất nhiều trang. Do vậy bộ máy tìm kiếm có thể mất nhiều thời gian để quét trang.
Điều này có thể tác động xấu tới xếp hạng của bạn.
Vì sao?
Bởi bộ máy tìm kiếm Google có một khái niệm bạn cần biết. Đó là:
Ngân sách dò (crawl budget).
Ngân sách dò của Google bao gồm 2 thứ.
Đầu tiên đó là giới hạn tốc độ quét (crawl rate limit) như Google giải thích bên dưới:
Thứ hai là nhu cầu quét (crawl demand) như giải thích bên dưới:
Nói đơn giản ngân sách dò chính là số lượng URL mà Google bot có thể và muốn quét trên trang của bạn.
Hiểu được điều này có tác dụng quan trọng.
Bạn sẽ biết cách giúp cho Googel có thể sử dụng ngân sách quét một cách không ngoan.
Nói dễ hiểu:
Bạn nên để Google quét những trang có giá trị. Những trang bạn muốn có thứ hạng tốt.
Còn những trang không quan trọng tốt nhất bạn nên khóa lại.
Như vậy Google không còn mất thời gian để quét chúng.
Thực tế bạn cần biết một vài yếu tố tác động xấu đến ngân sách quét như bên dưới:
Chốt lại:
Chúng ta sẽ tối ưu file robots.txt để cho Google có thể quét và đánh chỉ mục trang của bạn một cách dễ dàng và thuận lợi. Do vậy website của bạn có thể cải thiện xếp hạng.
Cách tìm file robots.txt trên website của bạn
File robots.txt là file public do vậy bạn có thể dễ dàng kiểm tra file này trên bất kỳ website nào.
Đơn giản bạn chỉ cần thêm vào /robots.txt vào phần cuối.
Một mẹo hay: bạn có thể vào trang web lớn trong niche của bạn và nghiên cứu file robots để học tập theo.
Có vài một tình huống xảy ra khi kiểm tra file robots.txt của một website:
Bạn sẽ tìm thấy file robots.txt như bên dưới:
Bạn sẽ tìm thấy một file trống
Bạn sẽ gặp phải lỗi 404.
Nếu bạn nhìn thấy file trống hoặc lỗi 404 bạn cần phải bắt tay vào sửa ngay.
Về cách tạo và chỉnh sửa file robots.txt. Bạn có 3 lựa chọn:
Bạn có thể tạo file robots.txt trên máy của bạn sử dụng một trình text editor đơn giản như Notepad hoặc Notepad++.
Nhớ đừng dùng Word để tạo file này vì phần mềm này sẽ chèn những ký tự không mong muốn.
Cách thứ hai bạn sử dụng File Manager để tạo và chỉnh sửa file này ngay trên host.
Và cách cuối cũng là cách mình đề xuất: bạn sử dụng công cụ tạo file robots.txt của Google Search Console.
Mình sẽ nói rõ cách tạo file robots.txt ở phần bên dưới.
Nhưng bây giờ mình muốn nói thêm cách tìm file robots.txt khi bạn kiểm tra thấy có một file bằng việc gắn /robots.txt.
Đi tới thư mục gốc của website sử dụng FTP hoặc File Manager.
Đối với website WordPress, có lẽ bạn sẽ không tìm thấy một file robots.txt mặc dù kiểm tra bước trên cho ra một file hợp lệ.
Điều này bởi vì WordPRess đã tạo ra một file robots.txt ảo.
Trong tình huống này bạn cần tạo mới robots.txt trong thư mục gốc.
Tạo file robots.txt
Như mình đã nói bạn sử dụng công cụ tạo file robots.txt trong Google Search Console.
Truy cập Google Search Console. Click vào website bạn muốn tạo file robots.txt.
Đi tới Crawl -> robots.txt Tester.
Bạn nhập vào nội dung file robots.txt. Sau đó bạn click vào nút Submit.
Lúc này bạn sẽ nhìn thấy một popup hướng dẫn thêm:
Bạn sẽ tải file robots.txt bạn vừa tạo. Sau đó upload lên thư mục gốc của website.
Tiếp theo click vào View uploadd version để đảm bảo file robots.txt đã chuẩn.
Sau đó bạn click vào nút Submit để thông báo cho Google.
Như vậy bạn đã hình dung được cách tạo file robots.txt cho website
Còn bây giờ bạn đang thắc mắc bạn cần nhập gì trong file robots.txt?
Mình sẽ hướng dẫn bạn tạo một file robots.txt đơn giản.
Trước khi bắt tay vào tạo file bạn cần tham khảo một chút cú pháp từ Google.
Đầu tiên bạn muốn bổ sung dấu * sau user-agent như thế này:
Tiếp theo, nhập vào Disallow: nhưng không đánh gì đằng sau như thế này:
Đây chính là file robots.txt cơ bản với ý nghĩa bảo bộ máy tìm kiếm truy cập tất cả các trang trong website của bạn
Chúng ta cần tối ưu file này cho SEO.
Như đã nói ở phần ngân sách quét, bạn cần thông báo cho bộ máy tìm kiếm không nên quét những khu vực của website mà bạn không muốn public.
Ví dụ đây là file robots.txt mặc định mà WordPress tạo ra khi bạn cài đặt WordPress
File này sẽ bảo với bộ máy tìm kiếm không quét phần wp-admin. Riêng file admin-ajax thì vẫn quét như bình thường. Lý do vì sao file này cần phải quét, bạn tham khảo ở đây.
Từ đây bạn có thể chủ động sử dụng dòng lệnh tương tự để ngăn không cho bộ máy tìm kiếm quét một số trang cụ thể.
Bạn chỉ cần bổ sung dòng disallow giống như trang file robots ở trang này.
Giả sử bạn không muốn con bọ quét trang http://yourdomainname.com/page/ , bạn có thể bổ sung dòng lệnh như bên dưới.
Cái quan trọng:
Bạn cần xác định những trang nào bạn cần ngăn bộ máy tìm kiếm ghé thăm.
Đây một là một vài gợi ý:
Nội dung trùng lặp. Có lẽ bạn cũng biết nội dung trùng lặp không tốt cho SEO. Nhưng vì lý do nào đó bạn có nội dung trùng lặp, bạn có thể bảo bộ máy tìm không quét những trang như vậy.
Trang cảm ơn. Một và nhà tiếp thị có xây dựng trang cảm ơn ở đó có thể chứa link ebook sau khi khách ghé thăm đăng ký email.
Nếu bạn cũng có trang như vậy, có lẽ bạn không muốn nó được đánh chỉ mục. Bởi vì trang này chỉ dành cho những người tham gia email list của bạn đúng không?
Có một điểm bạn cần biết:
Sử dụng dòng lệnh disallow không đồng nghĩa ngăn trang nào đó được đánh chỉ mục.
Về mặt lý thuyết bạn có thể disallow một trang, nhưng nó vẫn có thể được đánh chỉ mục.
Đó là lúc bạn cần lệnh noindex. Bạn sử dụng lệnh noindex cùng với disallow để chắc chắn bộ máy tìm kiếm không ghé thăm và đánh chỉ mục trang bạn không mong muốn.
Đây là ví dụ của disallow và noindex trang thankyou:
Một chỉ lệnh nữa bạn cần biết đó là nofollow. Chỉ lệnh này bảo với bot rằng nó không cần quét link trên trang.
Chỉ lệnh này bạn không dùng trong file robots.txt mà đặt nó trong thẻ meta như thế này:
Tất nhiên bạn không cần động tay vào code.
Nếu bạn đang sử dụng plugin Yoast SEO, bạn có thể hướng dẫn robot không đánh chỉ mục và quét link trên trang ở phần cấu hình nâng cao của bài viết.
Kiểm tra lại file robots.txt sau khi tạo
Ngay sau khi bạn đã tạo và tối ưu xong file robots.txt, bạn cần chắn chắn file hợp lệ.
Vậy bằng cách nào?
Bạn lại tiếp tục sử dụng công cụ robots.txt miễn phí như trong Googe Search Console.
Nếu bạn đã sử dụng công cụ tạo file robots.txt của Google Search Console, có lẽ bạn không cần kiểm tra thêm.
Còn đây là cách kiểm tra lại file robots.txt bạn vừa tạo cho website của mình.
Ở trong trang quản trị của Google Search Console, đi tới Crawl -> robots.txt Tester
Nhập vào đường dẫn URL và click vào nút Test.
Nếu nút Test chuyển thành Allowed, điều đó nghĩa là file robots.txt của bạn hợp lệ.
Bạn có thể đọc thêm về công cụ này ở đây.
Lời kết
Tạo và tối ưu file robots.txt không phải là nhiệm vụ quá phức tạp.
Nhưng nó lại đem lại cho bạn giá trị lớn về SEO.
Một file robots.txt tối ưu sẽ giúp bộ máy tìm kiếm sử dụng ngân sách quét hợp lý.
Kết quả là:
Bộ máy tìm kiếm sẽ hiển thị nội dung của bạn trong kết quả tìm kiếm (SERP) tốt nhất. Đồng nghĩa với người dùng dễ tìm thấy website của bạn.
Nếu bạn chưa tạo một file robots.txt hoặc file của bạn chưa tối ưu, mình đề nghị bạn nên thực hiện việc đó như hướng dẫn trong bài.
Mình rất muốn biết kiến thức của bạn về file robots.txt ở phần bình luận bên dưới.
Yêu thích viết blog.