Từ khi bắt đầu thiết kế web đến lên nội dung, ý tưởng để viết bài SEO đúng cách, rồi cặm cụi viết bài, đăng bài ... là cả một quá trình dài mà mất nhiều công sức của những người quản trị một website. Nhưng công sức ấy nhiều khi lại không mang lại được kết quả như mong muốn đó là người cần đọc lại không biết đến website của bạn, vì đơn giả là Google không index các bài viết ở website của bạn. Vậy đâu là nguyên nhân, lý do khiến Google không index? Theo kinh nghiệm của mình thì nguyên nhân chính là do thiết kế web của bạn không thân thiện với SEO do đó dù bài viết của bạn có chuẩn SEO đi chăng nữa thì Google vẫn không index bài viết của bạn. Giờ chúng ta cùng đi xem xét xem trang web của bạn có mắc phải 10 lỗi mà mình tổng hợp sau đây không nhé.
Tên miền Website của bạn có cả www và non-www
Đối với khách truy cập thì họ sẽ không quan tâm đến việc một URL của website có www hay không (http:// và http://www) vì cả 2 kiểu URL này đều dẫn đến cùng một trang web. Nhưng nếu bạn là người đang sở hữu một trang web, thì bạn cần phải hiểu rõ hai tên miền này không phải là một. Trong đó, tên miền chứa www là tên miền con của tên miền gốc (Root domain) và điều quan trọng các robot của các bộ máy tìm kiếm (Google, Bing, Yahoo ...) sẽ xem đây là hai trang web độc lập. Vì vậy, bạn hãy cẩn thận quy đổi trang đích của hai tên miền này về làm một trang web, nếu không bạn sẽ gặp vấn đề Duplicate content (Nội dung trùng lặp).
Lỗi Sitemap
Sau khi hoàn thiện website, đăng bài thì thường Google index các bài viết của bạn trong vòng vài ngày, nhưng nếu lâu hơn 1 tuần mà Google vẫn không index thì điều đó có nghĩa là Sitemap của bạn gặp lỗi và do đó robot của Google không thể truy cập vào được để lập chỉ mục. Hãy kiểm tra lại ngay Sitemap của website, nếu chưa có sitemap hãy tạo ngay, sau đó vào Google webmaster tool để submit sitemap của bạn để yêu cầu Googlebot vào thu thập dữ liệu website.
Website đã chặn Googlebot
Tệp tin robots.txt là nguyên nhân chính khiến Googlebot không thể vào website của bạn. Tuy nhiên, đôi khi người phát triển website cần sử dụng các file này để ngăn các robot vào để lập chỉ mục một trang nhất định trong lúc họ cần sửa chữa hay nâng cấp trong trang. Do đó, nhiệm vụ của bạn là hãy dạo một vòng kiểm tra website của mình và xoá những file robot.txt xuất hiện mà không có lý do cụ thể. Sau đó hãy đợi Googlebot vào, điều này cần một vài ngày, nên bạn đừng quá nôn nóng nhé.
Googlebot gặp vấn đề khi thu thập dữ liệu
Thỉnh thoảng thiết kế web của bạn chưa được index là do lỗi của Googlebot. Bạn có thể thấy điều này bằng việc quan sát thấy trang chủ đã hoặc đang được index nhưng các trang thì không. Việc bạn cần làm là truy cập vào trang Google Webmaster Tools để kiểm tra danh sách những trang web nào của bạn đang gặp vấn đề index. Đa phần những lỗi Google không index được đều là do các file robot.txt (như đã đề cập ở trên), nhưng cũng có thể là do lỗi của DNS hoặc máy chủ. Nhưng tất cả các lỗi này đều có thể khắc phục dễ dàng trong mọi trường hợp.
Website có nội dung trùng lặp
Trùng lặp nội dung là một lỗi nguy hiểm bạn cần phải tránh nếu muốn được xuất hiện trên các trang kết quả tìm kiếm của Google. Nếu Googlebot vào website của bạn và phát hiện có sự trùng lặp nội dung sẽ khiến trình thu thập thông tin của chúng bị lẫn lộn và chúng sẽ lập tức ngừng việc lập chỉ mục cả website của bạn. Do đó bạn cần xoá ngay những nội dung bị duplicate, hoặc không bạn có thể sử dụng các file robot.txt để chặn Googlebot vào những trang này hoặc dùng lệnh 301 Redirectđể hướng chúng qua trang khác.
Website gặp vấn đề tải trang
Tốc độ tải trang chậm sẽ khiến website của bạn mất cơ hội được Google index. Bạn có thể cải thiện tình trạng này bằng cách bật bộ nhớ đệm, thay đổi kích thước các hình ảnh nếu như chúng hiện quá lớn hoặc cài đặc một số ứng dụng để tăng tốc độ load cho thiết kế web của bạn. Ngoài ra bạn cũng nên xem lại hosting của mình, vì có khả năng hosting cho website của bạn không đáng tin cậy, khiến website không thể hoạt động trơn tru, làm gián đoạn việc lập chỉ mục của Googlebot.
Ngôn ngữ thiết kế website chưa tối ưu
HTML, Javascript và AJAX thường là những ngôn ngữ được sử dụng phổ biến để thiết kế website. Trong đó, HTML được đánh giá là ngôn ngữ dễ dàng được Google index nhanh nhất. Đối với Javascript và AJAX, mặc dù cả hai ngôn ngữ này được Google hỗ trợ nhưng thời gian Googlebot index lại lâu hơn. Nếu website của bạn được xây dựng bằng ngôn ngữ Javascript hay AJAX mà cấu trúc website chưa được thiết kế đúng, Googlebot sẽ tạm hoãn index website của bạn.
Googlebot bị chặn bởi htaccess hoặc một số cài đặt quyền riêng tư
Nếu website bạn được xây dựng bằng Wordpress, rất có khả năng bạn đã vô tình bật một vài cài đặt quyền riêng tư. Hoặc bạn đã có thể bật htaccess trên máy chủ. Mặc dù các file này sẽ có ích trong phần lớn trường hợp, nhưng đôi khi có thể gây cản trở quá trình lập chỉ mục.
Gắn tag Noindex hoặc Nofollow
Trong thẻ meta, website vô tình bị gắn tag Noindex hoặc Nofollow. Giống như file robot.txt, hai khái niệm này được sử dụng để che giấu website bạn khỏi Googlebot. Vậy bạn hãy kiểm tra trong code website xem các trang của bạn có bị gắn thẻ Noindex hay Nofollow không, hãy thay đổi hoặc xoá chúng đi nếu bạn muốn được Googlebot vào index những trang ấy.
Website của bạn bị phạt bởi các thuật toán của Google
Khi Google xử phạt các trang web, công cụ tìm kiếm này có thể làm giảm thứ hạng website trên trang kết quả, từ đó khả năng hiển thị và lượng traffic vào website cũng sẽ sụt giảm theo. Tuy nhiên, ít khi nào Google loại bỏ một thiết kế website khi đã index chúng, trừ phi bạn phạm một sai lầm rất lớn, do đó bạn không cần phải lo lắng về vấn đề này. Khi website bạn được lập chỉ mục, bạn sẽ sớm tìm thấy chúng trên Google. Nhưng nếu website bạn ở thứ hạng thấp thì có thể thấy website của bạn vẫn còn mới, tuổi domain còn thấp hoặc cũng có thể website của bạn đã bị phạt. Cho dù là lỗi gì đi nữa, bạn cần phải duy trì thực hiện SEO websitetốt trong một thời gian dài thì bạn sẽ có thể khắc phục toàn bộ những lỗi này.
Hy vọng qua 10 lý do mà mình vừa trình bày trên đây sẽ giúp bạn hiểu lý do vì sao một số website chưa được Google index và những cách thức để khắc phục những lỗi ấy.