Bài viết này phần lớn tôi lấy ý từ bài viết của Vanessa Fox trên SearchEngineLand.com mới đây, thực tế thì như tôi đã nói quá trình Google thu thập dữ liệu đối với những người rành về lập trình web sẽ không quá khó để hình dung. Tôi cũng có thể mô tả quá trình này, nhưng mượn những ý của người khác đã trình bày cho nhanh và thêm thắt những kiến thức riêng của mình hay viết lại cho các bạn dễ hiểu hơn.
Nếu các bạn có vốn tiếng Anh khá, các bạn có thể đọc thêm bài viết của Vanessa Fox có mô tả về quá trình này trên Search Engine Land có tiêu đề là Fetch, Googlebot! Google’s New Way To Submit URLs & Updated Pages. Và dưới đây sẽ là phần dịch và biên soạn lại của tôi, sở dĩ tôi viết bài này một phần cũng vì hôm qua đi offline bên diễn đàn diendan.seo.edu.vn cũng có người hỏi về vấn đề tương tự này.
Google Crawl và Index trang web của bạn như thế nào?
Việc biết được quá trình Google Crawl và Index trang web của bạn cũng là điều khá quan trọng để giúp cho website của bạn được thu thập thông tin đầy đủ hơn.
Google thu thập dữ liệu của bạn bằng những công cụ của họ, hay một chương trình chạy trên máy tính được gọi là Googlebot. Những con bot này sẽ chạy vào web của bạn và đi từ trang này đến trang khác thông qua các đường link đến các URL (đường dẫn đến một tài liệu HTML). Những dữ liệu cho từng trang web (each web page) được Google thu thập bắt đầu từ những URL. Đầu tiên chúng thu thập danh sách gồm rất nhiều URL cần thu thập, và sau đó sắp xếp thứ tự ưu tiên rồi thu thập theo tuần tự dựa trên nhiều tiêu chí như: Giá trị của trang web, PageRank của trang, mức độ cập nhật thường xuyên của trang đó và những nội dung quan trọng mà trang đó thường cung cấp...
Sau khi thông tin về trang web được thu thập, từ thuật toán của mình, Google sẽ đưa những thông tin thu thập được vào một nơi nào đó theo một quy tắc chỉ mục được gọi là quá trình Index nhằm giúp cho việc truy xuất kết quả tìm kiếm một cách nhanh chóng hơn.
Ngoài ra, một điều nữa bạn cần biết là Google sẽ không crawl hay index tất cả các trang mà chúng biết đến bởi vì Googlebot có một lượng công việc rất lớn phải làm hàng ngày với hàng tỉ website. Riêng về vấn đề làm sao để Google index cho website của bạn tốt hơn chắc có lẽ tôi phải nói ở một chủ đề khác, nhưng việc tìm hiểu được cách Google crawl và index website của bạn cũng đủ để bạn có thể tự tìm hiểu tiếp làm thế nào để Google có thể crawl và index website của bạn tốt hơn.
Google tìm kiếm các trang web để crawl như thế nào?
Bạn cần biết một điều rằng Google không thể thực hiện quá trình crawl và index nếu như Google không biết đến những trang đó. Dưới đây là một số cách Google mà Google tìm đến website của bạn.
Khám phá (Discovery)
Google có rất nhiều cách để phát hiện ra website của bạn. Lúc ban đầu, sau khi khám phá ra các trang web của bạn Google vẫn chưa thể index được ngay sau một quá trình xử lý toàn diện bằng thuật toán của mình. Đây cũng là lý do mà nếu bạn muốn website của mình có thứ hạng cao trên Google thì cần phải thỏa mãn rất nhiều tiêu chí của thuật toán Google nhằm được đặt trong khu vực Index tốt hơn. Nói đến đây chắc bạn cũng hình dung ra được phần nào thuật toán sắp xếp của Google và vì sao khi bạn tìm kiếm trên Google kết quả xuất hiện rất nhanh từ hàng tỉ website trên thế giới.
Thực chất, việc Google khám phá ra những URL của bạn để crawl cũng dựa những đường dẫn liên kết (link), bao gồm của liên kết ngoại từ bên ngoài lẫn liên kết nội từ bên trong. Ngoài ra, Google còn biết đến những URL của bạn thông qua RSS trong chính trang của bạn.
Theo kinh nghiệm riêng của cá nhân tôi thì dựa vào hình thức khám phá này, sau khi tạo ra một nội dung nào đó trên web của mình. Cách nhanh nhất để Google biết đến website của bạn là để cho Google thấy được URL của bạn từ một trang web nào đó mà Google hay vào. Với cách này tôi thấy hiệu quả hơn nhiều so với những cách khác như submit URL hay bằng các sitemap. Tất nhiên là khi website của bạn có độ tin cậy nào đó thì Googlebot sẽ thường xuyên nằm vùng trong website của bạn và bạn không cần phải submit đi đâu mà vẫn được Google index một cách nhanh chóng.
XML Sitemaps
XML Sitemap sẽ giúp cho bạn cung cấp một danh sách đầy đủ các URL đến cho các Search Engine như Google hoặc Bing. Nhưng không có nghĩa là bạn submit như vậy thì các Search Engine sẽ cập nhật hết toàn bộ URL có trong sitemap mà bạn cập nhật. Tuy nhiên các SE vẫn sẽ lưu lại danh sách này để crawl lúc thích hợp. Những URL mà SE không crawl thường là những trang có độ quan trọng kém như đã quá cũ hay ít được liên kết đến, hay nói cách khác là độ phổ biến của nó kém. Cũng vì vậy mà trong SEO việc bạn làm Internal link (liên kết nội bộ) tốt sẽ giúp tăng độ quan trọng của các trang trong website của bạn.
Gửi yêu cầu
Google có hỗ trợ bạn một form gửi yêu cầu để Add Url của mình để thông báo cho bot crawl website của bạn. Tuy nhiên hình thức này có vẻ không được Google đặt nặng lắm như Vanessa Fox cũng nói và kinh nghiệm của tôi cũng cho thấy vậy.
Trước đây form gửi yêu cầu này được gọi là Add Url nhưng giờ đã được đổi tên thành Crawl Url và để gửi yêu cầu crawl bạn phải đăng nhập bằng tài khoản Google Account đồng thời cũng bị giới hạn 50 URL trong 1 tuần.
Gửi yêu cầu thông qua chức năng Fetch as Google bot trong Google Webmaster Tools
Theo thông tin từ SearchEngineLand.com thì chức năng này được triển khai vào ngày 03/08/2011 vừa rồi. Chức năng này giúp cho bạn có thể submit báo cho Googlebot crawl URL của bạn đối với một website mà bạn đã verify trong Google Webmaster Tools. Nó vừa có thể giúp cho bạn kiểm tra xem bot có thể crawl được website của bạn tốt hay không trước khi tiến hành gửi yêu cầu submit URL.
Nhân đây tôi cũng xin nói sơ qua về chức năng Fetch as Googlebot nếu bạn chưa biết về nó. Chức năng này dùng để bạn xem những kết quả phản hồi từ website của mình đối với một URL tương ứng nào đó cho Googlebot. Trong một số trường hợp, khi xem website của mình bằng trình duyệt của bạn có thể sẽ khác với việc Googlebot truy cập vào website của mình. Công cụ này cũng khá hữu ích cho bạn trong những trường hợp đó.
Khi bạn gửi yêu cầu cho Googlebot crawl URL của bạn sau khi việc Fetch as Googlebot diễn ra thành công, bạn có 2 lựa chọn cho việc submit. Một là chỉ yêu cầu crawl đúng URL mà bạn submit, hai là yêu cầu crawl toàn bộ các URL trong trang tương ứng với URL bạn submit.
Khi nào bạn cần sử dụng chức năng này?
Bạn cần sử dụng chức năng nay khi muốn bot ưu tiên cho URL nào đó bạn mới cập nhật trong website của bạn. Tất nhiên điều này cũng không bảo đảm việc bạn submit ở đây thì Googlebot sẽ đưa url đó làm ưu tiên số một, việc submit URL của bạn ở đây chỉ giống như bạn vote thêm một số điểm nào đó đó với Googlebot. Vì vậy, bạn cũng đừng thắc mắc tại sao tôi đã submit rồi mà kiểm tra vẫn chưa thấy Google crawl và index trang đó.
Bởi vì, Google giới hạn số URL trong cùng một tài khoản Google Webmaster Tools, do đó bạn chỉ nên dùng đối với những trang mà bạn thấy quan trọng và cần thiết.