28 de julio de 2008

Googlebot: indexando la red

Googlebot es el robot que utiliza Google para "explorar" los sitios Web. No sólo los índices de páginas web (HTML), pero también señala la información de archivos PDF, PS, XLS, DOC entre otros.

La frecuencia con la que Googlebot accede a un sitio depende de PageRank. Frente a este mayor valor, el robot más asiduamente accederá a sus páginas.

Por ejemplo, podemos ver que los sitios con PR10 (el más alto), como yahoo.com o usatoday.com, han sido "supervisados" por el robot de Google incluso el día de ayer o de hoy, mientras que otros han sido visitada ya hace varias semanas. Esto puede ser verificado por el acceso a la "cache" en esta página.

Para comprobar si Googlebot ha accedido a nuestro sitio, tenemos que examinar los registros de nuestro servidor. En ellos, veremos si hay registros de visitas en las que aparece "Googlebot". En general, nuevo nombre del servidor, que puede ser uno de ellos:

Dirección IP del servidor
crawl1.googlebot.com 216.239.46.20
crawl2.googlebot.com 216.239.46.39
crawl3.googlebot.com 216.239.46.61
crawl4.googlebot.com 216.239.46.82

Googlebot intenta acceder, al igual que la mayoría de robots de los motores de búsqueda, un archivo "robots.txt". En este archivo debe indicar las áreas de nuestra página donde no queremos que entre Googlebot u otros motores de búsqueda.

Una vez que Googlebot halla 'explorado' nuestra página, sigue los enlaces que encuentra (href y SRC). Por lo tanto, si quieres que Googlebot indexe su sitio, es necesaria otra página que tiene un hipervínculo con al tuyo. Si no, siempre puedes añadir tu URL directamente.

Además de este robot de Google, hay otro, llamado FreshBot que visita con más frecuencia con los sitios web de noticias más frescas.

No hay comentarios: