Matt Cutts entrevistado por Eric Enge

Escribo en este post un pequeño resumen con los puntos más interesantes de una entrevista del 14 de Marzo del 2010 realizada por Eric Enge presidente de Stone Temple Consulting y consultor SEO a Matt Cutts, ingeniero de Google (que supongo que no necesita más presentaciones). Enumero los datos y afirmaciones que me han parecido más interesantes

No existe un límite en el número de páginas indexadas por parte de google de un sitio web. El número de páginas que rastreamos es proporcional al PageRank. Las páginas con más enlaces entrantes son descubiertas y rastreadas por google más rapidamente.

Existe el concepto por parte de googlebot del “host load” (carga del servidor). La carga del servidor es esencialmente el número máximo de conexiones simultaneas que un servidor web en particular puede manejar.

Hay dos factores principales que determinan el rastreo de un sitio por parte de googlebot. Uno es el page rank y otro es la carga del servidor. Page rank y otros factores determinan lo profundamente que googlebot rastreará dentro de un sitio web. Sin embargo es posible que también la carga del servidor influya en este rastreo. Pero también el contenido duplicado. Si google lo encuentra descarta las duplicadas y se queda sólo con una. Además googlebot podría tender a rastrear con menor frecuencia un sitio donde haya mucho contenido duplicado.

Con enlaces procedentes de páginas marcadas como contenido duplicado google intenta mezclar estas páginas como si fueran una sóla (a efectos de link juice que envían) en lugar de eliminarlas completamente. Estos enlaces no necesariamente se pierden.

Evitar identificadores de sessión en URLS. También desde un punto de vista de usabilidad los usuarios tienden a recordar enlaces que son más bonitos y sencillos.

Ahora google tiene la habilidad a través de google webmasters tools de ignorar completamente un parámetro en la URL.

Existe riesgo de que estos identificadores de sesión sean vistos como contenido duplicado. También los enlaces de afiliación con parámetros de seguimiento.

Navegación “faceted” al estilo de Zappos no es muy positivo para googlebot y para los usuarios.

Existe alguna perdida de page rank al emplear redirecciones 301

Es preferible reducir el contenido duplicado que usar rel=canonical. Las páginas que combines mediante el rel canonical no tienen porqué ser completos duplicados, pero deberían ser duplicados conceptuales del mimso producto o estar muy relacionados. Desde diciembre ya se puede hacer rel canonical entre dominios.

Es perfectamente válido tener un rel canonical que apunte a la misma página y también tenerlo implementado para todas las páginas de tu sitio.

Empleamos peticiones HEAD para recoger información sobre imágenes pero no para el resto de recursos.

Javascript: googlebot puede ejecutar algo de Javascript

No emplees page rank sculpting en tu sitio emplea tu tiempo en obtener enlaces valiosos o mejorar el contenido de tu web.

Esta es la entrevista completa (en inglés): Entrevista a Matt Cutts