¿Ve Google todas mis páginas?

Controla tus ratios de rastreo y actúa

El primer paso es darse cuenta: ¿saben los buscadores que mi contenido existe? Sin duda en algunos casos sí, pero, ¿en todos? No está tan claro.

Por eso para SEO, el ratio de rastreo es un factor clave ya que muestra cuánto de tu contenido ve Google. Y ¿qué hay más importante que esto? Es así de simple: un buscador no va a mostrar resultados de una página que no existe.

Los Ratios de rastreo son la base de todo

Ser completamente rastreado por Google se da muchas veces por hecho, pero no debería ser así. Los ratios de rastreo tienen que servirte de radar y ser una prioridad, en concreto para sitios web mediano y gran tamaño.

Obtener datos

Es necesario comparar dos hechos: qué es lo que está en mi web y qué es lo que Google realmente ve de la misma.

Para ello es necesario en primer lugar rastrear la web con un rastreador que explore cada una de las páginas que existen en el sitio (y que están vinculadas de forma que un buscador la pueda explorar). Esto es lo que hace el Botify Logs Analyzer.

Para el segundo análisis hay que extraer del de los archivos log de sus servidores frontales la lista de páginas exploradas por los robots de Google durante aproximadamente un mes, ya que más allá de un mes es muy difícil que las páginas se ordenen puesto que Google se alimenta de información fresca.

Y este es uno de los beneficios aportados por el Botify Logs Analyzer y su análisis de webs.

Pongamos por ejemplo este sitio web de gran tamaño en el que el ratio de rastreo es del 81%:

En este otro caso, sin embargo el ratio es sólo del 11%:

Hay que tener en cuenta que estos dos gráficos incluyen también en el análisis páginas huérfanas, que son las que ve Google pero no encuentra en la web (en gris). Hay que prestar atención a esto, pero es un tema que trataremos más adelante en otro artículo. Vamos a centrarnos ahora en aquellas páginas que ESTÁN en la web.

El gráfico de arriba nos da una visión global de la situación. La pregunta que habría que hacerse ahora es: ¿debería Google rastrear todas las páginas encontradas por Botify? Son todas estas páginas legítimamente merecedoras, en cuestión de calidad, de un análisis SEO? Lo cierto es que, mientras en algunos casos el rastreo no debería efectivamente realizarse, en otras este rastreo es necesario.

Para responder a esta pregunta, echemos un vistazo al tipo de páginas de que se trata. El informe de rastreo de la web del Botify Logs Analyzer arroja unos resultados detallados sobre las páginas encontradas por la herramienta, con ratios de rastreo por tipo de página. En el gráfico de abajo, cada columna muestra el volumen de rastreo de cada categoría de página. La verde muestra  aquellas páginas que han sido rastreadas por Google en un período de análisis de 30 días (esto correspondería a la superposición de los dos círculos del gráfico, como ocurre en el gráfico de arriba, aunque en este caso no se trate del mismo sitio web). La roja muestra aquellas páginas que no fueron rastreadas por Google en el mismo período.

Este análisis por categorías de páginas, habitualmente definidas de acuerdo con los distintos tipos de patrones, nos da información sobre qué páginas son importantes desde la perspectiva del usuario, con lo cual podemos saber qué patrones corresponden a contenido importante. Pero si miramos más en detalle cada una de las categorías, puede que una gran cantidad de páginas estén duplicadas.

Mostrar sólo lo importante reduce el alcance a las páginas de calidad

Es más que probable que un sitio web con un gran número de páginas incluya:

  • Duplicados o cuasi-duplicados. Pueden deberse a causas técnicas como el seguimiento de parámetros en las urls, o versiones de impresión de las páginas. También puede deberse a cuestiones de negocio, como la necesidad de tener varias páginas para un mismo producto con diferentes colores u opciones.

  • Páginas de baja calidad (que contienen muy poca información). Estas páginas pueden por ejemplo ser generadas por vinculaciones hechas por usuarios, del tipo “compartir página”, etc. , habiéndose utilizado una < a href > tag o a través de un formulario de contacto con parámetros url que crean un url diferente en cada página.

  • Páginas que no son objetivos SEO, como por ejemplo listados de productos que resulten de la combinación de demasiados filtros de navegación, como se explica en otro post como parte de un análisis más a fondo.

Algunas de estas páginas, como en el caso de los duplicados por parámetros de seguimiento, no deberían existir, al menos para buscadores o usuarios. Otras, sin embargo, como en el caso de las páginas que son el resultado de combinaciones de muchos filtros, no deberían poder verse para los buscadores, pero sí para los usuarios.

En el fondo, de lo que se trata es de asegurarnos de que las páginas de baja calidad y que menos posibilidades tienen de ser visitadas (y por tanto más pueden hacer bajar la puntuación total de calidad del sitio web para un buscador) no vuelvan a ser rastreadas por Google.

Una vez hecho esto lo que queremos es ver que el 100% del resto de páginas son rastreadas por Google.

¿Cómo hacerlo?

Facilitar el acceso a las páginas aumenta el ratio de rastreo

Las vinculaciones internas de una página definen como actúa el pagerank en la misma. En el caso de webs de gran tamaño, el concepto de “link juice” continúa siendo un factor clave para ser rastreado por los buscadores.

  • Reduce la profundidad

    Como ya conocerás, el pagerank disminuye con la profundidad. Esto es automático. Y el resultado es que el rastreo de Google también disminuye. He aquí un ejemplo del volumen de rastreo de Google y el ratio del mismo por profundidad (es decir, el número de clics que hay desde la página de inicio), y esta misma información en porcentajes. El total de volumen por profundidad corresponde a las páginas encontradas por Botify, la parte verde muestra las páginas que son rastreadas por Google y la parte roja las que no son rastreadas por Google.

 

  • ¿Qué hacer?
    Mejora la navegación y la paginación. Mira nuestro artículo sobre los 5 principales problemas de la profundidad y su solución

    Evita pérdida de pagerank

    Por si no te has fijado en detalle, hay muchas posibilidades de que las páginas que reciben el mayor número de “juice” no son las que más lo necesiten.

    ¿Qué hacer?

    Mejora las vinculaciones internas. No existe una receta mágica, depende de cada sitio web.

    La eficiencia del rastreo permite a Google ver más con el mismo presupuesto.

    Además de permitir que Google acceda de entrada al contenido clave, sería estupendo sacar aún más del buscador, ¿no?

    El presupuesto de rastreo que Google dedica a tu web, o, por simplificar, el tiempo que está dispuesto a dedicarle a la misma, se basa en criterios que necesitan un tiempo de desarrollo. Puede cambiar, pero no de un día para otro. La forma más segura y rápida de optimizar el rastreo de Google es asegurándose de que rastrea la web de la forma más “eficiente” o “útil” posible con el mismo presupuesto.

    ¿Qué hacer?

    Revisa el rendimiento de tu web, en concreto el tiempo de descarga de páginas html, que es lo que cuenta para los robots de los buscadores.

    Como explicamos hace poco, mejorar el rendimiento de una página puede aumentar de forma significativa el volumen de rastreo de la misma.

    Puedes hacer esto para páginas con contenido clave (páginas de producto, páginas de artículos o para las principales páginas de navegación, por ejemplo).

    Botify te puede ayudar a priorizar mostrando el rendimiento de cada página y el ratio de páginas activas (es decir, el porcentaje de páginas que generan visitas orgánicas) por tipo de página. De esta forma podrás empezar a trabajar en páginas que son más lentas Y en las que merece más la pena trabajar.

    El gráfico de abajo muestra volumen de rastreo y rendimiento por tipo de página.

    Este artículo es una traducción del post de Annabelle Bouard en el blog oficial de Botify Does Google see all your pages? Monitor your crawl ratio and act.