Crawl budget y la accesibilidad del robot de Google a los contenidos

Picture of julian

julian

Los bots de Google rastrean billones de webs al día en busca de nuevos contenidos de calidad, lo que supone un gran esfuerzo para sus servidores. De cara a optimizar sus recursos, Google infiere cuánto tiempo debe emplear rastreando un dominio, cuáles son las páginas por las que más debe pasar en función a su tasa de actualización, etc… Es lo conocido como crawl budget, y como SEOs debería preocuparnos cada vez más. Nuestra labor -una de ellas- es mejorar la accesibilidad del robot hacia los contenidos que mayor visibilidad queramos dar, así haremos que malgaste el menor tiempo posible y mejore su consideración hacia nuestro sitio.

El motivo de esta afirmación es simple. Se habla mucho de la importancia de un contenido que sea satisfactorio a la hora de cubrir las necesidades informativas del usuario. Y es importante en toda estrategia online, no solo por SEO; ya que es el modo de informar al usuario de lo que ofrecemos. ¿Pero qué pasa si el robot no accede con facilidad a este contenido? ¿O qué ocurre si los robots no entienden qué contenidos son más relevantes para nosotros?

1. Limitación del acceso a contenido irrelevante o duplicado

En sitios con un gran número de URLs y problemas de duplicidad de contenidos y/o de excesiva cantidad de páginas sin el mismo, podemos encontrar el siguiente aviso de Google a través de Search Console:

“El robot de Google ha detectado un aumento significativo en el número de URLs en http://unsitiocualquiera.pro/. Este hecho dificulta el rastreo del sitio web, y puede provocar que los usuarios no encuentren los contenidos más recientes cuando realicen búsquedas. Es posible que el robot de Google rastree innecesariamente un gran volumen de URL distintas que apunten a contenidos idénticos o similares, o bien que rastree partes del sitio web que no le correspondan. Por consiguiente, consumirá una cantidad de ancho de banda muy superior a la necesaria o no logrará indexar todo el contenido de tu sitio web.”

aviso-search-console

No es más que una confirmación por parte de Google de lo anteriormente apuntado: no les gusta nada (pero nada de nada) que consumas sus recursos en balde. Para solucionar este aviso o, mejor aún, para que nunca te llegue, lo mejor es controlar la indexación de los filtros y/u ordenaciones, para lo que hay que hacerse las siguientes preguntas:

  • ¿Puedo ofrecer un contenido diferenciado para cada URL resultante de aplicar un filtro u ordenación? Esta pregunta está íntimamente relacionada con el surtido de producto que se ofrece en una web.
  • ¿El usuario está realmente interesado en esos contenidos? Por ejemplo, en un ecommerce de calzado puede ser interesante hacer que se indexen filtros de color y/o marca; no tanto que Google rastree y almacene URLs relativas a las tallas de los zapatos (¿o alguien busca “zapatillas de deporte de la talla 43”?).

Ambas respuestas deben darse tras un análisis concienzudo del catálogo de producto que ofrece la web y un estudio sobre cómo busca el usuario en Google. Un caso de web que responde afirmativamente a ambas preguntas es Idealista, que permite la indexación de su ordenación de pisos por precio, de modo que pueda satisfacer todas las búsquedas de “pisos baratos en…” con una página perfectamente orientada semánticamente.

idealista-pisos-baratos-seo

2. Mejora del enlazamiento interno

Parece algo evidente para muchos, pero si hacemos un estudio de campo vemos que no lo es. Líneas de producto clave que no aparecen enlazadas en los menús principales de navegación, contenidos de importancia a los que se accede tras hacer 3-4 clics desde la home, etc…

Las claves de un enlazamiento interno que mejore la accesibilidad a los robots son:

Enlazar desde el menú todo aquello que sea clave para nuestro negocio. Al enlazar una página desde todas las URLs de nuestro sitio dejamos claro a los rastreadores qué es lo importante y/o dónde somos fuertes. Aseguramos que lo más importante de nuestra página es rastreado en caso de que estemos “limitados por crawl budget”.
Fomentar el enlazamiento vertical (menús de navegación superiores y laterales, breadcrumbs, etc…) y horizontal (artículos, productos y/o contenidos relacionados principalmente), priorizando siempre cuáles son los contenidos a los que deseamos que lleguen con facilidad usuarios y robots.

En definitiva, un enlazamiento interno que conduzca al usuario por nuestro embudo de conversión es clave, en cierto modo, para mejorar el rastreo de los robots de los buscadores.

3. Optimización de los sitemaps.xml

Uno de los puntos muchas veces olvidado que, aunque en el pasado tuviera mayor peso, puede seguir siendo un “punto extra” a la hora de optimizar un sitio web, especialmente uno de grandes dimensiones.

“Si una URL está en un sitemap es probable que queramos rastrearla antes o más a menudo, porque consideras que es importante para ti al ponerla ahí. Pero también podemos aprender que esto no es así en el caso de sitemaps generados automáticamente y que contienen todas las URLs del sitio” declaraba Gary Illnes, miembro del equipo de búsqueda de Google, durante un Hangouts mantenido con Eric Enge hace unas semanas.

O lo que es lo mismo, un aviso de que si trabajas con cuidado tus sitemaps estás facilitando el rastreo a Google. Esto incluye revisar que no haya URLs que respondan con 404, URLs de preproducción, páginas irrelevantes como la de contacto o los términos legales, etc… porque el usuario no está realmente interesado en todos estos contenidos.

Conclusiones

Como en tantos otros temas relacionados con SEO, la filosofía ‘keep it simple’ es la adecuada a la hora de mejorar la accesibilidad de los robots a nuestros contenidos y optimizar el crawl budget que Google nos asigna. En el plano de los contenidos y la arquitectura de la información, podemos resumirlo todo en dos puntos:

  • Evita en la medida de lo posible URLs que no responden a un interés de búsqueda
  • Organiza todos tus contenidos de manera que el usuario pueda encontrarlos fácilmente mientras navega. Obviando posibles problemas técnicos, esto nos asegura que Google reconozca fácilmente cuáles son las páginas más importantes del portal.

Puedes leer más artículos míos en gonzalocarpiodelsaz.es.

Related Posts

GA4 y BigQuery: la unión perfecta

La sinergia entre Google Analytics 4 y BigQuery En la actual era digital, la gestión eficaz de datos es esencial para obtener una ventaja competitiva