Indexación prueba

Google descubre nuevas páginas web rastreando la web, y luego añade esas páginas a su índice. Hacen esto usando una araña web llamada Googlebot.

¿Confundido? Vamos a definir algunos términos clave.

  • Rastrear: El proceso de seguir hipervínculos en la web para descubrir nuevos contenidos.
  • Indexar: El proceso de almacenar todas las páginas web en una vasta base de datos.
  • Araña Web: Un pedazo de software diseñado para llevar a cabo el proceso de rastreo a gran escala.
  • Googlebot: La araña web de Google.

Aquí tienes un vídeo de Google que explica el proceso con más detalle:

 

Cuando googleas algo, le estás pidiendo a Google que muestre todas las páginas relevantes de su índice. Debido a que a menudo hay millones de páginas que se ajustan a tu búsqueda, el algoritmo de ranking de Google hace todo lo posible para ordenar las páginas de tal forma que veas los mejores y más relevantes resultados primero.

El punto crítico que estoy resaltando aquí es que la indexación y el posicionamiento son dos cosas diferentes.

Indexar es presentarte para la carrera; posicionar es ganarla.

No puedes ganar sin presentarte a la carrera primeramente.

Ve a Google, a continuación, busca sitio:tusitioweb.com

site search indexing

Este número indica aproximadamente el número de tus páginas que Google ha indexado.

Si deseas comprobar el estado del índice de una URL en específico, utiliza el mismo operador sitio:tusitioweb.com/página-web-slug

google site search web page

No se mostrarán resultados si la página no está indexada.

Ahora bien, vale la pena señalar que si eres un usuario de Google Search Console, puedes utilizar el informe de Cobertura para obtener una visión más precisa sobre el estado de indexación de tu sitio web. Sólo tienes que ir a:

Google Search Console > Indice > Cobertura

google search console valid pages

Mira el número de páginas válidas (con y sin advertencias).

Si estos dos números suman algo distinto a cero, entonces Google tiene al menos algunas de las páginas de tu sitio web indexadas. Si no, entonces tienes un problema grave, ya que ninguna de tus páginas web están indexadas.

NOTA AL MARGEN.
¿No eres un usuario de Google Search Console? Regístrate. Es gratis. Todo el que tiene un sitio web y se preocupa por conseguir tráfico de Google debería utilizar Google Search Console. Así de importante es.

También puedes utilizar Search Console para comprobar si una página específica está indexada. Para ello, pega la URL en la herramienta de inspección de URLs.

Si esa página está indexada, te indicará “la URL está Google.”

url is on google search console

Si la página no está indexada, verás la frase “la URL no está en Google.”

page is not on google search console

¿Descubriste que tu sitio o página web no está indexada en Google? Prueba esto:

  1. Ve a Google Search Console
  2. Navega hacia la herramienta de Inspección de URLs
  3. Pegar la URL que deseas que Google indexe en la barra de búsqueda.
  4. Espera a que Google compruebe la URL
  5. Haz clic en el botón “Solicitar la indexación”

Este proceso es una buena práctica cuando publicas una nueva entrada o página. Le estás diciendo de manera efectiva a Google que has añadido algo nuevo a tu sitio y que deberían echarle un vistazo.

Sin embargo, es poco probable que el solicitar la indexación resuelva los problemas subyacentes que impiden que Google indexe páginas viejas. Si ese es el caso, sigue el siguiente checklist para diagnosticar y solucionar el problema.

Aquí hay algunos enlaces rápidos a cada táctica- en caso de que ya hayas probado algunas:

  1. Elimina los bloqueos de rastreo en el archivo robots.txt
  2. Quita las etiquetas noindex maliciosas
  3. Incluye la página en tu sitemap
  4. Quita las etiquetas canónicas maliciosas
  5. Comprueba que la página no esté huérfana
  6. Arregla los enlaces internos nofollow
  7. Añade enlaces internos “poderosos”
  8. Asegúrate de que la página es valiosa y única
  9. Elimina páginas de baja calidad (para optimizar el “presupuesto de rastreo”)
  10. Construye backlinks de alta calidad

 

1) Elimina los bloqueos de rastreo en el archivo robots.txt

¿Google no está indexando todo tu sitio web? Podría ser debido a un bloqueo de rastreo en algo que se llama un archivo robots.txt.

Para comprobar si este es el problema, ve a tudominio.com/robots.txt.

Busca cualquiera de estos dos fragmentos de código:

1User-agent: Googlebot</p>
2<p>Disallow: /
1User-agent: *</p>
2<p>Disallow: /

Ambos le dicen al robot de Google que no tienen permitido rastrear ninguna página de tu sitio. Para solucionar el problema, elimínalos. Es así de simple.

Un bloqueo de rastreo en robots.txt también podría ser el culpable de que Google no esté indexando una página web en particular. Para comprobar si este es el caso, pega la URL en la herramienta de inspección de URLs en Google Search Console. Haz clic en el bloque de Cobertura para obtener más detalles, y a continuación, busca el error de “¿Se permite el rastreo? No: bloqueado por un error de robots.txt”.

Esto indica que la página está bloqueada en robots.txt.

Si ese es el caso, vuelve a revisar el archivo robots.txt y busca cualquier regla de “disallow” relacionada con la página o apartado correspondiente.

robots txt

Elimina en donde sea necesario.

 

2) Quita las etiquetas noindex maliciosas

Google no indexará páginas si así se lo indicas. Esto es útil para mantener algunas páginas web en modo privado. Hay dos maneras de hacerlo:

Método 1: metaetiqueta

Las páginas con cualquiera de estas metaetiquetas en su sección  <head> no serán indexadas por Google:

1&amp;lt;meta name=“robots” content=“noindex”&amp;gt;
1&amp;lt;meta name=“googlebot” content=“noindex”&amp;gt;

Esta es una metaetiqueta robots, y le dice a los motores de búsqueda si pueden o no indexar la página.

NOTA AL MARGEN.
 La pieza clave es el valor “noindex”. Si lo ves, entonces la página está con el ajuste noindex.

Para encontrar todas las páginas con una metaetiqueta noindex en tu sitio, ejecuta un rastreo en Ahrefs’ Site Audit. Ve al informe
Indexability. Busca advertencias de “Noindex page”.

noindex ahrefs site audit

Haz clic para ver todas las páginas afectadas. Retira la metaetiqueta noindex de cualquier página en la que no deba de estar.

Método 2: X‑Robots-Tag

Los rastreadores también respetan el encabezado de respuesta HTTP X‑Robots-Tag. Puedes implementar esto usando un lenguaje de script del lado del servidor como PHP, o en tu archivo .htaccess, o cambiando la configuración de tu servidor.

La herramienta de inspección de URLs en Search Console te indica si Google está bloqueado para rastrear una página por este este encabezado. Sólo tienes que introducir la URL y después buscar “¿Se permite la indexación? No: ‘noindex’ detectado en el encabezado http ‘X‑Robots-Tag’ ”

x robots header search console

Si deseas comprobar este problema a lo largo de tu sitio, ejecuta un rastreo con Ahrefs´s Site Audit Tool (Auditoría del Sitio), enseguida utiliza el filtro “Robots information in HTTP header” (“Información de los robots en la cabecera HTTP”) en Page Explorer:

x robots tag filter site audit

Pide a tu desarrollador que impida que las páginas que deseas indexar muestren esta cabecera.

Lectura recomendada: El Uso de las Especificaciones del Encabezado HTTP X‑Robots-Tag en el SEO: Consejos y trucos 

 

3) Incluye tu página en tu sitemap

Un sitemap le dice a Google qué páginas de tu sitio son importantes y cuáles no. También puede dar alguna orientación sobre la frecuencia con que deben ser vueltas a rastrear.

Google debe ser capaz de encontrar las páginas de tu sitio web, independientemente de si están en tu sitemap, pero aun así es una buena práctica incluirlas. Después de todo, no hay razón para hacerle la vida difícil a Google.

Para comprobar si una página está en tu sitemap, utiliza la herramienta de inspección de URLs en Search Console. Si ves el error “la URL no está en Google” y “sitemap: N / A”, entonces no está en tu sitemap o indexada.