Saltar al contenido
Portada » Cómo hacer un robots.txt para WordPress (actualizado)

Cómo hacer un robots.txt para WordPress (actualizado)

  • bocabit 
  • dev

A raíz de este artículo de Sigt, se me ha ocurrido hablar sobre cómo debería ser un robots.txt para un blog de WordPress, analizando un poco cómo son los de algunos de los blogs de más éxito que leo asiduamente.

Al crear un archivo robots.txt, estamos indicando a los diferentes bots de los buscadores qué archivos o rutas deben seguir e indexar y cuales no. Por ejemplo, si tenermos una carpeta con información privada sobre nosotros, y no nos interesa que se pueda acceder a ella por medio de buscadores, debemos desabilitarla (“Disallow”) en el archivo robots.txt, ya que por defecto los buscadores recorren todo el sitio. En WordPress, por ejemplo, las carpetas wp-admin o wp-includes sólo contienen información sobre el panel de administración y el funcionamiento interno del CMS, por lo que podrían estar perfectamente “desabilitadas” para la indexación, como tienen hecho en AlexSeo de la siguiente manera:

Disallow: /wp-admin/
Disallow: /wp-includes/

En Sigt van un paso más allá, y llegan a la conclusión de que todos los archivos o carpetas que empiecen por “wp-”, el problema de ésto es que haciéndolo así estás vetando también la entrada a wp-content, que podría contener elementos que queremos que sean indexados, como por ejemplo las imágenes. Para ello tenemos que permitir (“Allow”) la indexación de los archivos de un determinado tipo de ciertas carpetas (En este caso uploads):

Allow: /wp-content/uploads/*.gif
Allow: /wp-content/uploads/*.png
Allow: /wp-content/uploads/*.jpg

El método de Sigt es bastante más restrictivo que el de AlexSeo, aunque la elección de uno u otro depende de lo que el blogger considere más cómodo.

Puede que quieras que el buscador de Google indexe tus imágenes (En LaMatePorUnYogur tienen desactivada la indexación, mientras que en otros sitios la tienen activada, por lo que depende de cada uno), por lo que sería recomendable que añadieras una línea para permitir la entrada al bot de Google Images:

User-agent: Googlebot-Image
Allow: /

No se hasta qué punto es necesario o eficiente añadir un par de líneas para Google Images si ya tienes puesto “User-agent: *” (Que actúa para todos los bots de buscadores), así que si alguien me puede explicar este punto mejor que mejor.

Wordpres tiene un problema bastante considerable de cara al contenido duplicado, ya que por defecto se indexan todos los feeds y trackbacks. Para evitar ésto hay que añadir unas cuantas líneas al robots.txt, que tienen en común prácticamente todos los blogs (Inkilino, LaMatePorUnYogur o Sigt):

Disallow: /?s=
Disallow: /?ref=
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

Por último lugar, pero no menos importante que lo anterior, es facilitar el acceso al Sitemap de nuestro blog (Deberíamos tener uno, sí), indicando la ruta del archivo de la siguiente forma:

Sitemap: https://bocabit.com/sitemap.xml

De esta manera, juntando todo lo anterior, el resultado final que debería funcionar a todo el mundo podría ser como el siguiente:

User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/

Disallow: /?s=
Disallow: /?ref=
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: Googlebot-Image
Allow: /

Sitemap: https://tuSitio.com/sitemap.xml

Algo que me ha llamado la atención es que algunos sitios como, como Inkilino, han añadido un par de líneas para permitir la entrada del bot de Adsense a todo el sitio:

User-agent: Mediapartners-Google
Allow: /

Y hasta aquí llega la lección de hoy, aunque aún me quedan algunas dudas, como por ejemplo si las etiquetas Allow tienen más importancia que las Disallow en el sentido que anulen algunos valores de estas últimas, y agradecería que si estoy equivocado en algo, que se me corrija 😉

PDTA: Me sorprende que Helektron no tenga un robots.txt 😉

EDITADO: Si queremos que nuestro blog salga en Google Blog Search, deberemos añadir la siguiente línea, pero en este caso hay que tener en cuenta que Google lo podría considerar como contenido duplicado, por lo que sería recomendable añadirla un par de meses después de que el blog tenga ya cierto “prestigio” para que tenga un PageRank superior al del feed de las entradas:

Allow: /feed/$
Etiquetas: