Imagen FeedIdeas Geek - Una Ideología Geek | Envía archivos de hasta 2GB por email



Cómo hacer un robots.txt para Wordpress (actualizado)

A raíz de este artículo de Sigt, se me ha ocurrido hablar sobre cómo debería ser un robots.txt para un blog de Wordpress, analizando un poco cómo son los de algunos de los blogs de más éxito que leo asiduamente.

Al crear un archivo robots.txt, estamos indicando a los diferentes bots de los buscadores qué archivos o rutas deben seguir e indexar y cuales no. Por ejemplo, si tenermos una carpeta con información privada sobre nosotros, y no nos interesa que se pueda acceder a ella por medio de buscadores, debemos desabilitarla ("Disallow") en el archivo robots.txt, ya que por defecto los buscadores recorren todo el sitio. En Wordpress, por ejemplo, las carpetas wp-admin o wp-includes sólo contienen información sobre el panel de administración y el funcionamiento interno del CMS, por lo que podrían estar perfectamente "desabilitadas" para la indexación, como tienen hecho en AlexSeo de la siguiente manera:

Disallow: /wp-admin/
Disallow: /wp-includes/

En Sigt van un paso más allá, y llegan a la conclusión de que todos los archivos o carpetas que empiecen por "wp-", el problema de ésto es que haciéndolo así estás vetando también la entrada a wp-content, que podría contener elementos que queremos que sean indexados, como por ejemplo las imágenes. Para ello tenemos que permitir ("Allow") la indexación de los archivos de un determinado tipo de ciertas carpetas (En este caso uploads):

Allow: /wp-content/uploads/*.gif
Allow: /wp-content/uploads/*.png
Allow: /wp-content/uploads/*.jpg

El método de Sigt es bastante más restrictivo que el de AlexSeo, aunque la elección de uno u otro depende de lo que el blogger considere más cómodo.

Puede que quieras que el buscador de Google indexe tus imágenes (En LaMatePorUnYogur tienen desactivada la indexación, mientras que en otros sitios la tienen activada, por lo que depende de cada uno), por lo que sería recomendable que añadieras una línea para permitir la entrada al bot de Google Images:

User-agent: Googlebot-Image
Allow: /

No se hasta qué punto es necesario o eficiente añadir un par de líneas para Google Images si ya tienes puesto "User-agent: *" (Que actúa para todos los bots de buscadores), así que si alguien me puede explicar este punto mejor que mejor.

Wordpres tiene un problema bastante considerable de cara al contenido duplicado, ya que por defecto se indexan todos los feeds y trackbacks. Para evitar ésto hay que añadir unas cuantas líneas al robots.txt, que tienen en común prácticamente todos los blogs (Inkilino, LaMatePorUnYogur o Sigt):

Disallow: /?s=
Disallow: /?ref=
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/
feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/
*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

Por último lugar, pero no menos importante que lo anterior, es facilitar el acceso al Sitemap de nuestro blog (Deberíamos tener uno, sí), indicando la ruta del archivo de la siguiente forma:

Sitemap: http://bocabit.com/sitemap.xml

De esta manera, juntando todo lo anterior, el resultado final que debería funcionar a todo el mundo podría ser como el siguiente:

User-agent: *
Disallow: /wp-
Allow: /wp-content/uploads/

Disallow: /?s=
Disallow: /?ref=
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/
feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/
*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

User-agent: Googlebot-Image
Allow: /

Sitemap: http://tuSitio.com/sitemap.xml

Algo que me ha llamado la atención es que algunos sitios como, como Inkilino, han añadido un par de líneas para permitir la entrada del bot de Adsense a todo el sitio:

User-agent: Mediapartners-Google
Allow: /

Y hasta aquí llega la lección de hoy, aunque aún me quedan algunas dudas, como por ejemplo si las etiquetas Allow tienen más importancia que las Disallow en el sentido que anulen algunos valores de estas últimas, y agradecería que si estoy equivocado en algo, que se me corrija ;)

PDTA: Me sorprende que Helektron no tenga un robots.txt ;)

EDITADO: Si queremos que nuestro blog salga en Google Blog Search, deberemos añadir la siguiente línea, pero en este caso hay que tener en cuenta que Google lo podría considerar como contenido duplicado, por lo que sería recomendable añadirla un par de meses después de que el blog tenga ya cierto "prestigio" para que tenga un PageRank superior al del feed de las entradas:

Allow: /feed/$


Anteriormente en bocabit.com:


4 Respuestas a “Cómo hacer un robots.txt para Wordpress (actualizado)”


  1. 1

    gracias por ayudar a los que no sabemos tanto¡¡¡ un saludo

  2. 2

    Jeje buen post ;)
    La verdad es que yo lo tengo todo controlado desde la herramienta para webmaster de google:

    https://www.google.com/webmasters/tools

    Y creo que hace exactamente lo mismo que configurarlo en el robots.txt

    De todas formas creo que estableceré una configuración al robots.txt siguiendo tus consejos :)
    Saludos.

  3. 3

    Muy buena la explicación, creo que voy a añadir un par de lineas de las que comentas a mi robots.txt

  4. 4

    Gracias por la explicacion, lo tendre presente

Escribir un comentario:


bocabit.com es un blog dedicado a temas de actualidad, videojuegos, internet y curiosidades.


Autoayuda bannerotringal
Anúnciate SoyPlastic
Suscríbete al feed RSS¡Suscríbete gratis para recibir los artículos más interesantes en tu correo y lector de feeds!
Escribe tu correo electrónico:
EntreBlogs AyudaWordpress Bocabit BuscandoLibertad CiberPrensa El Blog de KnxDT FreebsArg Galaxia Blog Ideas Geek iPhoniac Psicología, coach, pnl, seducción, autoayuda,desarrollo personal y ocio Soy Plastic Tecnodiva Todos los Como

Comentaristas
  1. Bloguitar (9)
  2. pepitu (8)
  3. maca (8)
  4. Marvin8 (7)
  5. Nyutu (5)
Comentarios Recientes
  • carlos
    Tutorial: Cómo configurar Wifi Max en Windows Vista
    quiero comprobar en my nintendo ds la direccion IP pero no se cua es asin que porfabor desirme adond...
  • The-RockeR
    LHC: Página caída por fin del mundo
    @Bloguitar: Cierto, no llegaron al cero absoluto, están 1,9 grados por encima según las noticias oficiales:...
  • papel
    Regalo Invitaciones para Tuenti
    hola! me gustaría que me enviaseis una invitación a mí también gracias! papelylapiz1@hotmail.es
  • Bloguitar
    LHC: Página caída por fin del mundo
    Mmm, creo que es IMPOSIBLE físicamente llegar al 0 absoluto eh…
  • Bloguitar
    Crear carteles desmotivadores online
    ¡Ostia! Llevaba mucho tiempo buscando algo así, ¡muchísimas gracias!
Anunciate en bocabit.com

bocabit.com está creado gracias a WordPress, utilizando una plantilla creada por René Fdez. (The-RockeR).
Todo el contenido está sujeto a una licencia Creative Commons.
Feed Feed | Acerca De | Contacto | Enlaces | Normas de participación | Política de Privacidad | Apuntes EUITIO | Publicidad |

"Look behind you, a 39 headed monkey with 0.388 diopters."

Blogalaxia Computer Blogs - BlogCatalog Blog Directory Internet Anuncios Gratis