Crea tu archivo robots.txt 3


motores de busquedaLos buscadores tipo google se sirven de robots, programas con algoritmos más o menos complejos, que les permiten leer una página web, recuperar y guardar su contenido -o partes relevantes del mismo- en una base de datos y seguir los enlaces que tenga a otras páginas web

Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilisima, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado.

Esto se soluciona con el archivo robots.txt, en el cual, le indicaremos por donde queremos que rastree dentro de nuestro sitio web.

El archivo robots.txt

Cuando un robot visita una página, por ejemplo http://www.tusitio.com, lo primero que solicita al servidor es el archivo http://www.tusitio.com/robots.txt.

Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:

User-agent: *    # aplicable a todos
Disallow: /      # impide la indexacion de todas las paginas

Os dejo aqui dos direcciones en las que os generará automaticamente vuestro archivo robots.txt, según vuestras necesidades:

En cuanto a la colocacion del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz.

Bueno, espero que os sea util.