Los buscadores tipo google se sirven de robots, programas con algoritmos más o menos complejos, que les permiten leer una página web, recuperar y guardar su contenido -o partes relevantes del mismo- en una base de datos y seguir los enlaces que tenga a otras páginas web
Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilisima, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado.
Esto se soluciona con el archivo robots.txt, en el cual, le indicaremos por donde queremos que rastree dentro de nuestro sitio web.
El archivo robots.txt
Cuando un robot visita una página, por ejemplo http://www.tusitio.com, lo primero que solicita al servidor es el archivo http://www.tusitio.com/robots.txt.
Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.
El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.
En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:
User-agent: * # aplicable a todos Disallow: / # impide la indexacion de todas las paginas
Os dejo aqui dos direcciones en las que os generará automaticamente vuestro archivo robots.txt, según vuestras necesidades:
En cuanto a la colocacion del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz.
Bueno, espero que os sea util.
Un pequeño apunte de seguridad. Cuando creemos nuestro fichero robots.txt, hay q intentar no dar informacion sobre la estructura de nuestra web.
Un ej. no muy recomendable…
User-agent: *
Disallow: /listado_passwords.txt
Disallow: /directorio_privado/
Ahora bien, x otro lado, sino usamos robots.txt y no tenemos bien configurado el servidor web, pueden pasar cosas como
estas…
Me has dejado con la boca abierta Pedro!! osea que deberiamos poner en el robots.txt la parte de admin del bloG? porque yo no la puse..
El problema suele ser cuando el servidor web permite listar los ficheros de los directorios y entonces Google te indexa TODOS los ficheros de texto (incluidos los de configuracion, donde estan las contraseñas) y entonces pasan cosas como esta…
Tb, podria ocurrir q el WordPress tuviera algun enlace + o – oculto a wp-config.php y tb le diera x indexarlo…
Por norma general, se recomienda poner en el robots.txt estos directorios, para evitarte “sustos” via Google. Aunque claro, el problema es q, implicitamente, estas revelando q tienes un directorio Admin…, pero bueno, si estas con WordPress seria lo + probable de todos modos …
Por cierto, esta tecnica se llama “Hackear con Google”