Página principal Inicio Agrega esta pagina a tus favoritos. Favoritos Directorio de paginas webs Directorio Recomienda esta web a tus amistades Recomendar Buscar en esta web y en Google Buscador Mapa del web - Distribucion de la pagina Mapa

ARTICULOS. PROMOCION PAGINAS WEBS (V)

Controlar y limitar el acceso de "robots" en tu web

En ciertas ocasiones nos puede interesar impedir que los robots de los buscadores indexen ciertos directorios o documentos de nuestro web, para ello se usan los archivos "robot.txt".

El archivo robot.txt no es más que archivo de texto que contiene una lista de instrucciones escritas en un formato estandarizado y que están dirigidas a todos o a ciertos robots en concreto. La función de estas instrucciones es la de prohibir que ciertos documentos o directorios que no queramos compartir sean indexados por los spiders.

El fichero robot.txt es lo primero que los crawlers buscan cuando acceden a un sitio web, posteriormente pasan a indexar el resto de nuestra web. El fichero robot.txt debe esta situado en el directorio raíz de nuestro sitio web, es decir, deberíamos poder acceder a el desde la dirección tudominio.com/robot.txt.

El motivo por el cual robot.txt debe esta colocado en nuestro directorio raíz es por es simple hecho de que los spiders solo lo buscan allí. Si lo encuentran, lo leerán y supuestamente acataran las instrucciones allí indicadas. Pero si no lo encuentran, darán por hecho que pueden indexar todos los documentos que estimen oportuno.

Puede ocurrir que un spider encuentre nuestro fichero robot.txt y que aunque supuestamente debería de acatar las ordenes que allí se le indican, este haga caso omiso de los mismo y termine indexando los documentos que queríamos prohibirle. Pero esto es algo que no tiene solución clara, al fin y al cabo quien va a obligar a los desarrolladores del spider a que este acate las ordenes de los archivos robot.txt?

La estructura de un archivo robot.txt es realmente simple, todas sus instrucciones son de tipo:

<Campo> : <Value>


donde únicamente puede ser "User-agent" o "Disallow", mientras que solo puede ser el nombre de un robot o el path relativo al directorio o documento cuya indexación queremos prohibir.

Con un ejemplo todo se ve más claro:


User-agent: *
Disallow: /docs_privados/fotos/
Disallow: /docs_privados/textos/
Disallow: /docs_privados/doc_secreto.txt

User-agent: Googlebot/2.1
User-agent: InfoNaviRobot(F107)
User-agent: TV33_Mercator_1-1.0
User-agent: AVSearch-3.0
User-agent: Scooter/2.0
User-agent: Slurp/2.0
User-agent: SearchengineLicenceSheep_v1.0
User-agent: shadow/2.0
User-agent: MultiText/0.1
User-agent: FAST-WebCrawler/2.2.5
User-agent: Atomz/1.0
User-agent: htdig/ (searchit@netmind.com)
User-agent: spider00.logika.net.
Disallow: /documento.html


Como puedes observar el ejemplo esta dividido en dos partes. La primera esta dirigida a todos los robots, así lo indica la primera instrucción User-agent: *, donde el carácter "*" equivale a "cualquier" o "todos" los spiders. La segunda parte, esta dirigida a unos robots concretos definios mediante múltiples instrucciones que asignan un robot concreto a "User-agent".

En ambas partes, tras indicar los robots a los cuales esta dirigido, se especifica mediante "Disallow" los directorios y documentos que no deberían ser indexados por los robots. Hay que tener en cuenta que para prohibir la indexación de todos los documentos de un directorio, el path que se asigna a "Disallow" debe incluir el carácter "/" al final del nombre del directorio. Es decir, debe tener el formato Disallow: /directorio/ en vez de Disallow: /directorio.

El archivo robot.txt solo sirve para intentar prohibir la indexación de ciertos documentos y directorios, no es valido para configurar otros aspectos del funcionamiento de los spiders. Pero para esto existen los meta-tags de tipo "Robot", los cuales incluidos en un documento HTML sirven para comunicar al robot la asiduidad con la que debiera indexar el documento. Pero esto es ya otra historia...

"Controlar y limitar el acceso de "robots" en tu web" es uno de los muchos artículos y tutoriales sobre Apache, MySQL, PHP, CGI, Javascript, Promoción y comercio electrónico publicados por argintxe en guebmaster.com

 
 

Ir arriba
<<Anterior
 
Fotoviaje
Freecards
Musica
Quiniela
El tiempo
Escaneres
Ordenadores
Vuelos baratos
Casas rurales
Futbol
Mapas
Marketing
Códigos
Intercambios
Cine
Cultura
Perifericos
Astrología
Postales gratis
Pisos
Pdas
Horóscopo
Logos y tonos
Buscar Trabajo
Humor
Metatags
Fondos
Seomaker
Traductor
Humor
Chat
Directorio web
Hoteles baratos
Mapa web
Mapa I
Diseño Web
Paginas
Añadir web
Jmcweb.org / Recursos y servicios gratis en la red

Feed