Esse arquivo robots.txt é o primeiro arquivo que um robô de pesquisa (do Google, Altavista, etc.) visita em um site. É um arquivo em texto simples em que estão contidas informações para esses robôs saberem se existe alguma restrição de acesso para eles ou se todos os arquivos e diretórios do site podem ser visitados, e todos os links percorridos para classificação das páginas. O arquivo também discrimina quais os robôs que podem ter acesso ao site. Exemplo mínimo desse arquivo: User-agent: * # todos os robôs podem visitar o site Disallow: / # o site inteiro não pode ser indexado Esse arquivo robots.txt fica no diretório raiz dos sites. Veja por exemplo: http://www.w3.org/robots.txt Também existe uma META tag com o objetivo de dar essas informações de restrição de acesso aos robôs, em cada página. Porém, poucos robôs consideram essas diretivas, por isso é uma tag pouco usada. Mas, para ilustrar a sintaxe: <META NAME="robots" CONTENT="INDEX, NOFOLLOW"> isso quer dizer: essa página pode ser indexada, mas os links dela não podem ser seguidos para o robô continuar a indexação. Se fosse a página principal, por exemplo, o robô indexaria somente ela, sem navegar pelo site. Usar o arquivo robots.txt é interessante para evitar que o site tenha visitas demais de robôs, pois eles também acabam gerando tráfego. No site do ICMC começamos a bloquear vários diretórios, por exemplo, de imagens e fotos, eventos, diretórios com informações antigas e outros que não queremos que apareçam em resultados de buscas. Visite http://www.w3.org/TR/REC-html40/appendix/n....html#h-B.4.1.1 para saber mais sobre o robots.txt.