Bloquear un sitio para que no sea rastreado por Common Crawl Crawler.
https://commoncrawl.org/
Archivo robots.txt · Bot de IA
Obtenga acceso a los datos sobre 4.796.720 sitios web que son Common Crawl Bot Disallow Clientes. Sabemos de 3.722.656 sitios web en vivo usando Common Crawl Bot Disallow y un adicional 1.074.064 sitios que utilizaron Common Crawl Bot Disallow históricamente y 2.568.345 sitios web en Estados Unidos.
Obtenga una lista de 4.796.720 sitios web que utilizan Common Crawl Bot Disallow que incluye información de ubicación, datos de alojamiento, detalles de contacto, 3.722.656 sitios web actualmente activos y un adicional 1.819.486 dominios que redireccionan a sitios de esta lista. 1.074.064 sitios que utilizaron esta tecnología anteriormentey 2.568.345 sitios web en Estados Unidos Actualmente usando Common Crawl Bot Disallow.
Países
Financial
Group
Region