Bloquear un sitio para que no sea rastreado por Common Crawl Crawler.
https://commoncrawl.org/
Archivo robots.txt · Bot de IA
Obtenga acceso a los datos sobre 4.766.999 sitios web que son Common Crawl Bot Disallow Clientes. Sabemos de 3.681.953 sitios web en vivo usando Common Crawl Bot Disallow y un adicional 1.085.046 sitios que utilizaron Common Crawl Bot Disallow históricamente y 2.540.879 sitios web en Estados Unidos.
Obtenga una lista de 4.766.999 sitios web que utilizan Common Crawl Bot Disallow que incluye información de ubicación, datos de alojamiento, detalles de contacto, 3.681.953 sitios web actualmente activos y un adicional 1.797.361 dominios que redireccionan a sitios de esta lista. 1.085.046 sitios que utilizaron esta tecnología anteriormentey 2.540.879 sitios web en Estados Unidos Actualmente usando Common Crawl Bot Disallow.
Países
Financial
Group
Region