Common Crawl Crawler によるサイトのクロールをブロックします。
https://commoncrawl.org/
ロボット.txt · AIボット
データにアクセスする 4,766,999 ウェブサイト それは Common Crawl Bot Disallow 顧客. 私たちは知っている 3,681,953 ライブウェブサイト 使用して Common Crawl Bot Disallow そして追加の 1,085,046 使用したサイト Common Crawl Bot Disallow 歴史的に そして 2,540,879 ウェブサイト アメリカ合衆国.
リストを取得する 4,766,999 使用中のウェブサイト Common Crawl Bot Disallow 位置情報、ホスティングデータ、連絡先の詳細などが含まれます。 3,681,953 現在公開中のウェブサイト そして追加の 1,797,361 このリスト内のサイトにリダイレクトするドメイン。 1,085,046 以前この技術を使用していたサイトそして 2,540,879 ウェブサイト アメリカ合衆国 現在使用中 Common Crawl Bot Disallow.
国
Financial
Group
Region