Common Crawl Crawler によるサイトのクロールをブロックします。
https://commoncrawl.org/
ロボット.txt · AIボット
データにアクセスする 6,017,016 ウェブサイト それは Common Crawl Bot Disallow 顧客. 私たちは知っている 4,737,588 ライブウェブサイト 使用して Common Crawl Bot Disallow そして追加の 1,279,428 使用したサイト Common Crawl Bot Disallow 歴史的に そして 3,133,769 ウェブサイト アメリカ合衆国
4,719,358 ライブサイト
4,648,308 ライブサイト
4,532,097 ライブサイト
4,430,048 ライブサイト
4,421,166 ライブサイト
3,515,450 ライブサイト
3,462,009 ライブサイト
3,451,924 ライブサイト
ライブサイト
4,834,727 ライブサイト
4,299,023 ライブサイト
1,266,930 ライブサイト
8,297,265 ライブサイト
8,906,110 ライブサイト
11,796,610 ライブサイト
11,856,471 ライブサイト
12,003,031 ライブサイト
1,856,245 ライブサイト
12,495,810 ライブサイト
12,568,342 ライブサイト
12,739,715 ライブサイト
1,611,720 ライブサイト
1,575,317 ライブサイト
18,145,897 ライブサイト
289,242 ライブサイト
748,513 ライブサイト
245,747 ライブサイト
539,531 ライブサイト
162,121 ライブサイト
348,246 ライブサイト
リストを取得する 4,979,766 使用中のウェブサイト Common Crawl Bot Disallow これには、位置情報、ホスティング データ、連絡先の詳細が含まれます。 リストには以下が含まれます 4,737,588 ライブウェブサイト そして 242,178 それらのサイトにリダイレクトするウェブサイト。 3,133,769 これらのサイトのうち アメリカ合衆国.
我々はまた、 1,279,428 使用したサイト Common Crawl Bot Disallow 以前.