Archive.isへのアクセスを拒否する
archive.is
が私のウェブサイトにアクセスできないようにしたいと思います。 (このWebサイトが私の同意なしに私のWebサイトをキャッシュすることは望ましくありません)。
可能かどうか知っていますか?
はい。これは(少なくとも私にとって)新しいものであり、これまでのところ非常に興味深いものです。私はこれについて雑草にならないでしょう。
私がこれを書いたとき、私はほとんどまたはまったく睡眠に取り組んでいませんでした。 @unorが親切に指摘してくれたいくつかのことを逃したので、自分の答えを抑えて、クレジットが支払われるべきところでクレジットを与えなければなりません。ありがとう@unor!
Archive.isは、ドメインツールによるとIPアドレス104.196.7.222 [AS15169 GOOGLE-Google Inc.]でGoogleウェブホストアカウントを使用しているDenis Petrovに登録されていますが、46.17.100.191 [AS57043 HOSTKEY-AS HOSTKEY B.V.]にあります。ホスト会社が最近変更された可能性があります。
Archive.todayもDenis Petrovが所有しており、Archive.isと同一ではない場合は類似しています。この回答の目的のために、Archive.isを取り上げますが、Archive.todayに適用されると想定できます。 Archive.todayは別のIPアドレス78.108.190.21 [AS62160 GM-AS Yes Networks Unlimited Ltd]に存在します。 Denis Petrovは70個のドメインを所有していることを理解してください。深く掘り下げることなく、懸念するサイトが増える可能性があります。 3つのIPアドレスすべてにブロッキングコードを提供します。
Archive.isはユーザー指定です。自分のページをアーカイブしていると想定されます。このシナリオ以外では、Archive.isはコンテンツスクレイパースパムサイトと見なすことができます。
Archive.isは危険な行を歩いています。単一ページのスクレイピングを通じて他のサイトコンテンツを使用しています。最終的に、元のコンテンツの検索の可能性は少なくとも希釈され、潜在的に完全に奪われます。さらに悪いことに、元のサイトはコンテンツの発信元として引用されていません。 Archive.isは正規のタグを使用しますが、独自のサイト/ページです。
例:<link rel="canonical" href="http://archive.is/Eo267"/>
これは、誰がサイトを送信しているか、サイトへの権利を持っているかどうかの制御の欠如、明確な削除情報の欠如、やや曖昧で潜在的に脆弱な連絡メカニズムと相まって、Archive.isは本当の可能性を秘めていますトラブル。
IPアドレスの詳細については、こちらをご覧ください: https://www.robtex.com/#!dns=archive.is
IPアドレス78.108.190.21でブロックする方法。
Cisco Firewallを使用します。
access-list block-78-108-190-21-32 deny ip 78.108.190.21 0.0.0.0 any
permit ip any any
**注:[指定されたACL名]は、選択したACL名に置き換えることができます。
Nginxを使用します。
Nginx.confを編集して、include blockips.confを挿入します。存在しない場合。 blockips.confを編集して、次を追加します。
deny 78.108.190.21/32;
Linux IPTablesファイアウォールの使用。 **注:注意して使用してください。
/sbin/iptables -A INPUT -s 78.108.190.21/32 -j DROP
Microsoft IIS Webサーバーの使用
<rule name="abort ip address block 78.108.190.21/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^78\.108\.190\.21$" />
</conditions>
<action type="AbortRequest" />
</rule>
Apache .htaccessを使用します。
RewriteCond %{REMOTE_ADDR} ^78\.108\.190\.21$ [NC]
RewriteRule .* - [F,L]
IPアドレス46.17.100.191でブロックする方法。
Cisco Firewallを使用します。
access-list block-46-17-100-191-32 deny ip 46.17.100.191 0.0.0.0 any
permit ip any any
**注:[指定されたACL名]は、選択したACL名に置き換えることができます。
Nginxを使用します。
Nginx.confを編集して、include blockips.confを挿入します。存在しない場合。 blockips.confを編集して、次を追加します。
deny 46.17.100.191/32;
Linux IPTablesファイアウォールの使用。 **注:注意して使用してください。
/sbin/iptables -A INPUT -s 46.17.100.191/32 -j DROP
Microsoft IIS Webサーバーの使用
<rule name="abort ip address block 46.17.100.191/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^46\.17\.100\.191$" />
</conditions>
<action type="AbortRequest" />
</rule>
Apache .htaccessを使用します。
RewriteCond %{REMOTE_ADDR} ^46\.17\.100\.191$ [NC]
RewriteRule .* - [F,L]
IPアドレス104.196.7.222でブロックする方法。
Cisco Firewallを使用します。
access-list block-104-196-7-222-32 deny ip 104.196.7.222 0.0.0.0 any
permit ip any any
**注:[指定されたACL名]は、選択したACL名に置き換えることができます。
Nginxを使用します。
Nginx.confを編集して、include blockips.confを挿入します。存在しない場合。 blockips.confを編集して、次を追加します。
deny 104.196.7.222/32;
Linux IPTablesファイアウォールの使用。 **注:注意して使用してください。
/sbin/iptables -A INPUT -s 104.196.7.222/32 -j DROP
Microsoft IIS Webサーバーの使用
<rule name="abort ip address block 104.196.7.222/32" stopProcessing="true">
<match url=".*" />
<conditions>
<add input="{REMOTE_ADDR}" pattern="^104\.196\.7\.222$" />
</conditions>
<action type="AbortRequest" />
</rule>
Apache .htaccessを使用します。
RewriteCond %{REMOTE_ADDR} ^104\.196\.7\.222$ [NC]
RewriteRule .* - [F,L]
コードのセットから複数のIPアドレスをブロックする必要がある場合があります。それは明らかではありません。
robots.txt
Archive.is は、自律的にページをクロールする(たとえば、ハイパーリンクをたどる)ボットを使用しません。したがって、robots.txt
は常に適用されません。特定のページをアーカイブするコマンドを提供するのは常にユーザーだからです。
同じ理由で、GoogleのFeedfetcher( Feedfetcherが私のrobots.txtファイルに従っていないのはなぜですか? )やW3CのValidator(- details )のようなサービスはrobots.txt
に従いません。
Archive.is FAQを参照してください: archive.isがrobots.txtに従わないのはなぜですか?
meta
-robots
/X-Robots-Tag
Archive.isが(理想的には)noindex
-noarchive
/X-Robots-Tag
のmeta
またはrobots
の値を尊重すべきかどうか、またはこれらのテクノロジーが自律型ボットのみに適用されるかどうかはわかりません。ただし、archive.isには文書化されていないため、現時点ではサポートされていないようです。
(FWIW、アーカイブされた各ページは<meta name="robots" content="index,noarchive"/>
を取得するようです。)
User-Agent
archive.isは、特定のUser-Agent
が使用されていることを文書化していないため(通常のブラウザで表示されるようにページを取得するために、おそらく自分自身を識別しません)、サーバー上のアクセスをブロックするために使用することはできません-レベル。
IPアドレスをブロックする
したがって、robots.txt
もmeta
-robots
/X-Robots-Tag
もここでは機能せず、User-Agent
を介してブロックすることはできないため、archive.is IPからのアクセスをブロックする必要があります。 IPブロッキングに関するclosetnocの回答 を参照してください。ただし、意図した以上にブロックされる可能性があり、すべてのIPをキャッチできない(および/または最新の状態になる)ことに注意してください。
サイドノート:レポート機能
アーカイブされた各バージョンは、「SEOの問題」や「著作権」などの理由で、悪用の可能性を報告できるフォーム(/abuse
を追加)にリンクしています。しかし、これらのケースを処理するかどうか、またはそれらがどのように処理されるかはわかりません。
Archive.isの不快な窃盗行為をブロックするには(robots.txtを無視し、正規のリンクを無効にし、ユーザーエージェントを偽装し、サイト全体を削除する方法はありません)、上記のソリューションに以下を追加します。
IPアドレスを見つける
それらのIPアドレスを見つけるには、管理下にあるURLを送信して、Webサーバーのログを監視して、そのURLにアクセスしたユーザーを確認できるようにします。 Webサーバーがリクエストを受信する限り、URLは存在する必要さえありません。 (したがって、存在しない空のページ/ URLを使用することをお勧めします。)たとえば、次のようなURLを使用します。 http://example.com/fuck-you-archive.is
次に、ログをチェックして、URLにアクセスしたユーザーを確認します。 grepを使用して確認できます。
grep "fuck-you-archive.is" web-server-log.txt
IPアドレスを取得したら、他の回答のソリューションを使用してIPアドレスをブロックできます。そして、プロセスを再度繰り返して、使用する他のIPアドレスを見つけます。別のURLを指定して、HTTP要求を再度実行させる必要があります。たとえば、単に http://example.com/fuck-you-archive.is を http ://example.com/fuck-you-archive.is?2 など.
IPアドレスを見つけようとしてWebサイトをまったく公開したくない場合は、この便利なHTTPリクエストWebサイトを使用できます。 https://requestb.in RequestBinを作成し、BinURLに「?SomeRandomNumber」を追加してArchive.isに「BinURL」を送信し、RequestBinの「?inspect」を使用してArchive.isからの着信要求を監視し、IPアドレスを確認します。 「Cf-Connecting-Ip」HTTPヘッダー。 (「?inspect」のURLをArchive.isに送信しないようにしてください。)「?SomeRandomNumber」を別の番号に変更して、他のIPアドレスを見つけるために繰り返します。
IPアドレスをブロックする
IPテーブルでは、次を使用してブロックできます。
/sbin/iptables -A INPUT -s 78.108.190.21 -j DROP
しかし、多くの場合、「INPUT」チェーンはHTTPトラフィックを受け入れる「DROP」ポリシーに設定されます。その場合、追加操作の代わりに追加(挿入)操作を使用する必要がある場合があります。そうでない場合は、まったくブロックされません。
/sbin/iptables -I INPUT -s 78.108.190.21 -j DROP
ただし、多くのIPアドレスがあるため、完全なIP範囲をブロックする方が簡単な場合があります。これをIPTablesで(サブネットマスクを指定する必要なしに)便利に行うことができます:
iptables -I INPUT -m iprange --src-range 46.166.139.110-46.166.139.180 -j DROP
この範囲(46.166.139.110〜46.166.139.180)は、46.166.139.110と46.166.139.173の間で複数のアドレスを見ているため、それらが所有する大部分です。
ウェブホストに不正行為の申し立てを送信する
彼らは現在、NFOrceをWebホストとして使用しています。 Archive.isについて苦情を申し立てる方法については、 https://www.nforce.com/abuse を参照してください。言及:1)archive.isが盗まれたWebページのURL、2)盗まれたコンテンツを含むarchive.isのURL、および3)使用したIPアドレスを記述してください。
また、パフォーマンス上の理由で盗まれたページと画像をキャッシュするCDNであるCloudflareで苦情を申し立てることもできます。 https://www.cloudflare.com/abuse/
ご覧のとおり、archive.isはDNSエニーキャストを使用しています。
異なるネームサーバーを使用している場合(たとえば https://www.lifewire.com/free-and-public-dns-servers-2626062 )、現在(2018-09-10)異なるIPアドレスを取得しています「archive.is」の場合(@NAMESERVER archive.is Aを掘る)
104.27.170.40
104.27.171.40
154.59.112.68
185.219.42.148
46.105.75.102
46.17.42.43
46.182.19.43
46.45.185.30
80.211.3.180
81.7.17.119
91.121.82.32
91.219.236.183
94.16.117.236
Abuse-contacts.abusix.org( https://www.abusix.com/contactdb )を使用して、これらのIPアドレスの悪用連絡先を取得しました。
abuse@as42926.net
abuse@cloudflare.com
abuse@cogentco.com
abuse@isppro.de
abuse@nbiserv.de
abuse@netcup.de
abuse@ovh.net
abuse@serverastra.com
abuse@staff.aruba.it
abuseto@adminvps.ru
noc@baxet.ru
Cloudflareが報告したように、archive.isは機能を持たないDNS Aレコードを使用して「サービス」を悪用しています!
また、アイスランドのドメインレジストリwww.isnic.isでレジストラに連絡することも検討してください。 isnicのisnicドットは
アイスランドには著作権法があり、レジストリはそれを認めています。レジストリは1980年代後半から存在しており、ICANNの下にはありません。