ここではarchive.isのサーバーIPアドレスを公開しています。
関連記事はタグ「archive.is」から。
リストを作ったわけ
archive.isはWebマスターからのアーカイブ削除要求を無視し、対象サイトのcanonical、description、keywordsやOGP、Twitter情報を書き換え、対象のサイトを自身のコンテンツと偽って公開しています。
アーカイブされたページにはきっちりとインデックス許可のアーカイブ拒否属性が指定されています。
その為、サイトに使用している素材等のライセンス/使用条件によっては違反する可能性があります。
また、サイトのdescription、keywordsを流用する為、同じコンテンツ同じキーワードのサイトとなり検索エンジンにヒットするようになります。
さらに、canonicalの設定がarchive.isに書き換えられるため、アーカイブされたサイトのオリジナルはがarchive.isとして設定されます。
検索エンジンにインデックスされていないサイトの場合はほぼ確実にarchive.isがオリジナルサイトとしてインデックスに登録されると思います。
目次
・archive.isへの連絡
・アーカイブされたコンテンツの削除
・archive.isの別ドメイン
・リストのIPアドレスの使い道
・archive.is サーバーIPアドレス一覧
・更新履歴
archive.isへの連絡
archive.isへの連絡はアーカイブページに設置されている連絡フォームを使用するか公開連絡先であるwebmaster@archive.isへメールを送る必要があります。
公開連絡先への連絡は無視され連絡が多いとメールをスパムとして処理されます。
メールサーバーはGoogle Appsを使用しているので破るのは難しいですが、送信専用のサーバーを所持しているのであればちょっと偽装するだけで送信可能です。
Google Appsを体験版で使用した感じから推測すると、
契約者がスパムメールとしたメールを学習し自動でスパムとして振り分け、それでも沢山メールが来る場合は契約者のブラックリストへ登録されます。
ブラックリストへ登録された段階でメールの送信は失敗するようになり、Googleがスパムと認定した場合はGmailのグローバルブラックリストへ登録されます。
wolfs.jpからは約23000メールを送信しましたがarchive.isのブラックリスト止まりですので、メール内容が正当な場合はグローバルブラックリストへ登録はされないでしょう。
ちなみに、ブラックリストへ登録されるとこのようなレスポンスが帰ってきます。
550-5.7.1 [wolfs.jp] Our system has detected that this message 550-5.7.1 is likely unsolicited mail. To reduce the amount of spam sent to 550-5.7.1 Gmail, this message has been blocked. Please visit 550 5.7.1 https://support.google.com/mail/answer/188131 for more information. 30si1817061ior.27 - gsmtp 554 5.0.0 Service unavailable
アーカイブされたコンテンツの削除
archive.isは自身が使用しているサーバーの規約で禁止されているコンテンツは削除される可能性があると書いています。
Do you delete my stored page(s) ?
Pages which violate our hoster's rules (cracks, porn, etc) may be deleted. Also, completely empty pages (or pages which have nothing but text like “502 Server Timeout”) may be deleted.
引用: http://archive.is/faq
また、白紙ページや500エラーなども削除するようです。
それ以外はいくら削除フォームから申請してもメールで連絡しても削除される事はありません。
ですので、法律に触れない普通のサイトであればarchive.isにアーカイブされたページは削除されないでしょう。
指をくわえて見てるだけなの?って思いますが、ささやかながら反撃はできます。
Googleの検索エンジンはDMCAに則っていますので、DMCA申請を行うことで検索結果から削除が可能です。
https://www.google.com/webmasters/tools/dmca-notice
また、DMCA申請で著作権違反が複数認められたドメインは検索結果の順位が上がり難くなるペナルティが発生します。
archive.isが複数ドメインで運用しているのはこの辺りが絡んでいるのだと思います。
アーカイブされて困っているWebマスターさんはDMCA申請をして検索結果から削除してもらいましょう。
これだけでアーカイブされたサイトにユーザーが訪問する確率は低くなります。
申請時には複数のドメインで同時に申請すると手間が省けます。
現在(2016/12/21)はarchive.isの前面サーバーは全てCloudflareサービスを利用しています。
Cloudflareは著作権侵害やDMCA違反を行っているサイトのアビューズ報告を受けつけています。
https://www.cloudflare.com/abuse/
しかし、Cloudflareは海賊データ配布サイトであってもサービス停止を拒否(裁判所の命令があれば別らしい)するなど顧客優先なサービスですので、Cloudflareがarchive.isのサービスを停止する事はまずないでしょう。
しかし、Webマスターからの著作権侵害やDMCA違反の報告が多ければCloudflareからarchive.isへの連絡が増え、信用度はドンドン下がると思います。
それにもしかしたらサービスが停止されるかもしれません。
Cloudflareへは資料の説明欄にでもGoogleのDMCA申請で生成された透過性レポートのURLを記載すればより効果的です。
archive.isの別ドメイン
archive.isは複数のドメインがありどのドメインからでも同一コンテンツにアクセス可能なようです。
例: archive.is/XXX であれば archive.fo/XXX でも同一のアーカイブページにアクセスできます。
私が確認したドメインは以下の通りです。
| ドメイン | ドメインの国 | メモ |
| archive.is | アイスランド (Iceland) | |
| archive.ec | エクアドル (Ecuador) | archive.liへリダイレクト |
| archive.fo | フェロー諸島 (Faroe Islands) | |
| archive.li | リヒテンシュタイン (Liechtenstein) | |
| archive.today | 汎用ドメイン (Generic) | archive.isへリダイレクト |
リストのIPアドレスの使い道
下記リストのIPアドレスを.htaccessやファイアウォール等に登録する事でサイトのキャッシュを防ぐことができます。
.htaccessの場合は403 Forbiddenページがアーカイブされます。
(archive.isは403等のエラーサイトは削除すると記載していますが、今のところ403や404エラーが出ているサイトでも残っています。)
ファイアウォールやフィルター等でIPまたはTCP層でブロックすると、ネットワークエラーと表示されアーカイブページ自体が生成されません。
私個人としてはファイアウォールやフィルターでのブロックを推奨します。
ちなみに、
このリストのIPアドレスを全て拒否してもarchive.isからのアクセスをすべて拒否する事はできないと思います。
archive.isが新しいIPアドレスを持つサーバーを導入すれば、新しいIPアドレスのサーバーからは接続を許してしまいますので・・・
新しいサーバーを確認次第追加していきます。
archive.is サーバーIPアドレス一覧
※ 最新の更新項目は強調して表示されています。
| 更新日 | 開始IP | 終了IP | マスク | 社名 | 照会に使用したIP | メモ | |||||||||||||||
| 2016/04/22 | 46.166.136.0 | 46.166.143.255 | /21 | NForce Entertainment B.V. | 46.166.139.173 | キャッシュサーバー? | |||||||||||||||
| 2016/07/31 | 78.46.0.0 | 78.47.255.255 | /15 | Hetzner Online GmbH | 78.47.86.130 | キャッシュサーバー? | |||||||||||||||
| 2016/05/19 | 78.108.176.0 | 78.108.191.255 | /20 | Yes Networks Unlimited Ltd | 78.108.190.21 | キャッシュサーバー? | |||||||||||||||
| 2016/06/24 | 139.162.192.0 | 139.162.223.255 | /19 | Linode, LLC | 139.162.218.90 | キャッシュサーバー? | |||||||||||||||
| 2016/09/30 | 146.0.72.0 | 146.0.72.255 | /24 | HOSTKEY B.V. | 146.0.72.195 | キャッシュサーバー? | |||||||||||||||
| 2016/04/22 | 146.0.75.0 | 146.0.75.255 | /24 | HOSTKEY B.V. | 146.0.75.2 | Webサーバー | |||||||||||||||
| 2016/04/22 | 178.62.128.0 | 178.62.255.255 | /17 | DigitalOcean Amsterdam | 178.62.195.5 | データサーバー? | |||||||||||||||
| 2016/06/24 | 104.16.0.0 | 104.31.255.255 | /12 | CloudFlare, Inc. | 104.24.125.35 | CDN | |||||||||||||||
|
archive.isのWebサーバーは全て「CloudFlare」に移行したようです。 CloudFlareからアクセスされることはないと思いますが一応記載しておきます。
|
|||||||||||||||||||||
更新履歴
2016/12/21: WebサーバーがCloudFlareを中継するようになったようなので各ドメインのCloudFlareサーバーIPを記載、「アーカイブされたコンテンツの削除」を記載 2016/09/30: HOSTKEY B.V.の新しいIPレンジを追加 2016/09/26: NForce Entertainment B.V.のマスク値が間違っていたのを修正、Linode, LLCのASNが間違っていたのを修正 2016/07/31: 78.46.0.0/15を追加、archive.isへの連絡を記載 2016/07/16: 別ドメインを記載 2016/06/24: 139.162.192.0/19とCDNサーバーを追加 2016/05/19: このページを新規作成、新たに78.108.176.0/20を追加 2016/04/22: 以前の記事で調べた物を記載 (http://blog.wolfs.jp/20160422-3613/)
2017/02/17 (金曜日) 02:49:16
何か最新の情報はありますか?
2017/02/17 (金曜日) 20:13:39
今の所は動きがないようです。
IPも公開しているのを使用していればアーカイブ化をブロックできています。
2016/12/19 (月曜日) 14:26:34
役立つ情報ありがとうございます。
今後も更新状況をチェックさせてもらいます。
2016/10/17 (月曜日) 04:38:28
貴重な情報、ありがとうございます。
私に関して、10/10時点でのarchive.isのアクセスログは、78.47.86.134 でしたが、
10/14時点では、また、7月以前に戻ったのか、46.166.139.120 になっていました。
真剣にサイトを作成している者にとって最大の敵、archive.is というゴミページを量産している最大の犯人は、ウィキペディアでしょう。
それにより、検索に archive.is のコピーページが引っかかってきて、迷惑以外の何物でもありません。
ネットの世界を汚しているウィキペディアなんぞ、もう、この世に必要ありません。
これからも、有益な情報よろしくお願いします。
2016/09/26 (月曜日) 18:47:16
こんにちは。有益な情報ありがとうございます。
NForce: /20 だと開始は 46.166.128.0 ですね。
ではでは。
2016/09/26 (月曜日) 19:00:45
たびたびすみません。
linodeのASは63949っすかね...
2016/09/26 (月曜日) 22:07:28
NForce Entertainment B.V.のマスク値は間違いです。
編集履歴を見たら21だったのを何かの拍子に20にしちゃったようです・・・お恥ずかしいw
IP範囲はあっているようなので、マスクの値は21です。
Linode, LLCのASN違うところを書いていますねー・・
AS63949で139.162.192.0/19が出てくるので間違いないようです。
報告ありがとうございました!
2016/08/07 (日曜日) 09:25:03
「公式サイトに書かれていないサーバー情報を公開するのは」
著作権侵害の極悪ツールからの防衛策公開は著作権保有者の公益に適っているし、別に企業秘密でもなく多少面倒でも誰でも調べれば解ることを公開しているだけのことです。
「優秀なサービス」
この手のリテラシー欠如、知的財産権に無知というか鈍感なひとはどこぞの隣国だけではなく日本にもいるんですね。著作権を無視したり侵害する連中にとって「優秀」なだけです。
ちなみに、ころころ変るIPアドレス規制以外にこんな対策もありです。私が自分のサイトで実際にやっています。
RewriteCond %{HTTP_REFERER} ^$
RewriteCond %{REMOTE_ADDR} !^66\.
......
RewriteCond %{HTTP_USER_AGENT} !Googlebot
......
RewriteCond %{HTTP:Accept-Language} !^ja
RewriteCond %{ENV:GEOIP_COUNTRY_CODE} !^JP$
RewriteRule ^.* - [F]
.htaccessへの記述ですが、
「リファラーなし」で「IP=66.以外」「UA=Googlebot以外」
(他、YahootとかbingbotとかのIPとUAを適当に追加)
からのアクセスがあったら403、又は任意のURLへリダイレクト。任意のページへ飛ばすなら一応トップページやいくつかの主要ページへのリンクを張ったページにしてもいいし、403ページにそれらのリンクを作っておいてもいいでしょう。海外からのアクセスを犠牲にすることになりますがまあ、大概は国内に住む日本語使用の人が見に来ているサイトならこれもありです。私のサイトではこれで特段問題なく、検索エンジンのクロールや順位付けも正常に行なわれています。
2016/08/07 (日曜日) 09:36:02
追伸:書き忘れましたがご覧のとおり、条件としてさらに「言語が日本語以外」「接続国が日本以外」、です;;
2016/08/07 (日曜日) 16:58:08
この問題はWebサイトを所持し管理している人でないとわからない事だと思います。
私のようにライセンス購入した素材がある人は尚更です。
確かに国内限定で良いならば確実にアーカイブをブロックできて良い考えです。
GeoIPに対応しているサーバーならGeoIPだけである程度の国判別はできるのでお手軽でいい方法ですね。
2016/08/12 (金曜日) 07:27:57
最近、archive.isの別ドメインも出来ていることに気がつき、検索をしておりましたところ、こちらに辿り着いた次第です。少々上目線なコメントをやってしまったかなあと思っておりましたが返信ありがとうございました。実は、私のサイトが本年3月ごろに集中攻撃を受けまして、すべてのページがアーカイブされてしまいました。もちろん先方は削除要請に応じません。
もっと問題そうなのが、そのアーカイブが、一般ユーザーがやったのではなく、どうやらarchive.isの管理者自身によると思われることでした。ログを見ると、数秒おきに連続して、そのつどIPとUAが相互にころころ変っていたためです。UAに関しては、検索エンジンのクローラーを偽装しているものもありました。これらのアーカイブのうちGoogleにインデックスされたのはごく少数で、少なくともGoogleはスクレイピングをやるサイトだと認識している様子で、検索して出てきたのはごく少数のページでしたので、そちらはDMCAの申立をして検索結果から削除してもらいました。
こういう出来事があったので、最初にコメントさせていただいたような対策をとった次第ですが、IPによる対策も続けて行きたいと思いますので、更新があったらまた拝見させていただきます。
2016/08/12 (金曜日) 16:49:14
archive.isに関してはイラっとする事が多いので同じような思いで見ていました。
実は私のサイトもほぼ全ての記事が同じ日にアーカイブされていました。
しかし、時間の方はズレがあるので「暇なヤツがやったんだなー」って程度に考えていました。
archive.isの検索順位が低いのはGoogle DMCAでかなりの数の著作権違反が承認され信用度が低くなっているからでしょう。
archive.isが別ドメインで運用を始めているのはその辺りが関係しているのではないかなーと思っています。
こんな記事でもお役に立てば幸いです。
2016/06/28 (火曜日) 20:09:21
公式サイトに書かれていないサーバー情報を公開するのはどうかと。
許可を得てから公開すべきです。最も許可は下りないと思いますが。
2016/05/20 (金曜日) 13:20:31
優秀なサービスなのになぜ?
2016/10/21 (金曜日) 03:14:37
文章読めよ...