Internet Archive総合 (web.archive.org) #1
何も無くスレを立てるのもアレなんでテソプレみたいなもんも作りました
Web Archiveだけではすぐに話題は尽きてしまいますが
Internet Archiveなどのさまざまな記録も話題に加えれば話題は尽きないと思います 多分
詳しく
再開してくれないもんかねぇ(出来れば日本語対応で)
しかし語ることねーな
わざわざエンコードするの面倒だからどうにかしてS-jisに固定できないものだろうか…
Internet Archive開くときだけ使ってみるか。
難しくなってないか?
Zipだとか過去手に入った物が手に入らない。
Proxomitron専用Uploaderの「pr0043.txt」
ttp://proxo.hp.infoseek.co.jp/cgi-bin/sn_uploader/2.html?1193422532
フィルタ、リスト公開/8 - Proxomitron等に関するWiki
ttp://abc.s65.xrea.com/prox/wiki/%A5%D5%A5%A3%A5%EB%A5%BF%A1%A2%A5%EA%A5%B9%A5%C8%B8%F8%B3%AB/8/
とりあえずInternet Archive の文字化けを直すヘッダフィルタのみ有効にした。
手間が省けていいもんだね。
どうなってる?
どれどれ俺もやってみよう
時間おけば見られることあるの?
Q. 毎日のようにキャッシュが残っていたサイトなのに
最近のものが何故か無くなっている。
A. Wayback Machine で表示できるのは 6 ヶ月前より古いキャッシュで、
それ以降の分は 6 ヶ月経つまで表示されません。
最近 ttp://www.archive.org/index.php と
ttp://www.archive.org/web/web.php が落ちてることが多いな。
それでも ttp://web.archive.org/web/*/ごにょごにょ
とかやるときちんと動いてる。
おや、1年てのは勘違いか、ルールが変わったのか…
オミトロンを教えてくださった方 どうもありがとうございました
昔消えたサイトを復元できますが、それをされないようにサイトを作ることはできますか?
HPの製作者が消した後なら、
ウェブアーカイブに残らない、なんてことを聞いたこともありますが、
そんなことありえないですよね?
あるいは、文字化けして、どっちみち見れないようなものとして表示される、
とも聞きましたが、それも間違いですよね?
ここに書いてあるとおりにすればいい。
ttp://www.archive.org/about/exclude.php
英語がわからなければ適当にぐぐって。すぐ情報でるから。
文字化けはキャッシュしたページの文字コードを無視して
UTF-8で表示してるだけで正しい文字コードに変えれば見れる。
http://gigazine.net/index.php?/news/comments/20080127_1996_internet/
という文字が出て、ようやく探し当てたページなのですが見る事が出来ません
少し調べたのですが、見れないのです。これは打つ手無しでしょうか。
それはデータをクロールする検索ボットをお断りしますっていうヤツだから無理
というかまともな検索サイトじゃ検索結果にも出ないハズ
もしキャッシュが欲しいならマイナーな検索エンジンやちょっとUGちっくな検索サイトを使った方が出やすいかも
もし晒しても問題無さげサイトなら晒してみ
手伝いくらいならできるかもよ
普通にクリックでは表示されないのですが、何とか見る方法はありますか?
検索しても見られないのです。archives/2006-11.html?p=2
それと、1年以上公開されていたブログで月別アーカイブが約半分程度しか残っていないのですが、
他の月分は今後見る事は不可能でしょうか?
魚拓系サイトも見たのですが、トップページのみのリンクでだめでした。
livedoorのブログは、アカウント以降は全て同じで次のページへのリンクが
/archives/2006-11.html?p=2で見られる様になっているのですが、
ページが存在しませんと出てしまいます。
残念ながらurlは晒せないので、もう少し頑張ってみます。アドバイス有り難うございました。
上のお絵かき掲示板のNo.6220-6247の絵を見たいんだけどなんかいい方法ないですかね。
推測するには2007年の6月から5月だと思うんだが。
web archiveじゃあ無理臭い。
しかもどう見ても児ポでFBIから睨まれそうなトコだし…
で話は変わるが俺その画像(というかHTMLログ全て)持ってるかも知んない
これ以上はスレ違いだから
・比較的流れの速そうな板の適当な糞スレへ誘導
・50メガ程度うpできるロダ
この2つ用意したら揚げてやんよ
英語読めないからアナウンス出てるかもわからんし
すいません、助かります
ttp://degwin.cool.ne.jp/nanika/download/nekomimi.nar
って言うファイルで、2004年の1月初期まで公開してたっぽいんです
恥ずかしいから早く過去を消し去りたいのに・・・
( ^ё^) ヤダァ、見ないで!恥ずかしい…
(つ/ )
|`(..イ 彡サッ
しし'
ハゲ黙れ
上のアップローダーのファイルを保存して新しいところに上げてみたいのですが
Not in Archive.って出てしまうんですが。どうしようもないんですかね?
くにおくんシリーズとか。
どなたかやり方を教えてください!
ttp://web.archive.org/web/*nr_130/http://rollin.jp.land.to/*
無効のシステムのエラーならまだしも、
Not in archive だけは無理だろ。
「ページを表示できません」ばっかりだorz
同じく。一体何がおきてるorz
勘違いかな?
確かにここの所それが出る頻度が妙に多くなってるな。
日をあらためれば見れるという人もいるし希望持ってるんだが保存されてないんだったら無理だよなー
アゲます
その言葉の意味からしても諦めたほうがいいと思う
Failed Connectionならうまくいけば繋がる→繋がれば残ってるかもしれないけど
HTTP_USER_AGENT: ia_archiver
, '´ ヽ
/ /ヽ\ ヽ
/ / `、 \ ヽ ゙,
.i i ヽ、`ヽ、 \ ',
i !. ==、 `ヽ、`ヽ、!
| l丁 ̄ ̄`i-f´ ̄`ヽ、ヽ !
| !.ヽ --‐' `ー‐一1ヽi
| i i 丶 ! ,'
! ! `ー '" ,' i ホームページのダウンロードや印刷は禁止します
i /ヽ ー一' /ヽ、! アーカイブも禁止します
V \ ,、 .// ヽ 、_ 法律は糞くらえだ俺が嫌だと言っている
.r'"´ ̄ |. /,へっ‐'" / i ``'‐- 、
/ / | / く★へ ,. へ、. l ヽ
./ ⌒ / /`) ヽ/ i
Internet Archiveの様なサイト他にないのかな
無かった、やはり無理だよね
並べ方的にこの後なのに
http://web.archive.org/web/*sr_19981nr_30/http://homepage3.nifty.com/*
こういう仕様なのかな?だいたいのURLはわかります
ttp://web.archive.org/web/*sr_19995nr_1/http://homepage3.nifty.com/*
確かにそういう仕様なのかもな。
URL のページ番号を示す部分が 19999 の次は -1 になってしまう。
あとは、 検索範囲を狭めて根気良くやっていくしかないと思う。
ttp://web.archive.org/web/*/http://homepage3.nifty.com/1*
ttp://web.archive.org/web/*/http://homepage3.nifty.com/2*
そんな障壁があったとは知らなかった。
あとドメイン失効したサイト跡地にrobots.txt置く業者ウゼェ、マジで氏ね
しばらく日をおいたらサーバー増強で直ってるんじゃね?
数メガバイトのzipファイルも1Mb/s辺りで落ちてくる。
1バイト欠けるのは相変わらずだけど。
昨年8月以降止まってる気がする。
ほんとだ。 8 月末で切れてる。
ttp://web.archive.org/web/*sa_/http://www.goo.ne.jp/
ミラーも同じ状態。
ttp://web.petabox.bibalex.org/web/*sa_/http://www.goo.ne.jp/
違う。
というか、某所のフィルタを利用するつもりなんだろうけど
フィルタのインポート、エクスポートの方法を調べた方がいいよ。
ついでに、text/html だけじゃなくて、text/plain も考慮してみては。
ども。俺にはややこしそうだから諦めるわ('A`)
これは二度と消すことができないのでしょうか?
また、今のHPも残っていますが、これは今からでも何か処理することで
残る事を防げますか?
自分のHPを消したいだけですので、教えてください。
以上
それすらできないくせに消したいと思うなど100年早い
これって何なの?日本語訳が解らないわけでなく、ある程度のサイズのファイルを落とそうとするとかなりの頻度で見かけて困る。
嘘つくなよ
データ検索失敗というエラーがある程度容量(5MB以上?)であろうファイルで頻発するのがどうにもエラーメッセージと結びつかないから書いたのだよ
HTMLにロボット禁止タグを入れると保存されたデータが消えるというのは本当ですか?
不安だ
ぼくがもっとおおきくなって、 えいごがよめるようになってからかんがえましょう。
http://web.archive.org の 「よくあるしつもん」 のぺーじにかいてあります。
それいがいのほうほうはありません。
どめいんのどきゅめんとるーとのあくせすけんがないばあいは、
すなおにあきらめましょうね。
>>113
> 公開されてないだけでちゃんと8月以降もクロールはしてるんだよな?
"ia_archiver" でぐぐると、 足跡を残したアクセス統計が出てくる。 今月のものもある。
クロールしただけで保存されていない、 なんて可能性も否定はできないけど。
あと考えられるのは日数計算のバグくらいか。
試しに "Data Retrieval Failure." を Infoseek の翻訳に掛けてみたら
本当に "データ検索失敗" が出てきた。 これは痛い。
データ処理を表現するときの "retrieve" は、
"get のやや形式ばった表現" 程度に考えるのが普通。
少なくとも "search" ではない。
,. '" `丶、
/ ` 、
,..-‐/ ...: ,ィ ,.i .∧ , ヽ.
. ,:' .l .::;',. :::;/..://:: /,':/ ', l、 .i ヽ
. ,' ..::| .::;',' :;:','フ'7フ''7/ ',.ト',_|, , ',.',
,' .::::::!'''l/!:;'/ /'゙ / '! ゙;:|:、.|、| 'l
. ,'. .:::::::{ l'.l/ 、_ _,. 'l/',|.';|
l :::::::::::';、ヾ  ̄ `‐-‐'/! ';. '
. ! :::::::::::/ `‐、 ゝ |'゙ |
| ::::::::/ \ 、_, _.,.,_ ノ::: !
|::::/. _rl`': 、_ ///;ト,゙;:::::./
.. `´ /\\ `i;┬:////゙l゙l ヾ/
,.:く::::::::`:、\ 〉l゙:l / !.|
. /:.:.:.:\:.:.:.:.`:、ソ/:.:| | |
/.:.:.:.:.:.:.:.:.:\:.:.:.:У:.:;l /./
. /:.:.:.:.:.:.:.r'´`‐,`、:/.,.:‐{ | !`:、
,'.:.:.:.:.:.:.:.:.';_,゚.,ノ.:./,:':.:.:.:', | |`、:|
!:.:.:.:.:.:.:.:.:.:.゙、:.::/:.:.:.:.:.:.ヽ, / ,!:.:`、
web_archiveさんが古いパーツや周辺機器のドライバと、
OSやアプリの修正パッチを永久保全しておいてくれますように♪
㌧
ビビルわぁ
要因による。
見れないと思うぞ
まるっきり表示されないのだが、どうなっとるのかね?
そのURLのサイトは軒並みブロックされてたからその所為かも
他のブロックされてたサイトのURLをサーチしたら真っ白画面になる
前はブロックしてますメッセージが出てたのに
たまに見られたりする時があったりしたのにもうそれも無くなるのかな
<BASE HREF="http://元の URL のドメイン部分/"> というタグを
<head> タグの直後に挿入していたけど、 これが
<BASE HREF="http://元の URL のドメイン部分.way_back_stub/">
というタグに替わってしまった。
何が問題かと言うと、
例えば http://www.example.com/hoge.html のキャッシュを開いたとき、
そこで使用されていた画像は今まで www.example.com サーバへ取りに行っていたのが
www.example.com.way_back_stub サーバへ取りに行こうとしてしまう。
(その後、 JavaScript で web.archive.org 内の画像に差し替えられるけど。)
www.example.com.way_back_stub なんてサーバは当然存在しないわけで、
ブラウザは DNS からエラーが返るまで待ってしまう。
最近、 キャッシュの表示が遅くなったと感じている人はそれが原因かも。
何らかの方法でそういう URL へのアクセスをブロックすることを薦める。
例えば Opera なら、 「http://*.way_back_stub/* 」 を
「コンテンツのブロック」 のリストに加えれば良い。
IE の対処方法は無いような気がする。
ほうほう貴重な情報ありがとん!
ここ応用すればIEでもイケルかな?
特設:時報撃滅大作戦 - ニコニコ動画まとめwiki
ttp://nicowiki.com/%E7%89%B9%E8%A8%AD%EF%BC%9A%E6%99%82%E5%A0%B1%E6%92%83%E6%BB%85%E5%A4%A7%E4%BD%9C%E6%88%A6.html#p54ec720
おぅおぅ、 こんな過疎スレをチェックしてるとは……。
うちは未だに Proxomitron 使ってるんで、 殆どのブラウザをブロックできるんだけど
開発が止まった古いソフトだし、 Prox ユーザなら方法はすぐ思いつくだろうから
敢えて書かなかった。
ありがと。
User-agent: ia_archiver
Disallow: /
ってなrobot.txtをアップして
ttp://www.alexa.com/site/help/webmasters
ここでCrawl My Siteボタン押してから2ヶ月近く経ったけど未だに削除されない…
削除依頼の仕方間違ってるのかな?
○ robots.txt
レスする際に書き間違えていました。robots.txtとしてアップロードしてます。
それで何故か今日の4時ごろにメールがきていました
Hello,
Your site has now been excluded from the Wayback Machine. Please wait an hour for the changes to take effect. If you have any other questions or concerns, please let me know.
削除されたのを確認しましたが、なんでこんなタイミングよく今頃になってメールきたのかサッパリです。
他にいい所ありますでしょうか?
クローラを使って手当たり次第に保存していくサイトは
ここ以外に無いでしょ?
あそこの音源って直リンクかましてもOKなん?
ただ余りにも人が来るサイトや負荷をかけるツールを使うような厨が来るサイトなら
メールで許可取っといた方が無難
ありがとう。
じゃあ例えばCCLPで曲を公開してるアマチュアミュージシャンが
倉庫代わりにAudio Archiveに自作曲を置いて、自サイトに直リンク
させて公開って手法も有りって事になっちゃうんだね。
メールでの許可取るのが非英語圏の人間には大変そうだけど。
>>139の「例えば~」ってのにつっこむと、
可能な限りメインリンクとしてでは無くミラーリングリンクとしてAudioArchiveを使ったほうが良いと思うね。
例にInternet Archiveに許可を取ってゲームのTAS(Tool-assisted speedrun)動画を鏡公開してるサイト貼っとく。
Speed Demos Archive
ttp://speeddemosarchive.com/
あと英文メールでの許可なんて、数~数百メガのファイルが倉庫代わりに置ける鯖やサービス探すより遥かにラクでしょ?
辞書片手の昔ならいざ知らず、今はExciteとかWeb翻訳等のエンジンもかなり向上してるしさ。
ちゃんとメアド・自サイトURLなどの身元や、CCLPで公開してると明記しとけば審査も通るハズ。
実際の所>>137が何をしたいのかわからんけど、俺のレスが何かの参考になればいいな…と思ってる
丁寧にありがとう。
> 実際の所>>137が何をしたいのかわからんけど
昔やっていた2ちゃんのまとめサイトのデータの中の音源部分をAudio Archiveにアップ
しようかと思っているんですよ。2chで公開されていたものなんでPD同然ですけど、
空気として非営利が当たり前って感じでしたから、まぁCCLPで非営利-継承くらいが
適当なのかな、と。
で、公開するのに直リンクは止めてねと明示しておいた方がいいのかどうか、
特に記載も無いからOKって事なのか、分かりかねていたところでありました。
仰るようにIAの運営目的を考えたら倉庫的に使うのではなく、あくまで実際の図書館がそうであるように
「納める」先の一つとするのが筋ですわね。
もし2chなどに貼られたら転送量がハンパじゃなくなるし、やっぱ「納める」先の一つと考えた方がベター
あと俺、音楽詳しくないし法律詳しくないしスレ違いだけど
"2chで公開されていたもの"って139が作った音源じゃないの?
だとしたらPDじゃなく権利はまだ製作者にあると思う→ドワンゴ問題
削除依頼スレ等でよく間違いを見るんだけど、2chでのレス(文章)は2chに帰属するけど、2chにリンクとして貼られたブツは管轄外
とくに音楽関係は様々な団体の利権が絡みやすいので気を付けて
なるべくだったら製作者に「これこれでこう公開する」と許可取った上で公開した方が良いと思うよ
大きなおせっかい老婆心スマソ
親切にアドバイスありがとう。
確かに権利関係はちょっとは気にしてます。名無しor捨てハンの人の作品ばっかりなんで、
許可の取りようが無いってのが実情ですが。
作り手の心意気を汲んだ形で後世に残るようにしたいとは思ってます。
転送量についても気にするところですが、サーチエンジン弾いてこっそり奉納って
多分できないですよね。noindexのオプションはIA内でのサーチからは隠れてもGoogleのロボット検索は弾いてくれない
みたいなんで。
そのサイトを閉鎖する時にどうやってアーカイブブロックするのかな?
解約したらテキスト置けないし、メールで要請した時はどうやって本人確認取ってるの?
それと数年後にまたサイトやりたくなって同じドメインを取得してブロック解除要請とか出来る?
最後に、
契約終了後のレンタルサーバー側で勝手にブロックしてるところもあるみたいなんだけど
その場合同じドメイン取得するれば自動的に解除になるのかな???
質問ばかりですんません。詳しい人いるかなー。
閉鎖だからブロックだの、 後で解除だの、 はた迷惑な話。
Internet Archive 等の長期キャッシュのみ排除するよう、
robots.txt の中身を考え直すほうが先。
> 契約終了後のレンタルサーバー側で勝手にブロックしてるところもあるみたいなんだけど
ドメインが失効してしまえば、 DNS から抹消される。
レンタルサーバ側でどんな対応をしたところで、 いずれは無関係になる。
DNS から引けない状態を、 IA は HTTP 404 エラーと同様に
「robots.txt 未設置 = すべて許可」 として処理しているように思える。
開設後かなり時間が経ってから robots.txt を置き、 その後廃止されたサイトで
robots.txt 設置後のキャッシュは確かに IA に残っていないのだが
設置前にクロールした分はドメイン失効後に公開されてしまった、
そんなのを見たことがある。
その指摘が正しいのは重々承知してます。
だから現実的には著作権侵害が親告罪なのを考慮して、とりあえずアップして
問題があったら削除しますから連絡下さい。作者とわかる証拠と共に。みたいな形に
なるのかな、と。GoogleStreetViewみたいなオプトアウト式を取ってますよ、とういう形。
実際文句を言われる事は無いとは思うんだけど、2ちゃんねる的な空気感の伝わらない
ところに保存するんだから、アピールでもあれそういった形だけ見せる必要はあるかな、
とは考えています。
話題が完全にスレ違いになってしまいましたね。御免なさい。
ttp://r25.jp/b/honshi/a/ranking_review_details/id/1112008111304
7年前のネット世界にタイムスリップ。
10月末までの期間限定サイト『2001 Google Search』では2001年時点でのキーワード検索の結果が表示され話題になった。
でも、どうしてグーグルで過去のサイトが検索できたのだろう? もしや膨大な量のサイトを保存しているのか。
サーチエンジンや情報検索を研究する早稲田大学基幹理工学部の山名早人教授に話を聞いた。
「グーグルは過去のサイトの保存を公式に認めていません。
見ることができたのは、アメリカにある非営利団体『インターネット・アーカイブ』が保存しているサイトにリンクされていたからです。
ここはWEB上に存在したサイトを保管する図書館のようなもの。
本と同じようにサイトの情報も未来に残す文化と捉えて様々なサイトを収集、保存しています」
収集頻度はWEBページの更新間隔を予想してロボットが自動的におこなうので、
毎日更新のサイトでも全て収集されているわけではないとか。
ちなみに、"2001 google Search"は終了したからもう見られないとお嘆きのあなた。
『インターネット・アーカイブ』から直接URLを打ち込めば、国内外を問わず過去のサイトを見られる場合もあるので一度お試しあれ。
日本ではというと、実は『WARP(インターネット情報選択的蓄積事業)』と呼ばれるプロジェクトを国立国会図書館が行っている。
とはいえ、担当者によると「今のところは主に国の公的機関のWEBページを収集の対象としている」とのこと。
ユーザーの立場からすると、過去の情報が蓄積されるのは便利である。
しかし、著作権法の保護対象や肖像権、プライバシー権の取り扱いは国によって異なる。
日本ではWARPが収集しようとした公的機関のサイトがタレントを使ったキャンペーンだったので断られたケースもあったという。
気軽にいつでも過去のページを見られるようになるには、まだまだクリアしなくてはいけない問題が山積みのようだ。
(笹林司)
ページ移動も記事閲覧もcgi依存だからかな
なんとか見る方法知らないか?
cgiでは無くdatなどのログへの直アドで見れることもあるし
ttp://web.archive.org/web/20001019054809/rx.sakura.ne.jp/~kobuta/abou/ffss/anthology.cgi
こんな感じのやつで、過去ログ移動&作者を選択してリスト表示や、NEXTPAGEを押して移動したいんだがどうにもできん
どうにかして過去ログをみたいんだが、手はないのかな?
おお、すごい!直った。
所で、Internet Archiveに保存されたサイトを、リンクを保ったままHDDに保存したいのですが、
ブラウザで保存するとアーカイブされた日付ごとにフォルダができてしまい、
また、そもそも下層リンク等が保存できません。
なにか、保存する方法ってあるのでしょうか?
Internet Archive が出力する HTML は、 オリジナルに対し
次の 2 ヶ所に挿入が行われている。 (\n は改行文字)
◎ <head ~> の直後
\n<BASE HREF="http://ほげほげ">\n
◎ </html> の直前、 もしくはファイルの末尾
\n<SCRIPT language="Javascript">\n<!--\n\n// FILE ARCHIVED ON ~
(中略)
~ \n//-->\n</SCRIPT>\n\n
関係するファイルを一つ一つちまちまとダウンロードし、
オリジナルのフォルダ階層に沿ってファイルを配置し、
それぞれの HTML から前述の 2 点を除去すれば、
リンクを含めたサイトの構造を完全に再現できる。
ここでいう 「ダウンロード」 とは、 HTML や画像、 スタイルシートなど
ファイルを一つ一つ個別に保存することを指す。
非常に手間が掛かるし、 欠けているファイルを探すために
HTML を読んでトレースするなど、 多少の知識は要求される。
ブラウザでの保存方法によっては、 保存先を一回指定するだけで
画像などをごっそり持ってきてくれることがあるが、 あれは
その時開いていたページ 「だけ」 を HDD 上で再現させるもの。
リンク先などは外の (ネット上の) URL に張る必要があるし、
そもそも 「解らない人向けのお手軽機能」 だから仕方が無い。
ありがとう。難作業だがやってみる!
サイトによっては 4 月 1 日まで OK っぽい。
ttp://web.archive.org/web/*/http://www.google.com/
ttp://web.archive.org/web/*/http://www.yahoo.com/
それでも、 まだおかしいことには変わりは無いが。
>>126 の件だが、 BASE タグで挿入されるドメインが
「http://元の URL のドメイン部分.way_back_stub/」 から
「http://元の URL のドメイン部分.wstub.archive.org/」 に変わってるなー。
少なくとも、 DNS でのエラー待ちは無くなった。
ただ、 用意されているサーバは どうも 404 を返すだけのようだから
素直にフィルタリングしたほうが良いのかな。
Internet Archive が持っているキャッシュにリダイレクト等してくれると
ありがたいんだけど。
ネタあらへんさかいしゃーないやんか
Recallの復活はいつになるのかねぇ
技術の発達で今後見られるようにならないかな
ttp://web.archive.org/web/*/http://%73%68%77%61%73%68%77%61%2e%63%6f%6d/*
このサイトにロボット全拒否の robots.txt が設置された後、
初めて Wayback Machine が読みに行ったのが 2007 年 12 月。
よって、 それ以降はクロールしていないだろうし、
Wayback Machine から古いキャッシュを取り出そうとしても
"Robots.txt query exclusion." と返されていたはず。
ところがサイトが死んでしまったものだから、
robots.txt 設置前にクロールされた分が公開されてしまった、 というオチ。
>>159 の "ちまちま" のこと?
あれを自動で行う、 専用の HTTP クライアントソフトを作れば良い。
既に誰かが作った、 という話は聞いた事が無い。
TCP が扱えるスクリプト言語か何かを使って HTTP を喋らせれば済む話だから、
作るのはそんなに難しいことではないと思う。
一度に数百個もキャッシュを拾ってくる必要性が出てきたら
俺も真剣に考えるかな。
ttp://web.archive.org/web/*nr_大きい数字/example.com/*
みたいな URL を与えて、 サイト内のファイルをごっそり持ってくるような方法なら、
HTML 解析も Wayback Machine のキャッシュ一覧を処理するだけになる。
すいません。1999年から2002年ごろに作ったすでに閉鎖したWebサイトを復元したおきたいと思ったのです。
何日かすべてがInternet archiveに残っていますので、一括ダウンロードができないかって思ったのです。
いくつかの一括ダウンロードソフトで試みたのですが最初のページだけしかダウンロードしてくれません。
設定のコツみたいなものがあるのでしょうか?
ぐぐったらwarrickってparlプログラムを使う方法もありそうですがちょっと簡単ではないみたいで、これを試みてみましたが
どうもうまくいかない状況です。
ちまちま落としていくにはちょっとページが多すぎるのです。
まずは、一括ダウンロードだけでもしたいと思っています。
結局、warrickで行くことにした。
なんとか、WindowsXP環境にアクティブパールやSOAP-Lite等をセットできて
動作した。すごく動かすまでに時間はかかってしまいましたが。
まあ、どのディレクトリーになにを置くのかがポイント。メッセージを
見たらわかるだろって突っ込まれそうですが。
うまく動作してくれて目的は達成できました。いろいろありがとうございました。
あんな英語も読めん
自己レス。Wayback Machine Forumを見てたら、
Wayback Stopped Archiving?という質問に対して次の回答
Poster: gojomo Date: May 22, 2009 03:00:08pm
Forum: web Subject: Re: Wayback Stopped Archiving?
It always takes at least 6 months, and sometimes about a year, for collected web material
to become part of the public Wayback Machine collection.
After some recent changes to the Wayback Machine architecture, and the migration of all data
to a new datacenter, we'll be catching up through all 2008 in the next month or so.
- Gordon @ IA
全データを新しいデータセンターに移していて、6月か7月ぐらいには2008年分までは作業が終わるということか。
へー参考になった
くっそう!なぜだ!
なんとかしてみたいと思ってInternet Archiveを使ったのですが…
『このホームページはJavaScriptを使っています。
ブラウザの設定でJavaScriptを有効に設定してから
アクセスしてください。』
とか出ちゃいました
JavaScriptは有効にしてるのにみれないから、これはなんかもう駄目ってことなんでしょうか?
このHPなんですけど
ttp://cocoaroom.kir.jp/
ありがとうございました
,::-'' ̄`:Y,,,、Y::::::::::::::::::∧:::::::i;:::::::::::::::i;::::::::::::::::::::::::::\
/ ...:::::::::i" Y:::/::::::::::::/ ヽ;::::iヽ;;:::::::::::!;::::::::::i::::::::..i, ';
.i ..:;::::::::;;;/ `'='":/:::::::;i::::/ ヽ:::!,ヽ;;:::::::::::i;:::::::::|;::::::::|:::::::!,
.|::::;i:::::;// |::::::!:::::::;/::/ ヽ;::i \;;::::::!ヽ;:::::|;;:::::::|::::::::|
. i;:;|::;/ ! |::::::|::::::;/!::i ヽ:!, \;:::::|ヽ:::::|!;;::::::|:::::::|
\/ ' !:::::;|::::;/ |:| ヽ! ヽ;::| ヽ::| 'i;:::::|:::::::|
|::i::;;!;;:::i `|!' -ー ,,_ '!, _,,>::!-'!:|´ |::::|::::::|
ノ1;;!;!;;;;! ! ,-'',´o::,` ` `=''o:',ヽ、! i:::i:::;::|
|/`!r-!, ./ i::::::::::::i i:::::::::::i. `, !::i;;;;i;:|
' | `)i ' ヽニノ ヽニノ ! /|!`i/V
ヽ `,} .::::::::.. .::::::.. !) /
,,、 `Ti :::::::: ' :::::::::: i,,=i7
ヽ ヽ Vヽ イ/ '
`, `, `_へ.、 rニュ _,. t7 " ageます。
i ヽ ,-i':ヽ`''"ニi-ー .,,,,,,,. -t'´''''フ⌒iヽ
,./-´`'r-ー、r-' ヽ: ヾ´ ' ' `=/: :/ `、
! - '''ヽ=- } ヽ:.ヽ /: :/ 'ヽ
} -'''`Y |ヽ `:、`-ー、 ,.-': :/ _,,イ
>、-t-´` .イ: :'! \ `''+; ;'i ./: :/ _,.-'''´ /: :i
.|:.iゝ、 /i|: : :'!, `' ----┴-!--'ー-- ´ i /: : : |
|: Y |ノ:i: : : :! /⌒'- .,,/''ヽ| /: : : : :.!
robot.txt実行してもそのサイト自体404になったら公開されるんだろうか…?
スレを頭から読み直せ
アーカイブはしているが参照できるようには整理していないということでは。
ファイルシークなどだとページは見れますが、リンクを飛ぶたびいちいちnot found や404になってしまいます
また、imodeなどのフルブラウザ機能で上のような不具合なく閲覧可能なものはあるでしょうか
nternet archive、のスレ検索で出てきたのがここだけなので聞いてみますが、スレチでしたら申し訳ない
iphone(というよりipod touch)買おうかなと思ってたので参考になりました。
あと自分で調べたんですが携帯用のYahooのブラウザだと表示可のようです。
読み込みにものすごい時間かかったりエラー表示がたまにでたりしますが。
touchの購入も視野に入れて見やすいブラウザ探していこうと思います。
やたらとエラー頻発するし・・・
今日なんかどのページを参照しても「Failed Connection」しか出てこない。一体どうなってんだ。
一ヶ月前両方に送ったのに音沙汰なし。もう一回送った方がいいのかな。
「クルクート幻想風花」無断再配布事件 経緯とそのまとめ → webアーカイブからコンテンツを削除するためのいくつかの方法
http://red.ribbon.to/~poughkeepsie/curucute/webarchive.htm
lenny@archive.orgの方に送ったらすぐに消してもらえた
去年の話だけど参考までに
たまに普通に見られることがある(ブラウザにキャッシュが残ってるわけじゃない)
リロードするとまた表示できなくなるけどこれじゃ意味ないな
>>Forum: web Subject: Re: why not visible ??
>>Material archived in 2009 and 2010 (and even a little from the very end of 2008) has been saved
>> but not yet indexed for display in the Wayback Machine. That indexing is being held up by software
>>and systems changes still in progress, but material from these dates will become available sometime
>>in the next few months.
2009年と2010年(そして、2008年の最後の最後からの少しさえ)に格納された材料は、救われますが、Wayback Machineでの表示のためにまだ索引をつけられていません。
そのインデックスはまだ進行中のソフトウェアとシステム変化によって上げられていますが、これらの日付からの材料はいつかこの数カ月で利用可能になるでしょう。
一旦、発行した書籍、雑誌は世の中に永遠に残ってしまうのに、
インターネット情報は残らないから、こういう場所を作ったのに、
それを消せる機能を持っているというのはなんか違う気がする。
数年後にロボット避け置くようにしたんだけど、それ以前のページも一切保存されてない。
やっぱりカウントの少ない無人島みたいなサイトは取得されないこともある?
10年前のページが今後公開されるなんてことはないよね。
どこで出る?
ttp://web.archive.org/web/20001010171406/www4.justnet.ne.jp/~yumichan/ffpmidi.htm
このページのmidiを聞こうとすると出てくる
何も知らずに使ってた
って出る……みなさんもそうかな?
ちなみに、見たいページはこれです。
http://www.h4.dion.ne.jp/~chibicon/page044.html
最新: Jun 08, 2010
ttp://web.archive.org/web/*sa_/http://www.nasa.gov/
最新: May 21, 2010
ttp://web.archive.org/web/*sa_/http://www.w3.org/
最新: May 20, 2010
ttp://web.archive.org/web/*sa_/http://www.yahoo.com/
最新: Mar 24, 2010
ttp://web.archive.org/web/*sa_/http://www.altavista.com/
最新: Oct 28, 2009
ttp://web.archive.org/web/*sa_/http://www.goo.ne.jp/
最新: Oct 27, 2009
何故か 6 ヶ月以内のもの公開されている。
平素は、Infoseek をご利用いただきまして誠にありがとうございます。
インフォシークでは、2001年より、無料ホームページサービス「インフォシーク iswebライト」、および有料の「インフォシーク iswebライト 広告非表示オプション」を提供してまいりました。
しかしながら、昨今のインターネット環境の変化を受け、弊社内にて慎重に検討を重ねた結果、誠に勝手ではございますが、サービスを終了させていただくこととなりました。
「インフォシーク iswebライト」、および「インフォシーク iswebライト 広告非表示オプション」を長年ご愛顧いただいた皆さまに、ご迷惑をおかけすることを深くお詫びします。
[サービス終了概要]
■ サービス終了予定日
2010年10月31日(日) (11月1日に終了作業を行います)
■ 終了対象サービス
インフォシーク iswebライト (無料サービス)
インフォシーク iswebライト 広告非表示オプション (有料サービス)
※インフォシーク iswebベーシック (有料サービス)は今後もサービスを継続します
「インフォシーク iswebベーシック」(有料)にて、ホームページを継続される場合は、専用の移行ツールの提供を予定しております。
※お詫び:移行ツールは8月下旬の提供を予定しておりましたが、9月上旬に延期させていただきました。
提供延期となりましたことを深くお詫びします。
※ データ移行に関する方法やサービス利用料につきましてはこちらをご確認ください
※ ツール提供前に、広告非表示オプションの契約期限を向かえる方はこちらからお問い合わせください。
■ なぜホームページサービスを終了するのか
「インフォシーク iswebライト」のサービス開始当初におきましては、ホームページスペース提供サービスがインターネットにおける情報発信ツールとして大きな役割を担ってまいりました。
しかしながら、インターネットの発展に伴い情報発信ツールも多様な進化を遂げており、無料のホームページスペース提供サービスとして運営してきた「インフォシーク iswebライト」は当初の役割を終えたものと判断いたしました。
長年に渡ります皆さまのご愛顧に深く感謝しております。
皆さまにはホームページ移行等で、お手数をおかけいたしますが、前述状況を踏まえたサービス終了でありますことを、何とぞご理解いただき、ご了承くださいますようお願い申し上げます。
ご利用いただき誠にありがとうございました。
※サービス終了、データ移行についてのお問い合わせはこちらより受け付けております。
お問い合わせの際には、ご自身のiswebID(又はURL)のご記入を必ず、お願い申し上げます。
最終更新日 2010.09.01 17:08:53
インフォシーク iswebライト 終了のお知らせ - インフォシーク ユーザサポートからのお知らせ - 楽天ブログ(Blog)
http://plaza.rakuten.co.jp/usersupport/diary/201008250000/
Server Error-wbcgiやFailed Connection.とか舐めてんのか
スマソ
関係ないとは言い切れない。
>>Poster: gojomo Date: July 06, 2010 02:53:07pm
>>Forum: web Subject: Re: Wayback Machine - Showing results for popular pages for 2010 but not 2009?
>>There was a very small index update last week. A result of this update is that some very-recent (as late as June
>> 2010) content is now available, even as most content from the last 24 months awaits a bulk update.
>>The relevant FAQ items (and small note atop each date-results page) have been updated to reflect
>>that this may sometimes happen.
>>- Gordon @ IA
何年も更新がないけど頻繁に見に行ってた小説サイトが急に消えて約4ヶ月、
移転前のURLを辿ったらいくつかの話が拾えて嬉しい・・・
一番好きだった話がNot in Archiveだったのは少し悲しいけど、それでも超嬉しい。
音沙汰がないけど気に入ってるサイトは、面倒くさがらずにこっそり保存しておこうと改めて思った。
ググっても出てこないし自分の場合、見たいサイトのリンク貼ってあるサイトを探してそこから一つずつ辿ったりしてるけど
ところで最近サイト重いよね
ttp://203.139.202.230/07yakyu/070708kouya01.htm
あとこっちから質問したいんだけど、以前他のスレで同じ質問した事無い?
なんか昔に同じような記事の探し手伝いした覚えがある
マルチポストとかでツッコむ気は毛頭無いし(むしろ時効だろうしw)、ただ自分の記憶が正しいか知りたいだけなんだ
ぜひ頼む
高知新聞の高校野球の記事なんですけど
タイトルは「・初戦から好ゲーム 高校野球県大会組み合わせ」です
メインのは見れるんですけどね
ttp://web.archive.org/web/*/http://203.139.202.230/07yakyu/07kousienfr.htm
>>253
初めてですw
>>254
やっぱり・・・困ったなぁ
HP保存のフリーソフトで保存できるのでしょうか。
頑張りましょう
㌧
キャッシュ取得時、 あるいは日付別キャッシュ一覧の表示の際、
本家ではデータや接続系のエラーが返されても、
Beta で試すとかなりの確率で取り出せてる。
ttp://web.archive.org/web/*sa_/%68ttp://www.color.org/
ttp://waybackmachine.org/*/%68ttp://www.color.org/
本家では 2008 年 8 月までだが、
Beta では 2009 年分も出てくる、 なんてこともある。
Beta ではかなり異なっている。
本家
例: ttp://web.archive.org/web/19991111085830/%68ttp://2ch.net/
Last-Modified: オリジナルのタイムスタンプ
Content-Length: スクリプト埋め込み後の長さ
Beta
例: ttp://replay.waybackmachine.org/19991111085830/%68ttp://2ch.net/
Last-Modified: (無し)
Content-Length: スクリプト埋め込みおよび文字セット変換後の長さ
X-Archive-Orig-Last-Modified: オリジナルのタイムスタンプ
X-Archive-Orig-Content-Length: オリジナルの長さ
その他、 オリジナルのサーバが返したと思われるレスポンスヘッダが、
頭に X-Archive-Orig- を付けて羅列されている。
そのほか、 HTML の場合の Content-Type は全て
text/html;charset=utf-8 になっている。
以前と違って、 今度は中身もコード変換されている。
変換元として使われた文字セットは
X-Archive-Guessed-Charset: ヘッダに記載されている。
元 URL の頭に ttp://liveweb.waybackmachine.org/ を付けた URL へリダイレクトされている。
例 ttp://liveweb.waybackmachine.org/%68ttp://hibari.2ch.net/test/read.cgi/esite/1189771222/
どうもこれはキャッシュプロキシとして動作しているようで、
前回のキャッシュから数分程度しか経っていなければそのキャッシュを返すが、
そうでない場合はオリジナルのサーバへ読みに行って、 取得した内容を返してくる。
HTML に挿入されるメッセージ (Here's a capture taken....) から察するに、
キャッシュされたデータは後日 Wayback Machine で公開されると思われる。
半年経たないと公開されない、 という制約はあるものの、
ウェブ魚拓と似たような使い方ができるかも。
運営してるのって同じ団体?
URL叩いてから具が出てくるまでえらい待たされる
まだβみたいだけど見づらくない?w
現在使用中ブログ(FC2ブログ)のアーカイブ削除依頼したいのですが、
FC2ブログなのでrobots.txtをルートディレクトリに置けないようなので
直接info@archive.orgに削除依頼しようと思うのですが
やはり本人確認の要求があるのでしょうか?
本人確認の条件はどの程度の要求なのかも気になります
(住所や名前まで提示しなければならないのかなど)
それとも本人確認なしで削除依頼がすんなり通るのでしょうか?
でも普通そんな情報まで提示しなくてもいいと思うけどな
普通のだと不具合なのかエラーで見れなくてもβだと見れるみたい
Firefoxのスクラップブックってアドオンで掘り下げ階層選んで保存できるぞ
ヒットしても09年のものまでしかみれないのですが、10年以降のキャッシュは見れないのでしょうか。
というか09年もあんまり・・・
あとβテスト番の方が今は検出しやすくなってる感じはする
This URL has been excluded from the Wayback Machine.
前は見られてたのに・・・
まだβだから色々とあるみたいだね
http://web.archive.org/collections/web/advanced.html
うがあああああああああああああああああ
を見ようとしたら
Data Retrieval Failureって出てきたんだけど
これって日を改めれば見れるかも知れないの?
目的のページは見れたよ
ありがとう
2005年付近の音楽サイトなんだけど、当時からブロックしてたんだっけ?
どうなってるの~
さっきは全く見れなかったのに、今は見れる
失礼しました
Wayback Machine doesn't have that page archived.
It doesn't seem to be available on the live web, either.
このメッセージが出たらもう一生そのページは見れないの?
半年か一年経てば見れそうなページって別のメッセージが出ますか?
あと09年以降が表示されるのはいつなんだろ
これ利用したことある人いますか?
フォームにurlを送れば確実に保存してくれるのかなあ?
http://www.webcitation.org/archive
使ってみた。
ttp://www.webcitation.org/5zZewWlmT
メールアドレスの入力を求められるが、
「メールに記載された URL に再度アクセス」 というような操作も必要なく、
単にキャッシュ成功とアクセス用 URL の通知に利用されているだけの模様。
左上の時刻表示のタイムゾーンは UTC-4。
右上
直に入ると弾かれるページは、手動でURLを削る必要があるようだな
(途中のttp://を削ればOK)
面倒臭い…
取得出来なくなったような気がしますが(Downstair、iriaで確認)
みなさんどうやって取得されてますか
1) ミラー (ttp://web.archive.bibalex.org) を使う
2) X-Archive-Orig-Last-Modified: ヘッダからタイムスタンプを読み出す (>>261)
この二択かと。
どうもありがとうございます。ミラーが有ったんですね。
キャッシュサーバに何かあったのか?
全てのキャッシュサーバから抜け落ちたわけじゃなさそう
の次にキャッシュを取得させたいURL貼れば取得させられるみたいだね。
これらをどうにかする方法はないものか…
ロボット避けは仕方ないな。
We were unable to get the robots.txt document to display this page.
The gateway to the live web is not available. Please try again later.
ってなって見れない
もう復活しないのかな…
こういう所はGoogleと一緒だ
We can't read the archived file for this date. The captured content may be garbled,
or we might not have the ability to display it.
これは時間が経てば復活するのかな...
おまけにrobots置いたURLを送るフォームも404エラーだし。
削除依頼出した人、どれくらいで対応してもらえた?
三週間くらい掛かったかな
削除してもらえてよかった
Bummer.
The machine that serves this file is down. We're working on it.
The Wayback Machine is undergoing scheduled maintenance Friday through Sunday, October 7-9. Most services will be offline during that time. See our blog for more information.
Would you like to try the previous or next date?
なんじゃこりゃあ!
7-9日にメンテナンスってはっきり書いてるだろ
そこからページ内の各コンテンツへ飛ぶのは無理だった
これってやっぱどうやっても見れないもの?初歩的ですまん
見たいページは見れなかったがorz
ヤフチャ出会い世代ユザル人気No.1部屋
【30↑気まぐれな女達(BGM)】
部屋主:oxxx_hikaru_xxxo
部屋主代理:llla_little_eijilll
勝手にリダイレクトされてた以前の仕様よりは評価できる。
/:::/,. -=ニ:: ̄::\::\―i:、
/:/::://::\::::::::\::::::,ヽ::::ヽ|、\
. /:::|, イ:'、::ヽ::::\::::::::Xヽ:|ヘ:::::ヘ\,ゝ
l/|:::::|::::::!、::\ー`ー-,ィf示ハ:::::ヘ、,ハ
く,.イl:::::斗┼‐` ー 弋炒 ',:::::ハ:::l::|
|/,!ヘ::::::ヘ:| ,ィf心 !:::::::l::|::!
//:| |ヘ::::::ヘ代t炒 ` ノ |:::::|:|_|リ ageます・・・!
く/l:::L|、::`:ー-ゝ ‐'´ /イ/|:| ヽ
|:!:,-、:::\f^ヽ:≧z. __ .. イハ: : リ| |
l:|:{ ヽ:::;ム マミ、: : \ ム: : :∨
リ/\ ヽ,ム ∨ヘ : : \ /: /ヘ: : :ヘ
,.- 、 \ ヽ〉 ヽ \: : :\://ヘ: : :|
ヽ、 \ | 〉 \ lヽ./^)、 : : |: : !
丶、`¨ / ァ'´ /: : ヽr:| : ハ
`) l ,.イ、ヾニ二7イ |.ィ
⊂二´.. _ __/ / ` ー-、_|/、__jニフ
ヾー--='彡- ' /´:j:_}::::/一`
`ーr'´ ,f-':j´:||`′
/ヾ二トr‐_Tj-トイ : l:!┐
/: : : : : : 丁´ : : /:/: ://: `\-、
/: : : : : : : / : : : /:/: ://: : : : : :ヽ:\
,. -‐': : : : : : : :/ : _/::f: ://: : : : : : /ヽ7
ヽ: : : : : : : : : :|: : : :/:::::|: :!:|: : : : :/ \
We were unable to get the robots.txt document to display this page.
The gateway to the live web is not available. Please try again later.
って出る…先週は普通に見れたのに
ttp://web.archive.org/web/***/だけ取り除いて表示してくれるFirefoxのアドオンってありますでしょうか?
待てばいつかは直るのか?
この間画像が出なかったがしばらくしたら復活してたってこともあったから。
>>352
そんなのより、Welcome to Waybackのロード画面を省略して、
すぐにアーカイブにアクセス出来るアドオンのほうが欲しい。wikipediaみたいに。
/ `ヽ、_ _,. -- 、
/ // 三- 、ー `ヽ
/ / / / / ヽ\ \ ヽ
/ / / / /// ヘ ヽヽヽ
/ / / /⌒レ /- 、/ // /i l i ハ ! i ヽ',
/ / / { ⌒〃ヽr=r <`メ、 // / l l l l l li
/ / / ヘ V // ヽ{:::;;pハ //メ ! l ! l | l | !
/ / / / /ヽ、 ``′ ,.ィr//〃 l/l / /
/ / / / / / _(;ン' /〃 〃 l/
/// // / ヽ _ /ソ// /
/ ,. -‐- 、 _,.ノ \ >、 _,. '´^` }
/ / ヽ \ 7ヽ、`ー ´/ ,.イ! はぁ・・・誰かageないかな。。
/// ヽ ヽ i l lヽ く i | |
//,.イ ヽ ヽ- l l l ∧ /〉ヽ,!
/// i| ヽ ヽ=! l lヒー ' / ノ ト
//// il l \ ヽ ヾ! Vヽ  ̄ / い
/ / // /! ! `ヽ、 L..ム、 i  ̄ ハ
. / / // / ! ハ ` ー < > \iヽ ヽ
/ / //// l i ハ l 〉〈`ヽ、ヘ \
502エラーで調べたけども良くわかなくてこちらにきました
これは時間を置けば見られるんでしょうか?
それともページ自体がそもそも保存されてないのでしょうか?
ゆとりの人か
以前見られていたはずのサイトがまた見られなくなっているんだけど、
500エラーとか既知のバグとかが出て、何とかしてほしい。
クラシックの方はもう繋がらなくなっているみたいだし。
というかいまだにベータって表示があるのがなんか疑問。
ウェイバック以外のインターネットアーカイブのリスト。
こんなにあったとは意外。
--------------------------------------------------------------------------------
type Exception report
message
description The server encountered an internal error () that prevented it from fulfilling this request.
exception
java.lang.NullPointerException
note The full stack trace of the root cause is available in the Apache Tomcat/6.0.24 logs.
と出る。
多分、以前見れたはずのページ。
これはウェイバック側のバグってことでいいのかな?
IEとFFの両方で同じ結果になるし。
気長に改善されるのを待つしかないか・・・
まだ出る?
ぬるぽww
この手の奴で、ウェイバックで見つからない物が見つかるケースってあるのだろうか
ありがとうWayback Machine
ただまだ見れない画像もあるよorz
これは諦めるしか無いのか…………
おそらくバグだと思うが、JavaScript を切っているとそうなる。
ttp://wayback.archive.org/web/20050101000000*/http://~
これで2004年が表示されて2005年が抜けてしまうので、
0101の部分をいじって0105とか0106とかにすると2005年になったり。
We were unable to get the robots.txt document to display this page.
Our request Timed Out.
と出て見れない・・・これってもう見れない?
と表示されてかなりのサイトが閲覧できなくなってる、特に古いサイト。
数日前、10日前には確実に見れてたページも見れなくなってる。
同じような人いますか?
ちょうどまた今日見ようと思ったら見れなくなってた・・・
自分だけかと思って色々試してたけどそういうわけじゃないんだな
今までこういう事なかったってこと?
ついてねーなぁ
見れなくなる事態って無かったからかなり焦った。
でも念のため今のうちに保存保存
document to display this page.
さっきまで見れてたページすら見れない・・・
明日になったら見れますように
↓
急に見られなくなったのに気付き、Wayback Machineに残ってないかと見に行く。
↓
Wayback Machineもキャッシュを表示する前に
元サイトのrobots.txtのチェックを行おうとする.
↓
ところが元サイトのサーバが落ちているため、当然の如く接続エラーとなる。
↓
そこで、Wayback Machineは「We were unable to get the robots.txt」を表示。
↓
このスレにやってくる。
この繰り返しなのねん。
どれ位で復旧するかな…。
URLわからなくて使えねええええ
ご愁傷様
http://sinonome-yuuto.hp.infoseek.co.jp/index.html
なのですが
webアーカイブで見ようとすると文字化けをおこしたので、
エンコードを日本語(EUC)と日本語(シフトJIS)に変更しても
文字化けをして見れません。
ちゃんと見れる方法はあるでしょうか?
現在の Wayback Machine は保有しているキャッシュのエンコードを自動的に判定して、
全て UTF-8 に変換して出力しようとする。
だから判定を間違えると記号の羅列になってしまう。
アレキサンドリアのミラーサイトの方は
まだそういう機能が実装されていないから大丈夫なはず。
今試してみたら "Failed Connection" って返されたけど……
お尋ねのサイトの本文は EUC-JP ですが、
インフォシーク側が冒頭に Shift_JIS の広告を挿入しています。
そのためか Wayback Machine 側ではソースを UTF-8 と判定しています。
(X-Archive-Guessed-Charset: UTF-8 という応答を返しています)
UTF-8 から UTF-8 へ変換して出力されるわけですが、
同じコード同士だから何もしないという訳ではなく、
UTF-8 として正しくないコードは全て U+FFFD という番号の文字に置き換えられます。
つまり、 完全に壊されます。
Wayback Machine は本家の他に、
エジプトの新アレキサンドリア図書館で運営されているミラーサイトがあります。
本家
ttp://wayback.archive.org/web/*/sinonome-yuuto.hp.infoseek.co.jp/*
ミラー: Failed Connection の問題は解消した模様。
ttp://web.archive.bibalex.org/web/*/sinonome-yuuto.hp.infoseek.co.jp/*
見れないページもいくつかありましたが、何とか見れました。
本家のサイトだとやっぱり壊されちゃうんですねぇ・・・
本家のサイトで見れる方法はないですか?
そちらだと見れないところもみれるのですが。
とりあえず分かっている人のアドレスをweb.archiveにかけ、
ありとあらゆるリンクを辿り、数日かけてやっとアドレス判明したのに、
Hrm.
Wayback Machine doesn't have that page archived.
完全にオワタ。
現実が忙しくなり、充実し、自然とネットやパソコンから距離を置くようになる。
それが普通。
戻ってきてしまった俺は普通にすらなれなかった・・・自業自得だよね。
ネットにも現実にも居場所が残ってなかった。もう生きてるのが恥ずかしいし辛い。
10年前に縛られてるだけだろw
チラシ
カイコに浸ったらそこで終わりだ って真っ先に変換されたw
今更山から下りてくるなよw
ページ削除されると見られなくなるんだよねorz
正常に使えてるけどなぁ?
こっちは?
International School of Information Science (ISIS)
http://www.bibalex.org/isis/frontend/archive/archive_web.aspx
同じサイト内でも見れるページと見れないページがあるんだけど
見れないページは時間経ったらまた見れるように可能性ある?
お引き取りください。
可能性は”ある”よ
____________
ヾミ || || || || || || || ,l,,l,,l 川〃彡|
V~~''-山┴''''""~ ヾニニ彡| ある・・・・・・!
/ 二ー―''二 ヾニニ┤ あるが・・・
<'-.,  ̄ ̄ _,,,..-‐、 〉ニニ| 今回 まだ その時と絶対的URLの
/"''-ニ,‐l l`__ニ-‐'''""` /ニ二| 指定まではしていない
| ===、! `=====、 l =lべ=|
. | `ー゚‐'/ `ー‐゚―' l.=lへ|~| そのことを
|`ー‐/ `ー―― H<,〉|=| どうか諸君らも
| / 、 l|__ノー| 思い出していただきたい
. | /`ー ~ ′ \ .|ヾ.ニ|ヽ
|l 下王l王l王l王lヲ| | ヾ_,| \ つまり・・・・
. | ≡ | `l \__ Internet Archiveがその気になれば
!、 _,,..-'′ /l | ~''' キャッシュアーカイブの再公開は
‐''" ̄| `iー-..,,,_,,,,,....-‐'''" / | | 10年後 20年後ということも
-―| |\ / | | 可能だろう・・・・・・・・・・ということ・・・・!
| | \ / | |
Bummer.
The machine that serves this file is down. We're working on it.
The machine that serves this file is down. We're working on it.
Would you like to try the previous date?
とでていままで見れていたページが見れなくなってしまったのですが、これはサバ落ちかなにかでしょうか?
またこのひとつ前のArchiveは普通に見れるのですがこれもいずれ見えなくなってしまうのでしょうか?
経験から言うと、その "the machine that serves this file" は忘れた頃に復帰します。
こっちも落ちなきゃいいけど
今見ると見れないことが多いな。
そして皆同じBummer問題で困っていたようで
ほっとした。
魚拓とは役割違うから
頑張ってほしい。
なんか日経新聞で記事になってましたね。
貧乏だから全部読めないけど。
現代に蘇る「知の宝庫」 「インターネット・アーカイブ」の素顔 :日本経済新聞
http://www.nikkei.com/article/DGXBZO47171370S2A011C1000000/
http://gigazine.net/news/20121029-internet-archive-10peta-bytes-archived/
こっち驚いた。
2010年以降は保存してないのかな?
そう考えると10ペタって10000テラだから恐ろしいな…
ネット社会は、日の沈まない国みたいなものだから
いつでも地球上の誰かがアクセスしている訳だけど
またベータ版なるものが出てきています。
トップページの "Take Me Back" ボタンを押した場合。
ttp://wayback.archive.org/web/*/www.google.com/
"Try Beta Version" を押した場合。
ttp://wayback-beta.archive.org/web/*/www.google.com/
通常版が去年 7 月で止まっているのに対し、
こちらでは今月 15 日取得分まで見ることができます。
Page cannot be crawled or displayed due to robots.txt.
って出て全く見れなくなったんだけど、既にロボットが集めたページを遡って消すことができるの?
それとも、時間をおいてアクセスすれば見れるようになるのかな。
確か閲覧する時点で目的のサイトにrobots.txt置いてたらそれに従うルールだったような
一番ひどかったのはドメインパーキングがrobots.txt置きやがったケースww
>一番ひどかったのはドメインパーキングがrobots.txt置きやがったケース
これってどういうこと? 解説プリーズ。
ごめん、ちょっとわかりにくかったか
あるサイトのドメインが期限切れになって業者に取られちゃって
アクセスすると業者のサイトが表示されるようになったんだけど
サイトが生きていた頃にはなかったrobots.txtが業者のサイトで置かれていたために
archive.orgから消されちゃったって経緯
Server error 502 -- probably because our servers are overloaded right now.
Please retry either now or later (by hitting refresh/reload).
あーん!
入り口が落ちてるのは久々に見た
がんばれ
何が原因?
引数のトークンの順序を入れ替えても同一視されるようになったっぽい。
例えば次の 2 つは同じ結果が返る。
ttp://web.archive.org/web/*/www.microsoft.com/downloads/details.aspx?displaylang=ja&FamilyID=5b33b5a8-5e76-401f-be08-1e1555d4f3d4
ttp://web.archive.org/web/*/www.microsoft.com/downloads/details.aspx?FamilyID=5b33b5a8-5e76-401f-be08-1e1555d4f3d4&displaylang=ja
displaylang= が前のものと FamilyID= が前のものとが一緒くたに並んでいる。
弊害として、
"?" 以降の部分にワイルドカード "*" を使って検索を掛けると
無条件に "見つからない" とか言い出すようになった。
また普通に見れるようになるのでしょうか?
こんなのがでて404でした
最新バージョンでも見れるのかもしれませんが古いガラケーからなのでPCサイトビューワーで見る際に古いバージョンのlatestでみるとすぐ見れました。
新しいものはshowALLのような画面になるのでPCからなら見れる気がするのですが・・・
そこにアップロードされていたファイルは見ることはできないの?
小説サイトなんだけどさ、肝心の小説がみれない
フィッシング警告
このサイトは不正なサイトとして報告されています。
このサイトで重要な情報や個人の秘密情報を送受信すると、
個人情報の盗難や金融詐欺のリスクにさらされる危険性があります。
Opera Software は、このページにアクセスしないことを強くお勧めします。
自分でweb.archiveだけ解除すりゃいいんじゃね?
サーバーがメンテ?落ちてる?んだっけ?
ほんと多いねぇ
クッキー食べる必要がある場所は駄目よ
3分の1ぐらいが見れるようになってたわ
嬉しい
10年前に閉鎖した自分のサイトが閲覧できるのに気付いて、
メールで削除依頼する際に自分が当時のサイト管理者だった証明として
「InternetArchiveにキャッシュされていない画像を自分は持っているYO」
ということで
1,InternetArchiveで非表示になっている画像があるページ(「×」表示)
2,そのページのソース(非表示画像の「○○.jpg」を強調)
3,PCに保存しておいたサイトフォルダのスクリーンショット(非表示画像を強調)
1,2,3の画像をまとめたファイルを添付して説明入れたら一発で対応してもらえたわヽ(´ー`)ノ
1)robot.textの後置き
2)削除メール
3)アーカイブの容量圧縮のためデータ削除
の理由が考えられると思っておk?
1)ならドメイン削除後に復活の可能性が微レ存だけど、3)は根本から望みが絶たれるよねorz
classicも使えなくなってるしオワタ
Bummer
このサービスの理念と矛盾してて意味なくないか?
>>462にとってarchive.orgってその程度の存在なんだろう
>>462の2番目。
ウェブ魚拓とかで似たようなことできんかな?
本家ですら色々と争いが起きているのに、
同じことをやろうとする漢が日本にいるとは思えない。
なんか日本の Orzに似てるなw
ttp://en.wiktionary.org/wiki/hrm
サイトが変わってアドレスが分からんw
肖像権の問題も大きいんだと思う
旧ver.は今凍結されてるから確認できないじゃん…
去年の今頃は普通に落とせてたと思うんだが・・・設定しだいではいけるのかな?
因みに、IriaとかDCさくらとかをよく使ってたと思う
誰かまとめて保存する良い方法教えてください
消えてたブログ見ようとしてURL入れたら
The Wayback Machine does not have this URL.
Here is the page from the Live Web.
としか表示されない…
そもそも向こうの方にページのデータがないのかな
Internet Archiveで検索【消えたサイト・更新前の情報を復活!】
https://chrome.google.com/webstore/detail/kgikjidebfpobpdblajldckjkofkjncn/details?hl=ja
LOVE PHANTOM
ZERO
イチブ
太陽のKOMACHI
ねがい
ULTRASOUL
operaで何ら問題無く表示されてますよ。
ある程度は出てきますが、
欲しい情報が最後の2011年10月14日更新のもので、
それがどうしても拾えないです…。
何か方法があればアドバイスお願いします。
何を今更
早晩この路線は破綻すると思う
集めることそのものが目的だからなぁ・・・
キャプチャが一度しかされていない状態で404やHrm.を吐いてしまった場合、そのページは閲覧不可でしょうか?
本当に困っています。助けてください。
こんなところで訊いていないで
元の作者に連絡を取るなどするべきかと
Mozilla/5.0 (Windows NT 6.1; rv:25.0) Gecko/20100101 Firefox/25.0 AlexaToolbar/alxf-2.19
Mozilla/5.0 (Windows NT 6.1; WOW64; rv:25.0) Gecko/20100101 Firefox/25.0 AlexaToolbar/alxf-2.19
User Agent
The Wayback Machine
ttp://web.archive.org/web/*/taruo.net/e/
http://web.archive.org/web/*/ikura.2ch.net/i4004 ttp://web.archive.org/web/*/ikura.2ch.net/i4004*
>>Saving page now... http://uni.2ch.net/goki/ As it appears live November 22, 2013 1:57:48 PM UTC
任意のURLを積極的アーカイブhttp://web.archive.org/save/http://uni.2ch.net/goki/アーカイブ内部徘徊
子に相当URL迄踏めるし∥孫≒http:///save/≫踏んだURL 踏んでないURL≪紫色URL青色≫HTML RGB 16進数≪
ハイライト?ttp://web.archive.org/save/_embed/http://uni.2ch.net/test/read.cgi/goki/1170968484/l50
https://www.google.co.kr/search?num=100&safe=off&hl=ko&filter=0&q=%2Aikura.2ch.net%2Ai4004&sout=1
https://www.google.co.kr/images?num=100&safe=off&hl=ko&filter=0&q=%2Aikura.2ch.net%2Ai4004&sout=1
在日認定したぃ?。。ぁぁソレ牽強付会
http://google.fr/images?&hl=zh&q=kr
中国語表示だと。。必ずハイライト=赤
http://google.kr/images?&hl=ko&q=kr
google.co.krでハングル表示のみ?独特
http://google.uk/images?&hl=ko&q=kr
デフォルトでは魚拓できないURLも取得
>>492site:megalodon.jp google.co.uk
特定のアクセス元のみ閲覧制限?回避策
http://liveweb.archive.org/liveweb/
サ~バごとに表示設定?その他使ぃ分け
臨時地震板
[test]書き込みテスト 専用スレッド@臨時地震
http://hayabusa.2ch.net/test/read.cgi/eq/1371879931/
シベリア超速報板 (強制IPアドレス表示) sage推奨
てすとスレ Part.2
http://toro.2ch.net/test/read.cgi/siberia/1376062707/
戦時板 (戦時下ニアル為、片仮名ト漢字デ発言サレタシ)
【戦時中デモ】忍法帖【テストガシタイ】ソノ弐
http://uni.2ch.net/test/read.cgi/senji/1377558958/
@-moz-document domain(archive.org) {
div.web_carousel {
display: none;
}
}
何が変わるの?
.web_carousel
ってどこに出てくるやつ?
他に同じようなサイトはございませんでしょうか?
入口のぐるぐる回ってるやつが消えるだけ
ttp://toro.open2ch.net/test/read.cgi/magazin/1362208710/201-i?guid=on
Intenet Archive の書籍をPCでダウンロードするには、如何したらいいのでしょうか?
何処かにボタンでも有るのでしょうか?
iPad の Book Down というアプリでダウンロードすると
iBooks で見た時、数式が正常に表示できていない様に見えます
明らかに上付き下付きが動いていない様に見えます
しかし、調べて見るとiBooks は、ePub の機能はフルに働く筈です
私は何か根本的に間違っているのでしょうか?
すいません。何も分からない初心者です
どんなものか見てみたい
このURLのキャラをDL(右クリックで対象をファイルに保存)を選んだのはいいんだけれど
解凍できなくてどうにもならない。
zipの正常化はバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加と書いているがもっと詳しく教えてほしい。
上記URLのzipファイルを正常ファイルに出来た方や昔に上記URLと同じファイルを持っていた人はご報告を
タヒねタヒねタヒね
「当時はInternet Archiveのことを把握してなかったよ!」
みたいなクレーム対策で全部適応できるようにしてるんだろうけど、
もうちょっとなんとかできないのかね。
(過去に遡ってのアーカイブ停止は自動ではなく、申請があった場合に限るとか)
具体例ですが
看護師愚痴広場
http://16pixels.net/
という数年前に消滅してdomain for sale になってたサイトがあったのですが、新しいドメイン管理者が、robots.txtを置いただけで全てのアーカイブが見れなくなったようです。
まだ全部保存出来てなかったのに(泣)
URL直接指定でも見れないようです。
http://web.archive.org/web/20111010134707/http://www.16pixels.net/list/
robot.txt後置きで全部見れなくなる仕様はやめてほしい。
http://16pixels.net/ の現在のドメイン主って、これ?
DYM testって出てる
株式会社DYMってどうよ?【10ページ目】
http://uni.2ch.net/test/read.cgi/venture/1371593009/
ドメインパーキングサービスがそれやりやがったときは殺意が芽生えたよw
もしそのドメインが完全に消滅して、robots.txtも何も無くなったら、また見れるようになるんでしょうか?
その右クリ保存したというのは、どれも中身はエラーメッセージの HTML かと。
ttp://web.archive.org/web/*/www.geocities.jp/id4622/*
同サイトの場合 *.zip は一個も保存されていません。
>>541
ttp://bgp.he.net/ip/202.214.193.121#_dns
16pixels.net を含め、ここにリストされているのは全部 DYM。
>>543
そういうのはいくつも見たことがあります。
もう使えない。
ただそれだけ
その本人の方に問題があるケースが多い
実例kwsk
本当使えないサービスになっちまったな
もう俺らはarchive.orgを一切使わないことにするわ
取り敢えずニュースページを見てみたけど、
コンテンツを他のサイトで使用させないようにするための在り来りの方法が使われてる。
アーカイブの呼出し後に次のブックマークレットを走らせてみそ。
javascript:void(document.body.style.display='block');
例えば
http://www.gmodules.com/ig/proxy?url=対象URl挿入
このURlを魚拓
またはGoogle、Yahoo、BINGのキャッシュをpeeep.usやarchive.isで保存すればいいよ。
それが気になる用途には無理w
そういうことは絶対に起こらないってことか。
平和なことは良いことだ。
案外残ってないもんなんだな…
http://web.archive.org/web/20131111024456/http://coffee0101.blog.jp/archives/3541257.html
上の魚拓
http://archive.is/x77Of
http://www.peeep.us/fb35a52e
インターネットアーカイブ、archive.isを弾くようになった?Page cannot be crawled or displayed due to robots.txt.って表示されてるが、何とか魚拓取れた。
アーカイブは信用ならないから、他の魚拓を取るのを推奨。
インターネットアーカイブのファイルをarchive.isで魚拓しようとしたら、正常に魚拓が取れなかったのです。
そりゃそうだろう。
archive.is は robots.txt を読まない。
おまけに "Page cannot be crawled or displayed due to robots.txt." ってのは
Internet Archive のセリフ。
つまり、
archive.is の URL 入力欄に IA のアーカイブの URL を突っ込む。
↓
archive.is が IA にアクセスを仕掛ける。
↓
IA が元サイトの robots.txt を読みに行く。
↓
元サイトには全拒否の robots.txt が置いてあった。
↓
IA は archive.is に "Page cannot be crawled...."
というメッセージを返す.
↓
そのメッセージが archive.is に魚拓として残る。
そういうオチじゃないのか?
robots.txt の後置きだけ無ければ行けそうな気がするんだけどなぁ。
>>582
うちの環境ではクリックすると続きが出てくるんだわ。
ソースも読んでみたけど、スタイルシートの overflow 属性の値を書き替えてるだけだから
隠れていてもテキスト自体はキャッシュされてる。
旧ドメインにアクセスを掛けてもリダイレクトされます。
アドレスが代わっててびびった
英語力がないのだが、ハッキングに合ってドメイン失ったよってことかいな?
http://blog.archive.today/post/82775187091/curious-why-the-move-in-domain-names-from-archive-is
.is ドメインの管理機関がソーシャルハッキングの攻撃を受けているため
archive.is を失いかねない状態にある、ってこと。
移転しないまま乗っ取られてしまうと、たとえ別の場所でドメイン立てても
ダメージは並じゃないからねぇ。
5年前と何も変わっちゃいない
スレッド検索
おすすめスレッド
2013-07-16 番組ch(テレビ朝日)
ロンハー3 sex is internet (828)
2012-04-02 ニュース速報
Internet Explorerを捨てる勇気 (56)
2011-10-05 ニュース速報
Internet Explorerの魅力 (62)
2011-02-17 ニュース速報
Internet Explorerに脆弱性 (115)
2010-12-18 プロバイダー
MOU INTERNET SERVICE 2 (756)
2010-06-18 セキュリティ
COMODO Internet Security 35 (1001)
2009-10-04 自転車
CYCLE MODE international 2009 (1001)
2009-04-04 Windows
Internet Explorer8 【質問版】 (981)
2009-03-25 プロバイダー
■MOU INTERNET SERVICE■ (983)
2008-10-14 UNIX
誰でも使える InternetFacsimile (511)
2007-06-09 レンタルサーバ
KAGOYA Internet Routing (570)
2006-07-24 運用情報(超臨時)
Internal Server Error (978)
2005-10-02 UNIX
Internet Mail System 総合スレ 3 (478)
2004-04-06 Windows
Winamp Internet Radio 実況スレ (754)
2002-04-29 UNIX
Internet Server インターネット サーバー (142)
ネットサービス内の新着記事
2001-09-08 01:53:05
Yahoo!ブリーフケーススレ (531)
2001-09-05 03:40:11
ソネット・タウン (118)
2001-09-03 23:59:21
hotmailでハッキングされました (212)
2001-08-31 15:09:01
● 携帯電話へのメール転送サービス ● (486)
2001-08-23 02:11:43
WEBドラマ「マヨイガ」 (212)
2001-08-23 00:06:29
★★ アカウント名の命名法 ★★ (129)
2001-08-22 17:34:23
「ariga10.com」 (78)
2001-08-20 23:33:12
住所から電話番号って調べられるの? (184)
2001-08-07 22:29:33
PCだと拒否されるサイトを見たい (147)
2001-08-05 00:59:54
くさのねっとの真実を教えて (74)
2001-08-02 11:27:03
無料系情報を探せ!!! (98)
2001-08-01 16:43:21
高城剛ってナニモンデスカ? (411)
2001-08-01 13:10:33
JBBSの掲示板はつぶれたのですか? (148)
2001-07-31 19:17:04
シソーラス活用検索に何があった? (71)
2001-07-29 23:38:47
今になってパソ通のサーバたててるヤツ (105)
Internet Archive
ttp://www.archive.org/index.php
インターネット・アーカイブ - Wikipedia
ttp://ja.wikipedia.org/wiki/InternetArchive
~よく使われるWeb Archiveキャッシュ検索はこちら~
Internet Archive: Wayback Machine
ttp://www.archive.org/web/web.php
Advanced Search
ttp://web.archive.org/collections/web/advanced.html
Recall(現在は停止404)
ttp://recall.archive.org/
Internet Archiveの110億ページを検索できるサーチエンジン「Recall」
ttp://internet.watch.impress.co.jp/cda/news/2003/09/08/377.html
Q.Internet Explorerで日本語などの2byte言語のページのWeb Archiveキャッシュを見ようとしても
真っ白なページ&文字化けが起きる&極端に重いなどの症状が出てしまう
A.[表示]もしくは右クリック→[エンコード]→[日本語(自動選択)]やその言語の文字コードに則したものをクリック
Q.Web Archiveでダウンロードしたzipなどが開けない&CRCが違うと表示される
A.よくWeb Archiveは1byte欠けを起こすのでバイナリエディタなどで該当ファイルを開き、
16進数の最後の末尾に「00」を付加すると正常なファイルになることがあります