(cache) Web ページのテキスト取得

私に聞いて！

質問する

詳細検索

解決済みの質問

質問No.5045311

noname#101202

すぐに回答を！

お気に入り投稿に追加する (0人が追加しました)

回答数1

Web ページのテキスト取得

URL url = new URL("http://www.yahoo.co.jp/");
BufferedReader br = new BufferedReader(
new InputStreamReader(url.openStream()));
String str;
while ((str = br.readLine()) != null) {
System.out.println(str);

とすればyahooのhtmlが出力されますが、日本語が文字化けします。
対策を教えてください。

また、yahooのようなページのテキスト（htmlタグを除く）だけを取得する方法を教えてください。

投稿日時 - 2009-06-15 09:53:26

通報する

ブックマーク▼

メールで紹介

質問者が選んだベストアンサー

回答No.1

▼

prophetok

日本語が文字化け対応
もし、コマンドプロンプトへの出力での文字化けであれば、コマンドプロンプトの文字コードをUTF-8に変更、レジストリもいじって日本語も表示できるようにする必要もあり。参考URL　１番目

その他の環境での文字化けでも、UTF-8文字列をMS932として解釈しているはずなので、環境をUTF-8に変更すれば解決するはず。

テキスト（htmlタグを除く）だけを取得する方法
HTML自体がテキストなので、何をしたいのか、よく分からん。
画面に表示されるテキストのみ取得したいという意味なら、自前でHTMLを解析するか、既存のHTMLパーサを利用する。参考URL　２番目

参考URL：http://fine.ap.teacup.com/hepo/23.html,http://java-source.net/open-source/html-parsers

投稿日時 - 2009-06-15 16:45:02

通報する

この回答を支持する

(現在0人が支持しています)

お礼

ありがとうございます。
最初の件は、InputStreamReader の第2パラに String で "utf-8" を指定したらうまくいきました。
HTML パーサを調べて見ます。

投稿日時 - 2009-06-15 20:26:32

この質問は役に立ちましたか？

0人が「このQ&Aが役に立った」と投票しています

別のキーワードで再検索する

詳細検索

別のキーワードで再検索する

詳細検索

もっと聞いてみる

質問する

関連するQ&A

question

フォームで受け取った文章$strをHTML形式に直すには $str=~s|\r\n|<br/>|sg; $str=~s|\n|...
question

エスケープ文字にstr_replaceが効かないフォームで送信された文字列のうち、str_replace関数を使って半角記号を全角記号に置換し...
question

<br>と<br />を統合変換テキストの改行変換をジャバスクリプトで、 if(getId("br_1").checked=...

回答募集中

aunswer

テキストエリアの制御についてお世話になっております。 Javaでテキストエディタを自作しています。他の様々なエディタ...
aunswer

processingでのAndroidアプリprocessingを用いて簡単なAndroid用アプリを作りました。 Javaモードでは正常...
aunswer

Androidエミュレータ起動ターゲットバージョン・Androidエミュレータの起動ターゲットが、プロジェクト右クリックからのビルドターゲットと...