2010-01-09
■[ruby] Nokogiriのparse時の文字コード
rubyのHTML, XMLパーサであるNokogiriでsjis等の日本語を含んだファイルをパースする時の文字コードはutf8が良さげ。
というよりsjisとかうまくparseしてくれない。
※全くparseしてくれないんじゃなくて、途中でdomの一部が欠落している場合があった
- 環境
- ruby 1.8.7
- nokogiri 1.4.1
require 'rubygems' require 'nokogiri' require 'nkf' read = NKF.nkf("--utf8", File.open("hoge.xml").read) #hoge.xmlはsjisで書かれていてheaderのencodingは"Shift_JIS" doc = Nokogiri.XML(read, nil, 'utf8')
タカラトミー
クリック: 11回
クリック: 11回
トラックバック - http://d.hatena.ne.jp/sodex/20100109/1263025775
リンク元
- 11 http://www.sssg.org/blogs/naoya/archives/679
- 10 http://www.google.co.jp/search?hl=ja&client=firefox-a&rls=org.mozilla:ja:official&hs=G9e&q=x200+ubuntu+9.10+解像度&btnG=検索&lr=lang_ja&aq=f&oq=
- 5 http://www.google.co.jp/search?hl=ja&source=hp&q=ubuntu+9.10+インストール&btnG=Google+検索&lr=&aq=3&oq=ubuntu+9.10+
- 4 http://cpp.ring.hatena.ne.jp/
- 3 http://w-it.jp/pirlo21/2008/05/post_19.html
- 3 http://www.google.co.jp/search?hl=ja&lr=lang_ja&client=firefox-a&rls=org.mozilla:ja:official&hs=HCD&q=request_rec+構造体&revid=1098596135&ei=7upLS46gA5WekQXj-bWVDQ&sa=X&oi=revisions_inline&resnum=0&ct=top-revision&cd=1&ved=0CAYQ4QIoAA
- 3 http://www.google.co.jp/search?hl=ja&safe=off&client=firefox-a&rls=org.mozilla:ja-JP:unofficial&hs=9XS&q=qemu+debug&btnG=検索&lr=&aq=f&oq=
- 3 http://www.google.co.jp/search?q=emacs 一括置換 複数ファイル&btnG=検索&hl=ja&lr=lang_ja&client=firefox-a&rlz=1R1GGGL_ja___JP348&hs=Efa&sa=2
- 2 http://d.hatena.ne.jp/keyword/vimperatorrc
- 2 http://www.google.co.jp/search?hl=ja&q=qemu+デバッグ&sourceid=navclient-ff&rlz=1B3GGGL_jaJP282JP282&ie=UTF-8