(cache) Nokogiriのparse時の文字コード

2010-01-09

■[ruby] Nokogiriのparse時の文字コード

rubyのHTML, XMLパーサであるNokogiriでsjis等の日本語を含んだファイルをパースする時の文字コードはutf8が良さげ。

というよりsjisとかうまくparseしてくれない。

※全くparseしてくれないんじゃなくて、途中でdomの一部が欠落している場合があった

環境
- ruby 1.8.7
- nokogiri 1.4.1

require 'rubygems'
require 'nokogiri'
require 'nkf'

read = NKF.nkf("--utf8", File.open("hoge.xml").read) #hoge.xmlはsjisで書かれていてheaderのencodingは"Shift_JIS"
doc = Nokogiri.XML(read, nil, 'utf8')

Permalink | コメント(0) | トラックバック(0) | 17:29

トラックバック - http://d.hatena.ne.jp/sodex/20100109/1263025775

リンク元

11 http://www.sssg.org/blogs/naoya/archives/679
10 http://www.google.co.jp/search?hl=ja&client=firefox-a&rls=org.mozilla:ja:official&hs=G9e&q=x200+ubuntu+9.10+解像度&btnG=検索&lr=lang_ja&aq=f&oq=
5 http://www.google.co.jp/search?hl=ja&source=hp&q=ubuntu+9.10+インストール&btnG=Google+検索&lr=&aq=3&oq=ubuntu+9.10+
4 http://cpp.ring.hatena.ne.jp/
3 http://w-it.jp/pirlo21/2008/05/post_19.html
3 http://www.google.co.jp/search?hl=ja&lr=lang_ja&client=firefox-a&rls=org.mozilla:ja:official&hs=HCD&q=request_rec+構造体&revid=1098596135&ei=7upLS46gA5WekQXj-bWVDQ&sa=X&oi=revisions_inline&resnum=0&ct=top-revision&cd=1&ved=0CAYQ4QIoAA
3 http://www.google.co.jp/search?hl=ja&safe=off&client=firefox-a&rls=org.mozilla:ja-JP:unofficial&hs=9XS&q=qemu+debug&btnG=検索&lr=&aq=f&oq=
3 http://www.google.co.jp/search?q=emacs　一括置換　複数ファイル&btnG=検索&hl=ja&lr=lang_ja&client=firefox-a&rlz=1R1GGGL_ja___JP348&hs=Efa&sa=2
2 http://d.hatena.ne.jp/keyword/vimperatorrc
2 http://www.google.co.jp/search?hl=ja&q=qemu+デバッグ&sourceid=navclient-ff&rlz=1B3GGGL_jaJP282JP282&ie=UTF-8

		2010/01
日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Just Do Live

2010-01-09

■[ruby] Nokogiriのparse時の文字コード