Just Do Live このページをアンテナに追加 RSSフィード

2010-01-09

[] Nokogiriのparse時の文字コード

rubyHTML, XMLパーサであるNokogiriでsjis等の日本語を含んだファイルをパースする時の文字コードはutf8が良さげ。

というよりsjisとかうまくparseしてくれない。

※全くparseしてくれないんじゃなくて、途中でdomの一部が欠落している場合があった

require 'rubygems'
require 'nokogiri'
require 'nkf'

read = NKF.nkf("--utf8", File.open("hoge.xml").read) #hoge.xmlはsjisで書かれていてheaderのencodingは"Shift_JIS"
doc = Nokogiri.XML(read, nil, 'utf8')

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/sodex/20100109/1263025775