(cache) レシピ言語処理マニュアル

はじめに

レシピを対象とした研究・開発が近年さかんになってきています．そこでは，レシピの手順文書に対して形態素解析した結果を素材として用いることが多いですが，その準備には意外と手間がかかります．このような素材の準備は，研究・開発に依存することは少なく，共通化できる処理も多いと考えています．少しでも前準備の労力を減らし，本来の研究に打ち込める環境を提供するため，我々は本マニュアルを公開しました．これによって，レシピを対象とした研究・開発がますますさかんになっていくことを期待しています．
本マニュアルは，レシピの手順文書を入力として，単語分割結果や品詞判別結果，食材・道具などの判別結果，終止形復元結果を出力する方法を記したものです．
例えば，以下のような結果が得られます．

入力
```
糸蒟蒻を下茹でします。
```

形態素解析結果

糸/名詞/名詞-普通名詞-一般+/し 蒟蒻/名詞/名詞-普通名詞-一般+/こんにゃく を/助詞/助詞-格助詞+/を 下茹で/名詞/名詞-普通名詞-サ変可能+/したゆで し/動詞/動詞-非自立可能+サ行変格/し ま/助動詞/助動詞+助動詞-マス/ま す/語尾/語尾+助動詞-マス/す 。/補助記号/補助記号-句点+/。

終止形を復元したものを付与した結果

糸/名詞/名詞-普通名詞-一般+/し/NA 蒟蒻/名詞/名詞-普通名詞-一般+/こんにゃく/NA を/助詞/助詞-格助詞+/を/NA 下茹で/名詞/名詞-普通名詞-サ変可能+/したゆで/NA し/動詞/動詞-非自立可能+サ行変格/し/する ま/助動詞/助動詞+助動詞-マス/ま/ます す/語尾/語尾+助動詞-マス/す/NA 。/補助記号/補助記号-句点+/。/NA

食材・道具などの判別結果

糸/F-B 蒟蒻/F-I を/O 下茹で/Ac-B し/O ま/O す/O 。/O

最終的に得られる結果

糸,名詞,名詞-普通名詞-一般+,し,NA=蒟蒻,名詞,名詞-普通名詞-一般+,こんにゃく,NA/F を,助詞,助詞-格助詞+,を,NA 下茹で,名詞,名詞-普通名詞-サ変可能+,したゆで,NA/Ac し,動詞,動詞-非自立可能+サ行変格,し,する ま,助動詞,助動詞+助動詞-マス,ま,ます す,語尾,語尾+助動詞-マス,す,NA 。,補助記号,補助記号-句点+,。,NA

論文での説明

論文での説明例はこちら（.zip, EUC-JP版）からダウンロードできます．本ページに掲載されているマニュアルに従って処理した結果を，論文に掲載される際の説明文としてご利用ください．

注意事項

以下の処理は，すべて文字コードUTF-8で行います．
サンプルプログラムは，入力されるファイルの改行コードがLF("\n")であることを前提として作られています．
（必要に応じてサンプルプログラムを変更してください．）
形態素解析の処理では，メモリが8GB以上必要です．

前準備

形態素解析器KyTeaをこちらのページからダウンロードし，インストールしてください
形態素解析用モデルをこちら（最新モデル(4.1GB)）からダウンロードし，適当な場所に保存してください
終止形を復元するためのプログラム等が入ったファイルをこちら(.tar.gz)からダウンロードし，適当な場所に保存して，展開してください．
レシピ固有表現認識器（食材や道具などを判別するもの）をこちら(.tar.gz)からダウンロードし，適当な場所に保存して，展開してください
Perlが入っていない場合はインストールしてください（終止形復元，レシピ固有表現認識を行う際に必要）
Pythonが入っていない場合はインストールしてください（サンプルプログラムを利用する際に必要）
解析したいレシピ手順文が記述されたファイルをUTF-8で作成してください（サンプル）

手順

解析したい手順文書がJIS X 0208 UTF-8の文字集合によって構成されるようにしてください．また，実体参照や文字参照を通常の文字に変換してください．サンプルプログラム(python)を展開する．

# -*- coding: utf-8 -*-
import sys
import htmlentitydefs
import re
import unicodedata
import zenhan


class Normalizer(object):
    def __init__(self, char_path):
        # 全角 JIS X 0208 の文字群
        self.char_list = []
        for line in open(char_path):
            self.char_list.append(line[:-1])

    def __del__(self):
        pass

    def main(self, input_path, output_path):
        num = 0
        fp = open(output_path, 'w')
        for line in open(input_path):
            line = line.replace('\n', '')  # <--必要に応じて改行コードを変更
            norm_line = self.check(line.decode('utf-8'))
            if norm_line == -1:
                print 'ERROR: Input text is not unicode.'
                sys.exit()
            fp.write(norm_line + '\n')  # <--必要に応じて改行コードを変更
        fp.close()

    def check(self, text):
        """textを全角 JIS X 0208で構成されるように変換・除去し，返す
        """
        if type(text) != type(u''):
            return -1
        text2 = self.htmlentity2unicode(self.htmlentity2unicode(text))
        text_norm = unicodedata.normalize('NFKC', text2)
        text_zen = zenhan.h2z(text_norm)
        zyokyo_list = []
        for zen in text_zen:
            if zen not in self.char_list:
                zyokyo_list.append(zen)
        for zyokyo in zyokyo_list:
            text_zen = text_zen.replace(zyokyo, '')  # 除去
        return text_zen

    def htmlentity2unicode(self, text):
        """実体参照と文字参照を通常の文字に変換し返す
        http://www.programming-magic.com/20080820002254/
        """
        # 正規表現のコンパイル
        reference_regex = re.compile(u'&(#x?[0-9a-f]+|[a-z]+);', re.IGNORECASE)
        num16_regex = re.compile(u'#x\d+', re.IGNORECASE)
        num10_regex = re.compile(u'#\d+', re.IGNORECASE)

        result = u''
        i = 0
        while True:
            # 実体参照 or 文字参照を見つける
            match = reference_regex.search(text, i)
            if match is None:
                result += text[i:]
                break

            result += text[i:match.start()]
            i = match.end()
            name = match.group(1)

            # 実体参照
            if name in htmlentitydefs.name2codepoint.keys():
                result += unichr(htmlentitydefs.name2codepoint[name])
                # 文字参照
            elif num16_regex.match(name):
                # 16進数
                result += unichr(int(u'0' + name[1:], 16))
            elif num10_regex.match(name):
                # 10進数
                result += unichr(int(name[1:]))

        return result


if __name__ == '__main__':
    argvs = sys.argv
    argc = len(argvs)
    if argc != 4:
        print '以下の書式で実行してください'
        print 'python normalizer_sample.py [JIS X 0208文字一覧ファイル] [入力元のパス] [出力先のパス]'
        sys.exit()
    char_path = argvs[1]
    input_path = argvs[2]
    output_path = argvs[3]
    n = Normalizer(char_path)
    n.main(input_path, output_path)
    print 'DONE!!'

python ["normalizer_sample.py"のパス] [JIS X 0208文字一覧ファイルのパス] [解析したい手順文書のパス] [出力先のパス]

以下のコードを実行して，形態素解析します．
ここで使用するモデルの拡張子は".kbm"です．

kytea -model [ダウンロードした形態素解析用モデル(.kbm)のパス] < [手順1で出力されたファイルのパス] > [出力先のパス]

活用語に対して，終止形を復元した結果を付与します．この処理では，bccwjconv.tar.gzの中に入っている"addbase.perl"と" base.list"を利用します．
この処理は，作業ディレクトリを"base.list"が入っているディレクトリに変更して行う必要があります．
```
cd ["base.list"が入っているディレクトリのパス]
perl ["addbase.perl"のパス] < [手順2で出力されたファイルのパス] > [出力先のパス]
                  
```

レシピ固有表現認識を行うための前準備として，手順3で得られたファイルから以下の書式に合うファイルを作成します．

[表記] [表記] [表記] ...

サンプルプログラム(python)を展開する．

# -*- coding: utf-8 -*-
import sys


class Preparation(object):
    def __init__(self):
        pass

    def __del__(self):
        pass

    def main(self, input_path, output_path):
        num = 0
        fp = open(output_path, 'w')
        for line in open(input_path):
            line = line.replace('\n', '')  # <--必要に応じて改行コードを変更
            words = [w.split('/')[0] for w in line.split(' ')]
            fp.write(' '.join(words) + '\n')  # <--必要に応じて改行コードを変更
        fp.close()


if __name__ == '__main__':
    argvs = sys.argv
    argc = len(argvs)
    if argc != 3:
        print '以下の書式で実行してください'
        print 'python preparation_for_ner_sample.py [入力元のパス] [出力先のパス]'
        sys.exit()
    input_path = argvs[1]
    output_path = argvs[2]
    p = Preparation()
    p.main(input_path, output_path)
    print 'DONE!!'

python ["preparation_for_ner_sample.py"のパス] [手順2で出力されたファイルのパス] [出力先のパス]

以下のコードを順に実行して，レシピ固有表現認識(以下，NERという)を行います．
ここで使用するモデルの拡張子は".knm"です．
誤って形態素解析のモデル(.kbm)を指定すると，すべてAc-Bになりますのでご注意ください．

kytea -model [ダウンロードしたNERフォルダに入っているモデル(.knm)のパス] -out conf -nows -tagmax 0 -unktag /UNK [手順4で出力されたファイルのパス] > temp.Ciob2
perl [NERフォルダ内の bin/NESearch.pl] temp.Ciob2 [出力先のパス]

整形したものを出力します．出力ファイルのデリミタ（区切り文字）は，読み込むための処理の順に以下のとおりです．

" " --- 単語や固有表現の区切り
"/" --- レシピ固有表現タグ区切り
"=" --- 同一固有内の単語区切り
"," --- 形態素情報区切り (形態素解析の "/" に相当)
"+" --- 活用型の区切り(活用語の場合のみ後続要素あり)
"-" --- 品詞細分類の要素の区切り

サンプルプログラム(python)を展開する．

# -*- coding: utf-8 -*-
import sys


class Finalizer(object):
    def __init__(self):
        pass

    def __del__(self):
        pass

    def main(self, input_path1, input_path2, output_path):
        num = 0
        fp = open(output_path, 'w')
        lists1 = []
        lists2 = []
        for line in open(input_path1): # 終止形復元結果付与後のもの
            line = line.replace('\n', '').split(' ')  # <--必要に応じて改行コードを変更
            lists1.append(line)
        for line in open(input_path2): # NERされたもの
            line = line.replace('\n', '').split(' ')  # <--必要に応じて改行コードを変更
            lists2.append(self._modify_Viob2(line))
        for list1, list2 in zip(lists1, lists2):
            restored_list = self._restore(list1, list2)
            output_list = self._join_words(restored_list)
            fp.write(' '.join(output_list) + '\n')  # <--必要に応じて改行コードを変更
        fp.close()

    def _modify_Viob2(self, input_list):
        """
        入力例）[糸/F-B 蒟蒻/F-I を/O 下茹で/Ac-B し/O ま/O す/O 。/O]
        出力例）[糸/F 蒟蒻/F を 下茹で/Ac し ま す 。]
        """
        output_list = []
        for item in input_list:
            if item == '':
                continue
            item = item.split('/')
            if item[1] == 'O':
                output_list.append(item[0])
            else:
                output_list.append(item[0] + '/' + item[1].split('-')[0])
        return output_list

    def _restore(self, input_list1, input_list2):
        """
        入力１例）[糸/名詞/名詞-普通名詞-一般+/し/NA,蒟蒻/名詞/名詞-普通名詞-一般+/こんにゃく/NA,...]
        入力２例）[糸/F 蒟蒻/F を 下茹で/Ac し ま す 。]
        出力例）  [糸,名詞,名詞-普通名詞-一般+,し,NA/F 蒟蒻,名詞,名詞-普通名詞-一般+,こんにゃく,NA/F ...]
        """
        output_list = []
        for item1, item2 in zip(input_list1, input_list2):
            item1 = item1.split('/')
            if '/' in item2:
                item2 = item2.split('/')
            else:
                item2 = [item2, '']
            if item1[0] != item2[0]:
                print 'ERROR: item1 != item2 at _restore'
                sys.exit()
            if item2[1] == '':
                output_list.append(','.join(item1))
            else:
                output_list.append(','.join(item1) + '/' + item2[1])
        return output_list

    def _join_words(self, input_list):
        """
        入力例）[糸,名詞,名詞-普通名詞-一般+,し,NA/F 蒟蒻,名詞,名詞-普通名詞-一般+,こんにゃく,NA/F ...]
        出力例）[糸,名詞,名詞-普通名詞-一般+,し,NA=蒟蒻,名詞,名詞-普通名詞-一般+,こんにゃく,NA/F ...]
        """
        tag_list = []
        for item in input_list:
            item = item.split('/')
            if len(item) == 1:  # タグなし
                tag_list.append('')
            else:
                tag_list.append(item[1])
        i = 0
        output_str = ''
        for item in input_list:
            if tag_list[i] == '':  # タグなし
                output_str += item + ' '
            else:
                if i == (len(input_list) - 1):  # 最後の単語
                    output_str += item + ' '
                else:
                    if tag_list[i] == tag_list[i + 1]:  # 次単語と同一タグ
                        output_str += item.split('/')[0] + '='
                    else:
                        output_str += item + ' '
            i += 1
        output_list = output_str.split(' ')[:-1]
        return output_list

if __name__ == '__main__':
    argvs = sys.argv
    argc = len(argvs)
    if argc != 4:
        print '以下の書式で実行してください'
        print 'python finalizer_sample.py [手順3で出力されたファイルのパス] [手順5で出力されたファイルのパス] [出力先のパス]'
        sys.exit()
    input_path1 = argvs[1]
    input_path2 = argvs[2]
    output_path = argvs[3]
    f = Finalizer()
    f.main(input_path1, input_path2, output_path)
    print 'DONE!!'

python ["finalizer_sample.py"のパス] [手順3で出力されたファイルのパス] [手順5で出力されたファイルのパス] [出力先のパス]

参考文献

言語処理
利用例

連絡先

森信介 (forest [at] i.kyoto-u.ac.jp)
山肩洋子 (yamakata [at] dl.kuis.kyoto-u.ac.jp)
門脇拓也 (kadowaki [at] dl.kuis.kyoto-u.ac.jp)

※[at]を@に置き換えてください．

はじめに

論文での説明

注意事項

前準備

手順

参考文献

言語処理

利用例

連絡先

目次