【ソフト紹介】 |
日本語/英語の文書データからキーワード(単語、連語)を抽出・集計するソフトです。
次のような場面でご利用いただけます
- 文書校正における用語統一チェック
- 用語索引を作成する際の用語一覧の整理
- 特定の特許明細書の分析・精読
- 翻訳支援ツールとして(訳語一括置換のための用語抽出)
|
|
|
|
【本ソフトの特徴】
- 原文中のキーワードの色分け表示
- 原文中のキーワードとキーワード一覧のリアルタイム連動
- キーワード一覧の絞込み表示
- キーワード一覧の並べ替え表示
【キーワード抽出処理の特徴】
日本語と英語とで独立した処理を行います。これら以外の言語には対応しておりません。
- (日本語)文字種の変化を契機とした単語識別を行うものです。
- (英語)冠詞、区切り文字、ストップワードを頼りにしたキーワード抽出です。
- (日本語・英語)辞書を用いないので、新語、造語にも対応できます。
- (日本語)かな交じり語 (漢字1文字+かな で始まる語)も抽出されます。
例 「問い合わせ」「組み合わせ」, ...
- (日本語・英語)単語のほか、連語(複合語)を取り出すことができます。
例 「データ記憶装置」→「データ」/「記憶装置」/「データ記憶装置」
- (日本語・英語)なるべく多くの語を識別・出力しようとするものです。重要語句のみを取り出すものではありません。
- (日本語・英語)20,000字程度のテキストデータ(標準的な量の特許明細書)なら瞬時に抽出・集計が完了します。
【実装状況に関する留意事項】 (仕様として定めるものではありません)
■日本語用キーワード抽出
- 英文に対して日本語用キーワード抽出を行うと、単なる単語集計器となります。
- 他の単語を含む語句であっても、単語として認識されることがあります。
例 「送信する送信手段」→ 「送信」と「送信手段」を別の単語として認識します。
この例で「送信」の出現数は1となります。
- '・'(中黒)や 'ー'(長音)およびそれらの類似文字は文脈に応じて統一化されますので、これらの文字を含む語句がある場合、出力されたキーワードで原文を検索してもヒットしない場合があります。
- ひらがなのみのキーワード、数字で始まるキーワード、記号で始まるキーワードは無いことを前提とした処理になっています。
- 特許文章での利用を考慮し、下記語句は出力しないようにしています。
- 語句先頭の "前記"
- 語句先頭の "当該"
- "及び"
- "又は"
- "乃至"
■英語用キーワード抽出
- 連語については名詞が出力される処理とすることを指向していますが、品詞辞書は用いないため、抽出結果には動詞などの修飾語がつく場合も少なくありません。
- 単数形と複数形は別のキーワードとしてカウントされます。
例 box / boxes
- 出現数は単語または連語で取り出されたキーワード全体でカウントします。連語を分解して単語ごとに出現数を集計することは行っていません。
例 "A man-machine interface" という文からは、"a man-machine interface" がキーワードとして
抽出され、"interface" 単独では出力されません。
- 内部で無意味語のテーブルを保持しており(ある意味では「辞書」と呼べるかもしれません)、you, this など、単独で出力されても意味のない(キーワードとしての性質がほとんどない)語を出力しないようにしています。
- 次の理由により、抽出されたキーワードで原文を検索してもヒットしない場合があります。
- 改行は空白とみなしますので、文の途中で改行されていてもセンテンスが続いているものとして連語抽出を行います。但し、行末ハイフネーションの補正処理は行っておりません。
- 原文中で単語間の空白が2文字以上あっても、出力されるキーワード中の単語間の空白文字は1文字のみとなります。
例 "the present invention" → "the present invention"
- 出力されるキーワードの先頭文字は可能な限り小文字に変換されます。
- 数字で始まるキーワード、記号で始まるキーワードは無いことを前提とした処理になっています。
|
|
|
【ソフト種別】 |
フリーウェア
キーワード抽出エンジンのモジュール提供、組み込み開発等承ります。お気軽にお問い合わせ下さい。
|
【動作環境】 |
日本語Windows10, Windows8.1, Windows7 |
|
|
【バージョン】
|
Ver 2.1 (2017/02/21)
|
【ダウンロード】 |
ekwords210.zip |
|
|
【最近の改訂事項】 |
- (2.1.0) 「ひらがな変換」オプションを追加(正しい「読み」になるとは限りません)
- (2.0.4) 「連語の内部を個別にカウントしない」のとき、
先頭のかな交じり語を分離してカウントするよう修正
例 改訂前「有するマグネシウム合金」としてカウントされていた
→「有する」「マグネシウム合金」に分離してカウント
- (2.0.3b) 収録プログラムが古いままだった点を修正
- (2.0.3) 「連語の内部を個別にカウントしない」オプションを新設
例「データを送信するデータ送信手段」の集計結果
OFF
(従来からの集計方法) |
データ 2
送信 1
送信手段 1
データ送信手段 1
|
ON |
データ 1
送信 1
データ送信手段 1
|
- (2.0.2) 「色クリア」が不完全であった点を修正
- (2.0.2) 動作環境を改訂
- (2.0.1) 抽出結果を「全てコピー」したときの改行状態が不適切であった点を修正
- (2.0) [日] :1文字の語も抽出するオプションを追加
- (2.0) [英] :右寄せソートを単語単位でソートするよう変更
- (2.0) [日] :原文解析支援機能を追加:キーワードと非キーワード部を分離してキーワードごとに改行して表示
- (2.0) [日] :原文解析支援機能を追加:非キーワード文字列の出現数をカウント
- (2.0) ハイライト表示を変更(背景に色づけ表示)
- (2.0) 解析結果に出現順の情報を追加
|