最近注目されているのが、人間の声を利用して、生態認証を行うシステムです。
一方で、犯罪捜査やちょっとしたトラブルにおいて声を同一人物かどうか調べる方法を求める人もいます。
もちろん、一朝一夕で声紋を分析するのは難しく、同一人物かどうかの証拠をそろえるような最先端の機器を使用した分析は、その機械だけでも何百万・何千万という初期費用がかかりますし、声紋の調査費用だけでも多くの料金がかかるとされています。
ですが、ここではある声Aとある声Bを声紋や波形にして比較分析するまでの方法を書きたいと思います。
まず必要となるのがその声のサンプルです。
wavと呼ばれる音声形式です。(必要であればmp3から変換します。
http://freesoft-100.com/review/ecodecotool.html
のソフトが無料で簡単です)
次に、その音声を波形にするソフトが必要になります。
・アプリであれば、
「声紋」
https://play.google.com/store/apps/details?id=com.MusicalSoundLab.Spectrogram&hl=ja
PCソフトであれば、
無料の声門(せいもん)
http://www.vector.co.jp/soft/win95/art/se083941.html
ついで、アコースティックコア(Ver.8)。
無料の後、試用期間終了で購入が必要な【試用版】アコースティックコア(Ver.8)
※30日間限定で全機能が使えます
※対応OS:Windows 2000, XP, Vista
http://www.acousticcore.com/?page_id=163
http://www.acousticcore.com/?page_id=165
これらのサイトで、声紋を表示します。
アコースティックコア(Ver.8)の場合、以下の機能が使用可能となっています。
音声データの録音・再生・編集
分析 (スペクトログラム、パワー、基本周波数(F0)抽出、フォルマント抽出、短時間スペクトル)
フォルマント周波数、基本周波数のファイルへの出力機能
マーク・ラベリング (色設定、CSJ転記テキスト形式のサポート)
信号生成 (サイン波、方形波、三角波、ノコギリ波、パルス、ホワイトノイズ、ポーズ)
信号処理 (四則演算、ノーマライズ、無音化、リバース、フェードイン・フェードアウト、テーパー)
フィルタ (半波整流、移動平均、ローパスフィルタ、ハイパスフィルタ、プリエンファシス、ディエンファシス)
ブロック・サーチ (パワー値による有音部検索)
波形分割 (マークによる音声波形データファイルへの切り出し保存)
波形、マーク、分析結果の印刷
(サイトより引用)
スペクトログラムの分析などによって、その声の特徴や声質を視覚的に捉えることができます。
もちろん、声紋の一致を分析するものではないため、これだけでは正確な人物特定が可能となるわけではありません。
声紋研究の一部:
以下は、行政社会論集 第4巻第3号『音声に含まれる個人性情報』(横山雅夫)より引用
、魑人性情報(声質)は音韻情報と共にスペクトルの中に含まれている
のであるが、音声の生成機構に着目して項濤を考えると、
声帯特性として
α〉 ピッチ周波数(基本周波数〉の平均値
② ピッチ周波数の時間変化
(3/ピッチ周波数のゆらぎ
(4/声帯波形
声道特性として
(i/スペクトル包絡の形と傾斜
(2)ホルマント周波数(声道の共振周波数)の値
(3/ホルマント周波数の時間変化
(4/平均スペクトル特性
等が挙げられている
~
従来、種々の角度から行われ、
主として音源特性と声道特性を分離し、おのおのの特性と個人性との関係が論
じられてきた[8、9、26、27、28、291.伊藤らliOlは、種々の音響パラメータ
と個人性知覚との関係を調べ、その結果、スペクトル包絡特性、ピッチ
周波数、時間特性(テンポ)の順に寄与が大きいことを示した。桑原らli君
は、ホルマント周波数、バンド輻、および基本周波数が個人性に与える影響を
調べた実験により、ホルマント周波数のシフトに対して個人性は最も敏感で
あり、次にホルマント・バンド幅、最も鈍感なのは基本周波数であることを示
した。
また、古井ら[121は、男性話者9名の発声した単語音声を用い、平均
スペクトル包絡及び平均ピッチと音声の個人性との関係を調べた。その結果、
ケプストラムで平滑化したスペクトル包絡が個人性知覚に最も大きく寄与し
ていること、更に、2.5~3.5k翫帯域の寄与が大きいことを示した。一方、鈴
木1131は、年齢や性差、あるいは身体的特徴とピッチ周波数その他の音響パ
ラメータとの相関を調べたいくつかの研究に関する解説を解説を行っている。
(以上)
この引用からもわかるように、「スペクトル包絡特性」に認められるような特徴の抽出、音声学・統計学などの数学的な処理や物理的動態の関与、近似値の比較と言ったことを理解することで初めて声紋の一致如何を判別する入り口となります。
よくある間違いは、声が似てれば同一人物とか、ある単語の声紋の波形が同定されれば同一人物と言った単純な測定h情報では同一人物かは判定できないため、数学的・統計的傾向の分析によってのみ
可能となります。人の声は全く同じ人が同じ台詞を言っても時間とともに常に変化を続けます。
これを包絡の傾向によって分析するにはまだまだ素人では不十分となりえます。
結論を述べれば、正確な声紋の一致作業は、専門家と専門の機器によって分析・解析することで初めて正確な証拠・情報となりえるといえるでしょう。
一方で、犯罪捜査やちょっとしたトラブルにおいて声を同一人物かどうか調べる方法を求める人もいます。
もちろん、一朝一夕で声紋を分析するのは難しく、同一人物かどうかの証拠をそろえるような最先端の機器を使用した分析は、その機械だけでも何百万・何千万という初期費用がかかりますし、声紋の調査費用だけでも多くの料金がかかるとされています。
ですが、ここではある声Aとある声Bを声紋や波形にして比較分析するまでの方法を書きたいと思います。
まず必要となるのがその声のサンプルです。
wavと呼ばれる音声形式です。(必要であればmp3から変換します。
http://freesoft-100.com/review/ecodecotool.html
のソフトが無料で簡単です)
次に、その音声を波形にするソフトが必要になります。
・アプリであれば、
「声紋」
https://play.google.com/store/apps/details?id=com.MusicalSoundLab.Spectrogram&hl=ja
PCソフトであれば、
無料の声門(せいもん)
http://www.vector.co.jp/soft/win95/art/se083941.html
ついで、アコースティックコア(Ver.8)。
無料の後、試用期間終了で購入が必要な【試用版】アコースティックコア(Ver.8)
※30日間限定で全機能が使えます
※対応OS:Windows 2000, XP, Vista
http://www.acousticcore.com/?page_id=163
http://www.acousticcore.com/?page_id=165
これらのサイトで、声紋を表示します。
アコースティックコア(Ver.8)の場合、以下の機能が使用可能となっています。
音声データの録音・再生・編集
分析 (スペクトログラム、パワー、基本周波数(F0)抽出、フォルマント抽出、短時間スペクトル)
フォルマント周波数、基本周波数のファイルへの出力機能
マーク・ラベリング (色設定、CSJ転記テキスト形式のサポート)
信号生成 (サイン波、方形波、三角波、ノコギリ波、パルス、ホワイトノイズ、ポーズ)
信号処理 (四則演算、ノーマライズ、無音化、リバース、フェードイン・フェードアウト、テーパー)
フィルタ (半波整流、移動平均、ローパスフィルタ、ハイパスフィルタ、プリエンファシス、ディエンファシス)
ブロック・サーチ (パワー値による有音部検索)
波形分割 (マークによる音声波形データファイルへの切り出し保存)
波形、マーク、分析結果の印刷
(サイトより引用)
スペクトログラムの分析などによって、その声の特徴や声質を視覚的に捉えることができます。
もちろん、声紋の一致を分析するものではないため、これだけでは正確な人物特定が可能となるわけではありません。
声紋研究の一部:
以下は、行政社会論集 第4巻第3号『音声に含まれる個人性情報』(横山雅夫)より引用
、魑人性情報(声質)は音韻情報と共にスペクトルの中に含まれている
のであるが、音声の生成機構に着目して項濤を考えると、
声帯特性として
α〉 ピッチ周波数(基本周波数〉の平均値
② ピッチ周波数の時間変化
(3/ピッチ周波数のゆらぎ
(4/声帯波形
声道特性として
(i/スペクトル包絡の形と傾斜
(2)ホルマント周波数(声道の共振周波数)の値
(3/ホルマント周波数の時間変化
(4/平均スペクトル特性
等が挙げられている
~
従来、種々の角度から行われ、
主として音源特性と声道特性を分離し、おのおのの特性と個人性との関係が論
じられてきた[8、9、26、27、28、291.伊藤らliOlは、種々の音響パラメータ
と個人性知覚との関係を調べ、その結果、スペクトル包絡特性、ピッチ
周波数、時間特性(テンポ)の順に寄与が大きいことを示した。桑原らli君
は、ホルマント周波数、バンド輻、および基本周波数が個人性に与える影響を
調べた実験により、ホルマント周波数のシフトに対して個人性は最も敏感で
あり、次にホルマント・バンド幅、最も鈍感なのは基本周波数であることを示
した。
また、古井ら[121は、男性話者9名の発声した単語音声を用い、平均
スペクトル包絡及び平均ピッチと音声の個人性との関係を調べた。その結果、
ケプストラムで平滑化したスペクトル包絡が個人性知覚に最も大きく寄与し
ていること、更に、2.5~3.5k翫帯域の寄与が大きいことを示した。一方、鈴
木1131は、年齢や性差、あるいは身体的特徴とピッチ周波数その他の音響パ
ラメータとの相関を調べたいくつかの研究に関する解説を解説を行っている。
(以上)
この引用からもわかるように、「スペクトル包絡特性」に認められるような特徴の抽出、音声学・統計学などの数学的な処理や物理的動態の関与、近似値の比較と言ったことを理解することで初めて声紋の一致如何を判別する入り口となります。
よくある間違いは、声が似てれば同一人物とか、ある単語の声紋の波形が同定されれば同一人物と言った単純な測定h情報では同一人物かは判定できないため、数学的・統計的傾向の分析によってのみ
可能となります。人の声は全く同じ人が同じ台詞を言っても時間とともに常に変化を続けます。
これを包絡の傾向によって分析するにはまだまだ素人では不十分となりえます。
結論を述べれば、正確な声紋の一致作業は、専門家と専門の機器によって分析・解析することで初めて正確な証拠・情報となりえるといえるでしょう。
コメント