人間の音声とは

人間の音声とは連続的に変化する音のストリームです。その連続的な音のストリームの中に学習した錯覚で音素(発音記号)を聞いています。

極端な例を出ば、犬の鳴き声も連続的な音のストリームです。しかし、日本人には「ワンワン」と聞えます。英語文化圏の人達には「Bowwow」と聞えるそうです。この「ワンワン」と「Bowwow」が錯覚聞えた音です。「ワンワン」とWの音が、「Bowwow」とBの音が聞こえていまが、犬の唇の形状から言えばWやBの音は出せるはずもありません。多分犬は「ワンワン」とも、「Bowwow」とも鳴いていないのですが、確かにそう聞こえます。

東大の峯松信明氏は音素(発音記号)は音素は学習した錯覚だと言っております。

音声学ではモデルとして、その音声の時間軸に母音と子音が同格に並んでいると考えています。しかし、それは物理的な音素が並んでいると言うのではなく、説明を容易にするためにモデル化したものです。子音は母音が一時的に逸脱した音であり、その子音を母音から切り離す事はできません。

人間の人種間の個体差は小さい
人間のDNAの研究により我々の地球上にいる全ての人種はオーストラリアのアボリジニも含めて、全て同じ集団から生まれています。すると見掛けはかなり違っても体や聴覚はあまり違いが無いはずです。もしそれぞれの言語の特性を知れべてみれば、言語間つまり人種間でそれほど大きな違いはないと思われます。

人間の声帯の音
人間の声は喉にある声帯に息の流し、振動することで”声”の元になる音を作り出します。この声帯の振動の範囲は下記のとおりで、これを声帯の基本周波数(または基音:F0)といいます。

      通常の振動数: 100〜200 Hz
      可能振動範囲: 約82〜1056 Hz

この基本周波数は、発音する言葉が違ってもほとんど変化せず一定です。また、この声帯原音は声帯の振動による音ですから大変にノイズの多い音になっています。

耳に聞こえる声の高さは、多くの要素がありますが最も大きなものが基本周波数によって決まります。

共鳴した音
声帯の振動数(基本周波数)が一定だとすると、人間はどうして色々な言葉を喋ることができるのでしょうか。これは、喉や舌や口で声帯原音を加工することで行われています。具体的には、喉の閉め方、口の開け方、舌の形、息の流れ方、共鳴腔による共鳴等によって加工され、それらに摩擦音や破裂音などが付け加えられることで、様々な言葉として発話されます。その中でも最も重要なのは舌の形状です。
   
我々の音声は母音と子音音節から成り立っています。これらの音はサウンドス・ペクトログラムと呼ばれるグラフで観察できます。サウンド・スペクトグラムで示される声の周波数スペクトルには、特定の周波数領域にいくつかのピークがあり、このスペクトルの山の事をフォルマント(共鳴周波数) と呼びます。

その周波数について、低い順から第1フォルマント(F1)、第2フォルマント(F2)、第3フォルマント(F3)、第4フォルマント(F4)と名付けられています。

日本語の「あ」と「お」、「う」と「え」の音はF1とF2の数字をみるとオーバーラップしているので、「あ」と「お」、「う」と「え」だけでは区別がつきません。音がどう変化するかを感じて「あ」と「お」、「う」と「え」を聞き分けております。

声質(音声の静的要素)
声の性質は、声に含まれるフォルマントの数、各フォルマントの周波数や振幅、帯域幅などの話者が持つ、音声の音のストリームの持つ静的な要素によって決まります。

私達の周りには、色々な声質の人がいます。さらに、性別・体格や年齢などによっても声の質は変わります。太い渋い声、ハスキーな声、鼻に掛かったような声、アニメ声などなどで、lこれらの音声を分析すると、F1〜F4の各フォルマントの周波数や振幅などに違いが現れます。

音声認識(音声の動的要素)
人間が音声を認識するプロセスは非常に複雑ですが、主たる要素はフォルマント等の時間的な動的変化を感じとり認識しております。そのために体が大きく音が低くても、体が小さな幼児でもまったく問題なく、コミュニケーションが可能です。

このように人間の音声には静的な要素、動的な要素が含まれており、我々はその音声を聞いて誰の声であるか識別し、同時にどのような意味であかを判断しております。これらの識別の判断は現在のコンピュータとソフトににやらせても識別判断能力はとても人間には及びません。
HOME|最適性理論とは|教材オンラインショップ|特定商取引法の記載|個人情報保護方針|お問い合わせ
Copyright(C) 2011 最適性理論で英語学習 All Rights Reserved