テキストマイニングで紅茶紹介
おひさしぶりです。インターンの熊澤です。
みなさんは、家やオフィスで普段飲む飲み物はなんですか?お茶、あるいはコーヒーでしょうか。
私は最近紅茶にはまっています。紅茶の良い香りや味が好きなのはもちろんですが、紅茶を飲むことはただの水分補給ではないと思っています。紅茶が好きな自分を好きになる、そういうところがあります。
緑茶は素敵です、癒しもあるし何か精神的な崇高さがあると思います。しかし私にとってはまだ緑茶はストイックすぎます。コーヒーも良いです。大人になった気がします、コーヒーの苦みを味わうとき、人はまた自分の人としての成熟を味わっていると思います。しかしコーヒーも自分にとってはまだ背伸びをしている感じでぴったりでは無いですね。僕にとっては紅茶、これがしっくりきますね。砂糖を入れる、そうすると紅茶の香りも引き立つ。甘いだけじゃない優雅さで自分を包んでくれます。
普段はおしゃれな生活とはとても言えない日々ですが、紅茶を飲むとき等身大の自分のまま何か美しいものにつながる。そんな気がします。
紅茶にハマりだしてからずっとアールグレイが好きでした。
あの非日常的な香りとミルクの親しみやすさがブレンドされると奇跡が起こります。しかしあるとき気づきました。
紅茶にはたくさん種類があるのだからそれぞれの茶葉の魅力を理解したらもっと紅茶生活が充実するじゃないか、アールグレイしか飲まないだなんてもったいないと。そこで私はアールグレイ以外の紅茶について調べてみることにしました。それだけでなく、実際にその紅茶を飲んだ人がどんな感想を持ったのかということとツイッターのつぶやきをテキストマイニングすることによってその紅茶の味を確かめ、定量的に茶葉の特徴を伝えられるようにしました。
代表的な紅茶がどのようなニーズの人におすすめか分かる内容になっておりますので是非紅茶選びの参考にしてください。
1. 分析する茶葉の種類
分析するのは代表的な茶葉の種類であるアールグレイ、ダージリン、ウバ、アッサム、ニルギリです。
これらの茶葉の名前を含むツイートを1000ツイートずつ収集し、香り、渋み、ミルク、ストレート、清涼感、コクなどのキーワードの頻度を比較の指標にしてコレスポンデンスで構造の視覚化、クラスタリングで茶葉の分類をしました。
コレスポンデンス分析とは対応分析とも呼ばれることがありますが、基本的な考え方は列項目と業項目が相関が最高になるように両方とも並べ替える事です。クラスタリングは似た者同士をまとめてグループに分類するということです。
2. それぞれの茶葉の特徴(予備知識)
- アールグレイ
強い柑橘系の香りが特徴のフレーバーティーです。ベルガモットという柑橘系のフルーツで人工的に香りが付けられています。
ちなみにベルガモットには精神を安定させるホルモンバランスを整える作用があるとされアロマセラピーにも使われているようです。 - ダージリン
独特な香りと、繊細な奥深い渋みを持ち(マスカットに例えられることもある)「紅茶のシャンパン」と呼ばれています。 - ウバ
花のような爽やかな香りを持ちつつもしっかりとした濃厚なコクと渋みがあり、ミルクティーに向いています。 - アッサム
とても暑い地方の茶葉でとても味が濃く、深いコクと甘みがありミルクティーに向いています。 - ニルギリ
しっかりとした味わいがあるもののクセがなく素直な味わいでとても飲みやすいです。
3. 使用するデータ
アールグレイ、ダージリン、ウバ、アッサム、ニルギリを含むツイートのデータ1000件ずつからRMeCabというパッケージを用いてキーワードを抽出することで以下のような形でクロス集計を作りました。それぞれの茶葉をつぶやきに含まれていた香り、渋み、ストレート、ミルク、ストレート、清涼感、コクというキーワードの頻度で比較できるようになっています。
香り | 渋み | ストレート | ミルク | 清涼感 | コク | |
アールグレイ | 108 | 8 | 10 | 57 | 1 | 0 |
ダージリン | 126 | 10 | 50 | 27 | 1 | 5 |
ウバ | 102 | 54 | 58 | 115 | 3 | 73 |
アッサム | 89 | 34 | 49 | 324 | 1 | 33 |
ニルギリ | 61 | 4 | 118 | 246 | 44 | 104 |
このクロス表だけでも考察に入れますが、まずは視覚的に構造を理解できるコレスポンデンス分析と似ているもの同士をグループ分けしてくれるクラスタリングによって解釈していきましょう。
4. コレスポンデンス分析の結果と解釈
コレスポンデンス分析は行と列が相関が最大になるように双方を並び変えた物です。
例えばニルギリとコクはとても近い位置にありますが、これはニルギリとコクの相関が他の茶葉と比べてとても高いことを示しています。逆にコクから最も遠いアールグレイはコクとの相関がとても低いということです。
より簡単に説明すると茶葉同士の名前は近いほど似ていて、香りや渋みなどのキーワードと近い茶葉ほどその要素が強いということです。
私はこのコレスポンデンス分析の結果を以下の図のように3つのグループに分けて解釈しました。
5.コレスポンデンス分析結果を分類解釈してみた。
ツイッターの感想を元に紅茶をコレスポンデンス分析したものを解釈すると、紅茶には3つのタイプがあることが分かります。
香りを主に楽しまれているアールグレイとダージリンの香り系があること。アールグレイもダージリンも特徴的な香りがある紅茶なのがツイッターのつぶやきにも現れています。
コクと渋みのグループに入るアッサムとウバもそれぞれの特徴として言われている通りの結果がでています。
素直だと言われているニルギリが清涼感とストレートに近いのも納得です。
予想外だった部分としてはニルギリがとてもコクと近いことと、何より私がミルクティーにして飲んでいるアールグレイがミルクとそれほど近くないことです。ミルクティー好きな私はアッサムやウバを試してみた方が良さそうですね。
次にクラスタリングによってグループ分けについて整理してみましょう。
6. クラスタリング結果と解釈
上の図はクラスタリング結果を解釈したものです。今回は情報量に基づいて階層的クラスタリングを行いました。
階層型クラスタリングによって似ている紅茶を階層的に、つまり似ている紅茶のグループわけをグループから最も小さなものからそれを含む大きなグループまで段階的に表現しています。
こうすることによって先ほどのコレスポンデンス分析で3つに分けたグループのうち、コクと渋み系と清涼感とコク系はあじわい系としてより大きなグループに分けられるということが分かりました。
つまり今回の分析で扱っている紅茶は大別すると香り系のアールグレイとダージリンのグループと味わい系のウバ、アッサム、ニルギリのグループに別れるというということです。
7. ニーズ別おすすめの紅茶
紅茶に香りを求めている人におすすめの紅茶は
香り系のアールグレイとダージリンです。
この二つ紅茶の違いはアールグレイがミルクティーにも使えること、ダージリンはストレートに向いているということです。
紅茶にコクや渋み、清涼感などのあじわいを求めている人にはあじわい系のウバ、アッサム、ニルギリがおすすめです。
香り | 渋み | ストレート | ミルク | 清涼感 | コク | |
アールグレイ | 108 | 8 | 10 | 57 | 1 | 0 |
ダージリン | 126 | 10 | 50 | 27 | 1 | 5 |
深い渋みを味わいたいならウバ、清涼感ならニルギリ。ミルクティーにするならあじわい系はどれもミルクと相性が良いですが、特にアッサムがミルクと相性抜群です。
香り | 渋み | ストレート | ミルク | 清涼感 | コク | |
ウバ | 102 | 54 | 58 | 115 | 3 | 73 |
アッサム | 89 | 34 | 49 | 324 | 1 | 33 |
ニルギリ | 61 | 4 | 118 | 246 | 44 | 104 |
いかがでしょうか?それぞれの紅茶の特徴がわかっていただけたでしょうか?自分が飲んでみたいと思う紅茶が見つかったなら光栄です。またお会いしましょう。