【重要】クラスター分析できる
「クラスター分析ってどうやって解くのかがわからない」などと困っていませんか?
こういう疑問に答えます。
本記事のテーマ
おさえておきたいポイント
- ①クラスター分析とは
- ➁最短距離法、最長距離法、群平均法とは
- ➂クラスター分析の解法
- ➃最短距離法、最長距離法、群平均法を比較しながら解く
最短距離法、最長距離法、群平均法の3手法の
違いを理解しながらマスターできる!
マスターできる最強の記事です。
①クラスター分析とは
データをクラスターで分ける
文字のとおり、データ群をある規模のクラスターで分類することですね。下図のようなイメージが簡単にできますよね!
ここで問題になるのが
クラスター分析の主な2つの手法
よくあるのが、
- 階層的方法(手計算で考えて解く方法)←これを解説!
- 非階層的方法(計算機で解く方法)
本来は、非階層的方法で、計算機とプログラムを使って解きたいですが、
何を解いているかがわからないので、手計算で理解できる階層的方法を使ってクラスター分析を理解しましょう。
➁最短距離法、最長距離法、群平均法とは
階層的方法はさらに3つの方法に分類できます。
比較しながら3手法をマスターしましょう!
- 最短距離法(最も基本的)
- 最長距離法
- 群平均法
まずは、最短距離法でクラスター分類して、結果を可視化して納得いけばいいですが、
結果がいまいちな場合は、最長距離法、群平均法を使っていきます。
最短距離法
クラスターに含まれる対象の対の中で、最短距離なものを選びます。式で書くと
\(d(C_i\) ∪ \(C_j,C_k)\)=\(min(d(C_i,C_k),d(C_j,C_k))\)
「min」から最短とわかればOKです。
最長距離法
クラスターに含まれる対象の対の中で、最長距離なものを選びます。式で書くと
\(d(C_i\) ∪ \(C_j,C_k)\)=\(max(d(C_i,C_k),d(C_j,C_k))\)
「max」から最長とわかればOKです。
群平均法
最短でも最長でもなく、平均的な値で定義したい場合に使います。式で書くと
\(d(C_i\) ∪ \(C_j,C_k)\)=\(\frac{n_i ×d(C_i,C_k)+n_j ×d(C_j,C_k)}{n_i + n_j}\)
「平均」を計算しているとわかればOKです。
➂クラスター分析の解法
共通の解き方(最短距離法、最長距離法、群平均法)
クラスター分析は3つの手法を比較しながら、まとめて解くと、
統一した解き方が理解できます! 解説しますね!
おさえておきたい解き方
3つのステップがあります。
- 全手法とも、最初は最短距離なペアでクラスターを作る
- 手法別にクラスター間距離を計算
- クラスターを合体
の3ステップを全データが分類し終わるまで繰り返します。
特に注意が必要なのは、
では、実際に解いてみましょう。
データ事例
5つのデータがあり、それぞれの距離がわかっている。
(1)最短距離法
(2)最長距離法
(3)群平均法
を使って、それぞれクラスター分析せよ。
– | A | B | C | D | E |
A | – | – | – | – | – |
B | 31.6 | – | – | – | – |
C | 20 | 51 | – | – | – |
D | 31.6 | 28.3 | 42.4 | – | – |
E | 31.6 | 63.2 | 14.1 | 56.6 | – |
➃最短距離法、最長距離法、群平均法を比較しながら解く
分類は3回実施しますので、丁寧に解説します。
分類1回目
1回目step1
最短距離なペアを見つけましょう。
CとEの14.1が最短ですね。見ればわかる!
1回目step2
CEが1つのクラスターになったので、
●AとCEクラスター
●BとCEクラスター
●DとCEクラスター
との距離を最短距離法、最長距離法、群平均法で解きます。
●最短距離法では、
・AとCEクラスター⇒ 黄色の20と31.6から20を選択
・BとCEクラスター⇒ 緑色の51と63.2から51を選択
・DとCEクラスター⇒ 青色の 42.4と56.6から 42.4を選択
●最長距離法では、
・AとCEクラスター⇒ 黄色の20と31.6から31.6を選択
・BとCEクラスター⇒ 緑色の51と63.2から63.2を選択
・DとCEクラスター⇒ 青色の 42.4と56.6から 56.6を選択
●群平均では、
・AとCEクラスター⇒ 黄色の20と31.6から平均1/2×(20+31.6)=25.8を選択
・BとCEクラスター⇒ 緑色の51と63.2から平均1/2×(51+63.2)=57.1を選択
・DとCEクラスター⇒ 青色の 42.4と56.6から平均1/2×(42.4+56.6)=49.5を選択
1回目step3
step2の計算結果を反映します。
ここで1回目が終了です。3手法の違いが見えましたね。2回目も同様に解けます!
分類2回目
2回目step1
最短距離なペアを見つけましょう。
●最短距離法では、A-CE間の20
●最長距離法では、B-D間の28.3
●群平均法では、A-CE間の25.8
が最短ですね。見ればわかるけど、
候補と距離の数字が手法によって変わっていますね。
2回目step2
●最短距離法では、ACEクラスターとB,Dとの距離
●最長距離法では、AとCEクラスターとBDクラスターとの距離
●群平均法では、ACEクラスターとB,Dとの距離
との距離を最短距離法、最長距離法、群平均法で解きます。
ここが一番難しい所ですが、頑張って乗り越えましょう!
●最短距離法では、
・ACEクラスターとB⇒ 橙色の31.6と51から31.6を選択
・ACEクラスターとD⇒ 緑色の31.6と42.4から31.6を選択
●最長距離法では、
・AとBDクラスター⇒ 灰色の31.6と31.6から31.6を選択
・BDクラスターとCEクラスター⇒ 紫色の63.2と56.6から63.2を選択
●最短距離法では、
・ACEクラスターとB⇒ 橙色から1/3×31.6+2/3×57.1=48.6を選択
・ACEクラスターとD⇒ 緑色の1/3×31.6+2/3×49.5=43.5を選択
2回目step3
step2の計算結果を反映します。
ここで2回目が終了です。3手法の違いが見えましたね。3回目も同様に解けます!
分類3回目
3回目step1
最短距離なペアを見つけましょう。
●最短距離法では、B-D間の28.3
●最長距離法では、A-CE間の31.6
●群平均法では、B-D間の28.3
が最短ですね。見ればわかるけど、
候補と距離の数字が手法によって変わっていますね。
で、ここで、分類が完了したので、結果を比較すると
となりました。手法間で結果が異なりますが、実データと比較してどれを使うかを吟味すればOKです。
計算結果をPDFにまとめています。見やすいので、こちらも活用ください。
●PDF
クラスター分析ができましたね!
まとめ
「クラスター分析ができる」を解説しました。
- ①クラスター分析とは
- ➁最短距離法、最長距離法、群平均法とは
- ➂クラスター分析の解法
- ➃最短距離法、最長距離法、群平均法を比較しながら解く
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119