QCプラネッツ 品質のプロフェッショナルを育成するサイト

【重要】クラスター分析できる

多変量解析

「クラスター分析ってどうやって解くのかがわからない」などと困っていませんか?

こういう疑問に答えます。

本記事のテーマ

クラスター分析できる

おさえておきたいポイント

  • ①クラスター分析とは
  • ➁最短距離法、最長距離法、群平均法とは
  • ➂クラスター分析の解法
  • ➃最短距離法、最長距離法、群平均法を比較しながら解く
クラスタ―分析を
最短距離法、最長距離法、群平均法の3手法の
違いを理解しながらマスターできる!
クラスタ―分析を
マスターできる最強の記事です。

①クラスター分析とは

データをクラスターで分ける

文字のとおり、データ群をある規模のクラスターで分類することですね。下図のようなイメージが簡単にできますよね!

クラスター分析

ここで問題になるのが

どうやってクラスタ―に分類するの?

クラスター分析の主な2つの手法

よくあるのが、

  1. 階層的方法(手計算で考えて解く方法)←これを解説!
  2. 非階層的方法(計算機で解く方法)

本来は、非階層的方法で、計算機とプログラムを使って解きたいですが、
何を解いているかがわからないので、手計算で理解できる階層的方法を使ってクラスター分析を理解しましょう。

➁最短距離法、最長距離法、群平均法とは

階層的方法はさらに3つの方法に分類できます。
比較しながら3手法をマスターしましょう!

  1. 最短距離法(最も基本的)
  2. 最長距離法
  3. 群平均法

まずは、最短距離法でクラスター分類して、結果を可視化して納得いけばいいですが、
結果がいまいちな場合は、最長距離法、群平均法を使っていきます。

結果の吟味は我々人間がやります!

最短距離法

クラスターに含まれる対象の対の中で、最短距離なものを選びます。式で書くと
\(d(C_i\) ∪ \(C_j,C_k)\)=\(min(d(C_i,C_k),d(C_j,C_k))\)

「min」から最短とわかればOKです。

最長距離法

クラスターに含まれる対象の対の中で、最長距離なものを選びます。式で書くと
\(d(C_i\) ∪ \(C_j,C_k)\)=\(max(d(C_i,C_k),d(C_j,C_k))\)

「max」から最長とわかればOKです。

群平均法

最短でも最長でもなく、平均的な値で定義したい場合に使います。式で書くと
\(d(C_i\) ∪ \(C_j,C_k)\)=\(\frac{n_i ×d(C_i,C_k)+n_j ×d(C_j,C_k)}{n_i + n_j}\)

「平均」を計算しているとわかればOKです。

➂クラスター分析の解法

共通の解き方(最短距離法、最長距離法、群平均法)

クラスター分析は3つの手法を比較しながら、まとめて解くと、
統一した解き方が理解できます! 解説しますね!

おさえておきたい解き方

3つのステップがあります。

  1. 全手法とも、最初は最短距離なペアでクラスターを作る
  2. 手法別にクラスター間距離を計算
  3. クラスターを合体

の3ステップを全データが分類し終わるまで繰り返します。

クラスター分析

特に注意が必要なのは、

最長距離法、群平均法でも、最初は最短距離なペアを見つける点に注意しましょう。

では、実際に解いてみましょう。

データ事例

【事例】
5つのデータがあり、それぞれの距離がわかっている。
(1)最短距離法
(2)最長距離法
(3)群平均法
を使って、それぞれクラスター分析せよ。
A B C D E
A
B 31.6
C 20 51
D 31.6 28.3 42.4
E 31.6 63.2 14.1 56.6

➃最短距離法、最長距離法、群平均法を比較しながら解く

分類は3回実施しますので、丁寧に解説します。

分類1回目

1回目step1

最短距離なペアを見つけましょう。
CとEの14.1が最短ですね。見ればわかる!

クラスター分析

1回目step2

CEが1つのクラスターになったので、
●AとCEクラスター
●BとCEクラスター
●DとCEクラスター
との距離を最短距離法、最長距離法、群平均法で解きます。

クラスター分析

●最短距離法では、
・AとCEクラスター⇒ 黄色の20と31.6から20を選択
・BとCEクラスター⇒ 緑色の51と63.2から51を選択
・DとCEクラスター⇒ 青色の 42.4と56.6から 42.4を選択

●最長距離法では、
・AとCEクラスター⇒ 黄色の20と31.6から31.6を選択
・BとCEクラスター⇒ 緑色の51と63.2から63.2を選択
・DとCEクラスター⇒ 青色の 42.4と56.6から 56.6を選択

●群平均では、
・AとCEクラスター⇒ 黄色の20と31.6から平均1/2×(20+31.6)=25.8を選択
・BとCEクラスター⇒ 緑色の51と63.2から平均1/2×(51+63.2)=57.1を選択
・DとCEクラスター⇒ 青色の 42.4と56.6から平均1/2×(42.4+56.6)=49.5を選択

1回目step3

step2の計算結果を反映します。

クラスター分析

ここで1回目が終了です。3手法の違いが見えましたね。2回目も同様に解けます!

分類2回目

2回目step1

最短距離なペアを見つけましょう。
●最短距離法では、A-CE間の20
●最長距離法では、B-D間の28.3
●群平均法では、A-CE間の25.8
が最短ですね。見ればわかるけど、
候補と距離の数字が手法によって変わっていますね。

クラスター分析

2回目step2

●最短距離法では、ACEクラスターとB,Dとの距離
●最長距離法では、AとCEクラスターとBDクラスターとの距離
●群平均法では、ACEクラスターとB,Dとの距離
との距離を最短距離法、最長距離法、群平均法で解きます。
ここが一番難しい所ですが、頑張って乗り越えましょう!

クラスター分析

●最短距離法では、
・ACEクラスターとB⇒ 橙色の31.6と51から31.6を選択
・ACEクラスターとD⇒ 緑色の31.6と42.4から31.6を選択

●最長距離法では、
・AとBDクラスター⇒ 灰色の31.6と31.6から31.6を選択
・BDクラスターとCEクラスター⇒ 紫色の63.2と56.6から63.2を選択

●最短距離法では、
・ACEクラスターとB⇒ 橙色から1/3×31.6+2/3×57.1=48.6を選択
・ACEクラスターとD⇒ 緑色の1/3×31.6+2/3×49.5=43.5を選択

2回目step3

step2の計算結果を反映します。

クラスター分析

ここで2回目が終了です。3手法の違いが見えましたね。3回目も同様に解けます!

分類3回目

3回目step1

最短距離なペアを見つけましょう。
●最短距離法では、B-D間の28.3
●最長距離法では、A-CE間の31.6
●群平均法では、B-D間の28.3
が最短ですね。見ればわかるけど、
候補と距離の数字が手法によって変わっていますね。

クラスター分析

で、ここで、分類が完了したので、結果を比較すると

クラスター分析

となりました。手法間で結果が異なりますが、実データと比較してどれを使うかを吟味すればOKです。

計算結果をPDFにまとめています。見やすいので、こちらも活用ください。

クラスター分析ができましたね!

まとめ

「クラスター分析ができる」を解説しました。

  • ①クラスター分析とは
  • ➁最短距離法、最長距離法、群平均法とは
  • ➂クラスター分析の解法
  • ➃最短距離法、最長距離法、群平均法を比較しながら解く


Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119

    Warning: Invalid argument supplied for foreach() in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 122
error: Content is protected !!