ヒストグラム(Histogram)とは?

  • 度数分布表を棒グラフにしたもの
  • X軸は度数か相対度数
  • Y軸は階級値

ヒストグラムの例

分布表

  • 確率変数と生起確率の表

度数分布表の作り方

  1. 最大値と最小値を出す
  2. 階級分けする
    • 階級数の目安はデータ数の平方根+1
  3. 階級値を決める
    • 一般的には各階級の中央値
  4. 度数を出す
  5. 相対度数を出す
  6. 累積相対度数を出す

Terms

用語意味
ヒストグラム/柱状グラフ(Histogram)X軸が度数(Or 相対度数)、Y軸は階級値のグラフ
度数分布表(Frequency Distribution Table)階級ごとのテーブル
度数分布(Frequency Distribution)統計において標本として得たある変量の値のリスト
データ数(Data Count)データの数
階級(Class)最大値から最小値までを5~8区分に分けたもの
階級値(number of classes)階級の個数
階級値(Class Value)各階級を代表する値、中央値を使うことが多い
度数(Frequency)各階級に入るデータ数
相対度数(Relative frequency)度数/データ数
累積度数(cumulative frequency)現階級までの度数の和
累積相対度数(cumulative relative frequency)現階級までの相対度数の和

ヒストグラムのスペクトルの分類

用語意味
単峰型(unimodal)峰が1つ
双峰型(bimodal)峰が2つ

層別 (Stratified)

  • データを分割すること
  • 層別解析: データの中にいくつかの異なる性質の集団が含まれている場合にそれらを分割して解析すること

スタージェスの公式(Sturges' rule)

  • 度数分布表やヒストグラムを作成するときに階級数を決定する目安を得られる公式

$$ k = \log_2N+1 $$

ローレンツ曲線

  • 度数分布表から偏りを表すための曲線
  • 2つの相対度数が必要。
    1. 各階級の度数の累積相対度数
    • 例) 年収200 ~ 300万円の度数: 25
    1. 各階級に属する値(合計)の累積相対度数
    • 例) 年収200 ~ 300万円に属する値の度数: 3600万円
  • ローレンツ曲線のグラフ
    • X軸: 度数の累積相対度数
    • Y軸: 値の累積相対度数
    • 変域は0~1

均等分配線(line of equality)

  • ローレンツ曲線における対角線の直線のこと

ジニ係数

  • 均等分配線とローレンツ曲線が囲む領域の面積の2倍
  • ジニ係数が大きい場合は階級感の格差が大きく、小さい場合は格差が小さいことを示す

ヒストグラム以外

  • 幹葉プロット: 野球打率とか
  • 箱ひげ図: 株価推移とか

REFERENCE:

  • 完全独習 統計学入門
  • 統計学入門
  • http://office-kohno.com/nabesima.p/ksgkaisekihyou.html
  • https://bellcurve.jp/statistics/glossary/7445.html
  • https://bellcurve.jp/statistics/course/1664.html
  • https://ja.wikipedia.org/wiki/%E3%82%B8%E3%83%8B%E4%BF%82%E6%95%B0
  • https://www.stat.go.jp/koukou/howto/process/graph/graph12.html