正規分布の100個の乱数と異なる平滑化帯域幅によるカーネル密度推定。

カーネル密度推定(カーネルみつどすいてい、: kernel density estimation)は、統計学において、確率変数確率密度関数推定するノンパラメトリック手法のひとつ。エマニュエル・パルツェン英語版の名をとってパルツェン窓: Parzen window)とも。大まかに言えば、ある母集団標本のデータが与えられたとき、カーネル密度推定を使えばその母集団のデータを外挿できる。

ヒストグラムは、一様なカーネル関数によるカーネル密度推定量と見ることもできる。

定義

編集

x1, x2, ..., xn を(未知の)確率密度関数 ƒ を持つ独立同分布からの標本とする。カーネル関数 K、バンド幅(平滑化パラメータ)hカーネル密度推定量: kernel density estimator)とは

のことである[1]。カーネル関数としては、標準ガウス関数平均がゼロで分散が1)

を採用することが多い。

直観的説明

編集

あまり平滑でない推定器(例えばヒストグラム密度推定器)は漸近的に一致させられるが、他の推定器は不連続であるか、カーネル密度推定より収束が遅い。カーネル密度推定器は、標本を一定幅の箱に入れて数えるのではなく、カーネル関数から決定されたコブを各標本に与えるものと見ることができる。つまり、「コブの総和」によって推定が形成されるため、結果として非常に滑らかになる(下図参照)。

6つのガウス曲線(赤)とそれらの総和(青)。パルツェン窓密度推定 f(x) は、この総和を6(元のガウス曲線の数)で割ることで得られる。ガウス関数の分散は 0.5 に設定されている。見ての通り、標本点が稠密にあるほど、密度推定値は大きくなる。

特性

編集

確率密度関数 ƒ の L2 リスク関数 とする。確率密度関数 ƒ とカーネル関数 K に関する弱い仮定から次が得られる。

理論的リスク関数を最小化することで、最適なバンド幅は以下のように示される。

ここで



である。最適なバンド幅を選択したとき、リスク関数は であり c4 > 0 はある定数である。弱い仮定の下で、カーネル推定器より早く収束するノンパラメトリックな推定器は存在しないことが示される。なお、n−4/5 という収束レートは、パラメトリックな手法での典型である n−1 という収束レートよりも遅い。

実装例

編集
  • MATLAB - カーネル密度推定は ksdensity 関数で実装されている。
  • Origin - 2Dカーネル密度プロットがユーザーインターフェースより作画できるほか、Ksdensity(1D用)とKs2density(2D用)の両関数がLabTalk言語PythonC言語からアクセス可能である。
  • PAST - Plot項目の中のHistogramで,カーネル曲線が描ける。
  • R言語 - density 関数で実装されている。
  • Stata - kdensity で実装されている。例えば、histogram x, kdensity
  • SAS - proc kde は1変量または2変量のカーネル密度推定に使われる。

脚注

編集

参考文献

編集
  • Duda, R. and Hart, P. (1973). Pattern Classification and Scene Analysis. John Wiley & Sons. ISBN 0-471-22361-1.
  • Parzen E. (1962). On estimation of a probability density function and mode, Ann. Math. Stat. 33, pp. 1065-1076.
  • Silverman, B. W. (1986). Density estimation for statistics and data analysis. Monographs on Statistics and Applied Probability. Chapman & Hall, London. ISBN 0-412-24620-1. MR 0848134. Zbl 0617.62042. https://books.google.co.jp/books?id=e-xsrjsL7WkC 
  • Wasserman, L. (2005). All of Statistics: A Concise Course in Statistical Inference, Springer Texts in Statistics.

関連項目

編集

外部リンク

編集

📚 Artikel Terkait di Wikipedia

三角形関数

三角形関数(さんかくけいかんすう、英: triangular function)は、以下のように定義される。 tri ⁡ ( t ) = ∧ ( t ) := max ( 1 − | t | , 0 ) = { 1 − | t | , | t | < 1 0 , otherwise = 1 2 |

三角線維軟骨複合体損傷

三角線維軟骨複合体損傷(さんかくせんいなんこつふくごうたいそんしょう、英: Triangular Fibrocartilage Complex injuries、TFCC損傷)とは、手関節の尺側側(くるぶし側)に存在する軟部組織で、三角線維軟骨(英: triangular fibrocartilage、TFC、Disc Proper

大石進一

high-precision estimation for P 0 {\displaystyle P_{0}} interpolation constants on triangular finite elements. Japan Journal of Industrial and Applied Mathematics,

ディザ

"Rectangular Probability Density Function"(方形確率密度関数)の略で、サイコロと同じ役目を果たす。任意の数が同等の無作為な確率ででる。 TPDF は "Triangular Probability Density Function" (三角形確率密度関数)の略で、2個のサイコ

窓関数

窓関数(まどかんすう、(英: window function)はある有限区間(台)以外で0となる関数である。窓(まど、(英: window)とも。 窓関数はある有限区間以外で0となる関数である(⇒ #定義)。窓は関数や信号に掛け合わせて適用されることが主であり、これにより関数の有限区間のみを切り出す(⇒

シュラム・レヴナー発展

を使い、Mandelbrot (1982) で予想されている平面ブラウン運動の境界はフラクタル次元が 4/3 であることが証明された。 三角格子(英語版)(triangular lattice)上の臨界パーコレーション理論(英語版)は、スタニスラフ・スミルノフ(Stanislav Smirnov)により、 κ=6

クローン–ローズの定理

Mark (2007). “On the Krohn–Rhodes complexity of semigroups of upper triangular matrices”. International Journal of Algebra and Computation 17 (1): 187–201

一般句読点

註釈が2箇所ある場合に2番目のものに用いられる。 U+2022 • BULLET ブレット。 番号なしリストなどで要素を列挙するために用いられる。 U+2023 ‣ TRIANGULAR BULLET 三角ブレット。 ブレットと同じ機能を持つ。 U+2024 ․ ONE DOT LEADER 1点リーダ。 U+2025 ‥ TWO