主題
Search

超幾何分佈


假設有 n 種“好”選擇的方式,以及 m 種“壞”選擇的方式,總共有 n+m 種可能性。抽取 N 個樣本,並令 x_i 等於 1 如果第 i 次選擇成功,否則為 0。令 x 為成功的選擇的總數,

 x=sum_(i=1)^Nx_i.
(1)

那麼,i 次成功選擇的機率為

P(x=i)=([# ways for i successes][# ways for N-i failures])/([total number of ways to select])
(2)
=((n; i)(m; N-i))/((m+n; N))
(3)
=(m!n!N!(m+n-N)!)/(i!(n-i)!(m+i-N)!(N-i)!(m+n)!).
(4)

超幾何分佈在 Wolfram 語言 中實現為HypergeometricDistribution[N, n, m+n].

尋找這種抽取問題的機率有時被稱為“甕問題”,因為它詢問從一個包含 n 個“好”球和 m 個“壞”球的甕中抽取 N 個球時,恰好有 i 個“好”球的機率。因此,它也描述了在從 r 個球的庫中選擇 N 個球的彩票中,獲得正好 i 個正確球的機率(其中 n=N 個是“好”球,m=r-N 個是“壞”球)。例如,對於 N=6r=36,獲得 i 個正確球的機率在下表中給出。

正確數量機率賠率
00.30482.280:1
10.43901.278:1
20.21103.738:1
30.0416922.99:1
40.003350297.5:1
59.241×10^(-5)10820:1
65.134×10^(-7)1.948×10^6:1

i 次選擇在任何試驗中具有相同的可能性,因此可接受選擇的比例 p

 p=n/(m+n),
(5)

即,

 P(x_i=1)=n/(m+n).
(6)

因此,x 的期望值為

mu=<sum_(i=1)^(N)x_i>
(7)
=sum_(i=1)^(N)<x_i>
(8)
=sum_(i=1)^(N)n/(m+n)
(9)
=(nN)/(m+n).
(10)

這也可以透過直接求和計算得出,如下所示

mu=sum_(i=0)^(N)i((n; i)(m; N-i))/((n+m; N))
(11)
=(nN)/(m+n).
(12)

方差

 var(x)=sum_(i=1)^Nvar(x_i)+sum_(i=1)^Nsum_(j=1; j!=i)^Ncov(x_i,x_j).
(13)

由於 x_i 是一個 伯努利 變數,

var(x_i)=p(1-p)
(14)
=n/(n+m)(1-n/(n+m))
(15)
=n/(n+m)(1-n/(n+m))
(16)
=n/(n+m)((n+m-n)/(n+m))
(17)
=(nm)/((n+m)^2),
(18)

所以

 sum_(i=1)^Nvar(x_i)=(Nnm)/((n+m)^2).
(19)

對於 i<j協方差

 cov(x_i,x_j)=<x_ix_j>-<x_i><x_j>.
(20)

對於 i!=jij 都成功的機率為

P(x_i=1,x_j=1)=P(x_i=1)P(x_j=1|x_i=1)
(21)
=n/(n+m)(n-1)/(n+m-1)
(22)
=(n(n-1))/((n+m)(n+m-1)).
(23)

但是由於 x_ix_j 是隨機的 伯努利 變數(每個變數為 0 或 1),它們的乘積也是一個 伯努利 變數。為了使 x_ix_j 為 1,x_ix_j 都必須為 1,

<x_ix_j>=P(x_ix_j=1)=P(x_i=1,x_j=1)
(24)
=n/(n+m)(n-1)/(n+m-1)
(25)
=(n(n-1))/((n+m)(n+m-1)).
(26)

將 (26) 與

<x_i><x_j>=n/(n+m)n/(n+m)
(27)
=(n^2)/((n+m)^2),
(28)

結合得到

cov(x_i,x_j)=((n+m)(n^2-n)-n^2(n+m-1))/((n+m)^2(n+m-1))
(29)
=-(mn)/((n+m)^2(n+m-1)).
(30)

在一個對 N 的雙重求和中,總共有 N^2 項。然而,對於 N 項,i=j,因此在 協方差 求和中總共有 N^2-N=N(N-1)

 sum_(i=1)^Nsum_(j=1; j!=i)^Ncov(x_i,x_j)=-(N(N-1)mn)/((n+m)^2(n+m-1)).
(31)

結合方程 (◇), (◇), (◇), 和 (◇) 得到 方差

var(x)=(Nmn)/((n+m)^2)-(N(N-1)mn)/((n+m)^2(n+m-1))
(32)
=(Nmn(n+m-N))/((n+m)^2(n+m-1)),
(33)

因此最終結果是

 <x>=Np
(34)

並且,由於

 1-p=m/(n+m)
(35)

 np(1-p)=(mn)/((n+m)^2),
(36)

我們有

sigma^2=var(x)
(37)
=Np(1-p)(1-(N-1)/(n+m-1))
(38)
=(mnN(m+n-N))/((m+n)^2(m+n-1)).
(39)

這也可以直接從以下總和計算得出

sigma^2=sum_(i=0)^(N)((n; i)(m; N-i))/((n+m; N))(i-mu)^2
(40)
=(mnN(m+n-N))/((m+n)^2(m+n-1)).
(41)

偏度

gamma_1=(q-p)/(sqrt(npq))sqrt((N-1)/(N-m))((N-2n)/(N-2))
(42)
=((m-n)(m+n-2N))/(m+n-2)sqrt((m+n-1)/(mnN(m+n-N))),
(43)

超額峰度由一個複雜的表示式給出。

生成函式

 phi(t)=((m; N))/((n+m; N))_2F_1(-N,-n;m-N+1;e^(it)),
(44)

其中 _2F_1(a,b;c;z)超幾何函式

如果超幾何分佈寫成

 h_n(x,s)=((np; x)(nq; s-x))/((n; s)),
(45)

那麼

 sum_(x=0)^sh_n(x,s)u^x=A_2F_1(-s,-np;nq-s+1;u),
(46)

其中 A 是一個常數。


另請參閱

Multichoose

使用 探索

參考文獻

Beyer, W. H. CRC Standard Mathematical Tables, 28th ed. Boca Raton, FL: CRC Press, pp. 532-533, 1987.Feller, W. "The Hypergeometric Series." §2.6 in An Introduction to Probability Theory and Its Applications, Vol. 1, 3rd ed. New York: Wiley, pp. 41-45, 1968.Spiegel, M. R. Theory and Problems of Probability and Statistics. New York: McGraw-Hill, pp. 113-114, 1992.

在 上引用

超幾何分佈

請引用為

Weisstein, Eric W. “超幾何分佈。” 來自 --一個 資源。 https://mathworld.tw/HypergeometricDistribution.html

學科分類