Uji peringkat bertanda Wilcoxon 📖 Wikipedia

Uji peringkat bertanda Wilcoxon adalah uji peringkat non-parametrik untuk pengujian hipotesis statistika yang digunakan untuk menguji lokasi suatu populasi berdasarkan sampel data, atau untuk membandingkan lokasi dua populasi menggunakan dua sampel berpasangan.^[1] Versi satu sampel memiliki tujuan yang mirip dengan uji t Student satu sampel.^[2] Untuk dua sampel berpasangan, ini merupakan uji perbedaan berpasangan seperti uji t Student berpasangan (juga dikenal sebagai "uji t untuk pasangan berpasangan" atau "uji t untuk sampel dependen"). Uji Wilcoxon adalah alternatif yang baik untuk uji t ketika distribusi normal perbedaan antara individu berpasangan tidak dapat diasumsikan. Sebaliknya, uji ini mengasumsikan hipotesis yang lebih lemah bahwa distribusi perbedaan ini simetris di sekitar nilai pusat dan bertujuan untuk menguji apakah nilai pusat ini berbeda secara signifikan dari nol. Uji Wilcoxon adalah alternatif yang lebih kuat daripada uji tanda karena mempertimbangkan besarnya perbedaan, tetapi membutuhkan asumsi simetri yang cukup kuat ini.

Sejarah

sunting

Uji ini dinamai menurut Frank Wilcoxon (1892–1965), yang dalam satu makalah mengusulkan uji ini dan uji jumlah peringkat untuk dua sampel independen.^[3] Uji ini dipopulerkan oleh Sidney Siegel (1956) dalam buku teks berpengaruhnya tentang statistika nonparametrik.^[4] Siegel menggunakan simbol T untuk statistika uji, dan oleh karena itu uji ini terkadang disebut dengan uji T Wilcoxon.

Prosedur uji

sunting

Terdapat dua varian uji peringkat bertanda. Dari sudut pandang teoretis, uji satu sampel lebih mendasar karena uji sampel berpasangan dilakukan dengan mengubah data ke situasi uji satu sampel. Namun, sebagian besar penggunaan praktis uji peringkat bertanda muncul dari data berpasangan.

Untuk uji sampel berpasangan, data terdiri dari sampel $(X_{1},Y_{1}),\dots ,(X_{n},Y_{n})$ . Setiap titik data dalam sampel adalah sepasang pengukuran. Dalam kasus paling sederhana, pengukuran berada pada skala interval. Kemudian pengukuran tersebut dapat dikonversi ke bilangan riil, dan uji sampel berpasangan dikonversi menjadi uji satu sampel dengan mengganti setiap pasangan angka $(X_{i},Y_{i})$ dengan selisihnya $X_{i}-Y_{i}$ .^[5] Secara umum, harus dimungkinkan untuk memberi peringkat perbedaan antara pasangan tersebut. Hal ini membutuhkan data berada pada skala "metrik terurut", jenis skala yang membawa lebih banyak informasi daripada skala ordinal tetapi mungkin memiliki informasi yang lebih sedikit daripada skala interval.^[6]

Data untuk uji satu sampel adalah sampel di mana setiap pengamatan adalah bilangan real: $X_{1},\dots ,X_{n}$ . Untuk mempermudah, anggaplah bahwa observasi dalam sampel memiliki nilai mutlak yang berbeda dan tidak ada observasi yang sama dengan nol. (Nilai nol dan nilai yang sama menimbulkan beberapa komplikasi; lihat di bawah.) Pengujian dilakukan sebagai berikut:^[7]^[8]

Hitung $|X_{1}|,\dots ,|X_{n}|.$
Urutkan $|X_{1}|,\dots ,|X_{n}|$ , dan gunakan daftar yang telah diurutkan ini untuk menetapkan peringkat $R_{1},\dots ,R_{n}$ : Peringkat observasi terkecil adalah satu, peringkat observasi terkecil berikutnya adalah dua, dan seterusnya.
Biarkan $\operatorname {sgn}$ menunjukkan fungsi tanda: $\operatorname {sgn}(x)=1$ jika $x>0$ dan $\operatorname {sgn}(x)=-1$ jika $x<0$ . Statistika uji adalah "jumlah peringkat bertanda" $T$ : $T=\sum _{i=1}^{N}\operatorname {sgn}(X_{i})R_{i}.$
Hasilkan nilai $p$ dengan membandingkan $T$ dengan distribusinya di bawah hipotesis nol.

Peringkat didefinisikan sedemikian rupa sehingga $R_{i}$ adalah jumlah $j$ yang memenuhi $|X_{j}|\leq |X_{i}|$ . Selain itu, jika $\sigma :\{1,\dots ,n\}\to \{1,\dots ,n\}$ sedemikian rupa sehingga $|X_{\sigma (1)}|<\dots <|X_{\sigma (n)}|$ , maka $R_{\sigma (i)}=i$ untuk semua $i$ .

Jumlah peringkat bertanda $T$ berkaitan erat dengan dua statistika uji lainnya. "Jumlah peringkat positif" $T^{+}$ dan "jumlah peringkat negatif" $T^{-}$ didefinisikan oleh^[9] ${\begin{aligned}T^{+}&=\sum _{1\leq i\leq n,\ X_{i}>0}R_{i},\\T^{-}&=\sum _{1\leq i\leq n,\ X_{i}<0}R_{i}.\end{aligned}}$ Karena $T^{+}+T^{-}$ sama dengan jumlah semua peringkat, yaitu $1+2+\dots +n=n(n+1)/2$ , ketiga statistika ini saling terkait oleh:^[9] ${\begin{aligned}T^{+}&={\frac {n(n+1)}{2}}-T^{-}={\frac {n(n+1)}{4}}+{\frac {T}{2}},\\T^{-}&={\frac {n(n+1)}{2}}-T^{+}={\frac {n(n+1)}{4}}-{\frac {T}{2}},\\T&=T^{+}-T^{-}=2T^{+}-{\frac {n(n+1)}{2}}={\frac {n(n+1)}{2}}-2T^{-}.\end{aligned}}$ Karena $T$ , $T^{+}$ , dan $T^{-}$ membawa informasi yang sama, salah satu dari mereka dapat digunakan sebagai statistika uji.

Jumlah peringkat positif dan jumlah peringkat negatif memiliki interpretasi alternatif yang berguna untuk teori di balik pengujian. Definisikan "rata-rata Walsh" $W_{ij}$ sebagai ${\tfrac {1}{2}}(X_{i}+X_{j})$ . Maka:^[10] ${\begin{aligned}T^{+}=\#\{W_{ij}>0\colon 1\leq i\leq j\leq n\},\\T^{-}=\#\{W_{ij}<0\colon 1\leq i\leq j\leq n\}.\end{aligned}}$

Hipotesis nol dan alternatif

sunting

Uji satu sampel

sunting

Uji peringkat bertanda Wilcoxon satu sampel dapat digunakan untuk menguji apakah data berasal dari populasi simetris dengan pusat yang ditentukan (yang sesuai dengan median, rata-rata, dan pseudomedian).^[11] Jika pusat populasi diketahui, maka dapat digunakan untuk menguji apakah data simetris terhadap pusatnya.^[12]

Untuk menjelaskan hipotesis nol dan alternatif secara formal, anggaplah bahwa data terdiri dari sampel independen dan terdistribusi identik dari distribusi $F$ . Jika $F$ diasumsikan simetris, maka hipotesis nol dan alternatifnya adalah sebagai berikut:^[13]

Hipotesis nol H₀: $F$ simetris terhadap $\mu =0$ .
Hipotesis alternatif satu sisi H₁: $F$ simetris terhadap $\mu <0$ .
Hipotesis alternatif satu sisi H₂: $F$ simetris terhadap $\mu >0$ .
Hipotesis alternatif dua sisi H₃: $F$ simetris terhadap $\mu \neq 0$ .

Jika ditambah $\Pr(X=\mu )=0$ , maka $\mu$ adalah median dari $F$ . Jika median ini unik, maka uji jumlah peringkat bertanda Wilcoxon menjadi uji untuk lokasi median.^[14] Ketika rata-rata $F$ didefinisikan, maka rata-ratanya adalah $\mu$ , dan uji ini juga merupakan uji untuk lokasi rata-rata.^[7]

Hipotesis bahwa data bersifat IID dapat dilemahkan. Setiap titik data dapat diambil dari distribusi yang berbeda, selama semua distribusi diasumsikan sinambung dan simetris terhadap titik umum $\mu _{0}$ . Titik data tidak diharuskan independen selama distribusi bersyarat dari setiap observasi yang diberikan observasi lainnya simetris terhadap $\mu _{0}$ .^[15]

Uji data berpasangan

sunting

Karena uji data berpasangan muncul dari pengambilan perbedaan berpasangan, hipotesis nol dan alternatifnya dapat diturunkan dari hipotesis uji satu sampel. Dalam setiap kasus, hipotesis tersebut menjadi pernyataan tentang perilaku perbedaan $X_{i}-Y_{i}$ .

Misalkan $F(x,y)$ adalah distribusi kumulatif gabungan dari pasangan $(X_{i},Y_{i})$ . Jika kita mengasumsikan bahwa ada $\mu$ sedemikian sehingga $X_{i}-Y_{i}$ simetris terhadap $\mu$ , maka hipotesis nol dan alternatifnya adalah:^[16]^[17]

Hipothesis nol H₀: Observasi $X_{i}-Y_{i}$ simetris terhadap $\mu =0$ .
Hipotesis alternatif satu sisi H₁: Observasi $X_{i}-Y_{i}$ simetris terhadap $\mu <0$ .
Hipotesis alternatif satu sisi H₂: Observasi $X_{i}-Y_{i}$ simetris terhadap $\mu >0$ .
Hipotesis alternatif dua sisi H₃: Observasi $X_{i}-Y_{i}$ simetris terhadap $\mu \neq 0$ .

Hal ini juga dapat diungkapkan secara lebih langsung dalam bentuk pasangan aslinya:^[18]

Hipothesis nol H₀: Pengamatan $(X_{i},Y_{i})$ dapat "dipertukarkan", artinya $(X_{i},Y_{i})$ dan $(Y_{i},X_{i})$ memiliki distribusi yang sama. Secara ekivalen, $F(x,y)=F(y,x)$ .
Hipotesis alternatif satu sisi H₁: Untuk beberapa $\mu <0$ , pasangan $(X_{i},Y_{i})$ dan $(Y_{i}+\mu ,X_{i}-\mu )$ memiliki distribusi yang sama.
Hipotesis alternatif satu sisi H₂: Untuk beberapa $\mu >0$ , pasangan $(X_{i},Y_{i})$ dan $(Y_{i}+\mu ,X_{i}-\mu )$ memiliki distribusi yang sama.
Hipotesis alternatif dua sisi H₃: Untuk beberapa $\mu \neq 0$ , pasangan $(X_{i},Y_{i})$ dan $(Y_{i}+\mu ,X_{i}-\mu )$ memiliki distribusi yang sama.

Hipotesis nol pertukaran dapat muncul dari percobaan pasangan berpasangan dengan kelompok perlakuan dan kelompok kontrol. Pengacakan perlakuan dan kontrol dalam setiap pasangan membuat pengamatan dapat dipertukarkan. Untuk distribusi yang dapat dipertukarkan, $X_{i}-Y_{i}$ memiliki distribusi yang sama dengan $Y_{i}-X_{i}$ , dan oleh karena itu, di bawah hipotesis nol distribusinya simetris terhadap nol.^[18]

Nol dan nilai yang sama

sunting

Dalam data nyata, terkadang terjadi bahwa ada pengamatan $X_{i}$ dalam sampel yang sama dengan nol atau pasangan $(X_{i},Y_{i})$ dengan $X_{i}=Y_{i}$ . Bisa juga terjadi pengamatan yang sama nilainya. Ini berarti bahwa untuk beberapa $i\neq j$ , kita memiliki $X_{i}=X_{j}$ (dalam kasus sampel tunggal) atau $X_{i}-Y_{i}=X_{j}-Y_{j}$ (dalam kasus sampel berpasangan). Ini sangat umum terjadi pada data diskrit. Ketika ini terjadi, prosedur pengujian yang didefinisikan di atas biasanya tidak terdefinisi karena tidak ada cara untuk memberi peringkat data secara unik. (Satu-satunya pengecualian adalah jika ada satu pengamatan $X_{i}$ yang bernilai nol dan tidak ada nol atau nilai yang sama lainnya.) Karena itu, statistika uji perlu dimodifikasi.

Nol

sunting

Makalah asli Wilcoxon tidak membahas pertanyaan tentang observasi (atau, dalam kasus sampel berpasangan, perbedaan) yang sama dengan nol. Namun, dalam survei selanjutnya, ia merekomendasikan untuk menghilangkan nol dari sampel.^[19] Kemudian uji peringkat bertanda standar dapat diterapkan pada data yang dihasilkan, selama tidak ada ikatan. Ini sekarang disebut "prosedur sampel yang dikurangi".

Pratt^[20] mengamati bahwa prosedur sampel yang dikurangi dapat menyebabkan perilaku paradoks. Ia memberikan contoh berikut. Misalkan kita berada dalam situasi satu sampel dan memiliki tiga belas observasi berikut:

0, 2, 3, 4, 6, 7, 8, 9, 11, 14, 15, 17, −18.

Prosedur sampel yang dikurangi menghilangkan nol. Pada data yang tersisa, diberikan peringkat bertanda:

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, −12.

Ini memiliki nilai p satu sisi sebesar $55/2^{12}$ , dan oleh karena itu sampel tidak signifikan positif pada tingkat signifikansi $\alpha <55/2^{12}\approx 0.0134$ . Pratt berpendapat bahwa orang akan mengharapkan bahwa pengurangan observasi seharusnya tidak membuat data tampak lebih positif. Namun, jika observasi nol dikurangi dengan jumlah kurang dari 2, atau jika semua observasi dikurangi dengan jumlah kurang dari 1, maka peringkat bertanda menjadi:

−1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, −13.

Ini memiliki nilai p satu sisi sebesar $109/2^{13}$ . Oleh karena itu, sampel akan dinilai positif secara signifikan pada tingkat signifikansi apa pun $\alpha >109/2^{13}\approx 0.0133$ . Paradoksnya adalah, jika $\alpha$ berada di antara $109/2^{13}$ dan $55/2^{12}$ , maka "mengurangi" sampel yang tidak signifikan menyebabkan sampel tersebut tampak "positif" secara signifikan.

Oleh karena itu, Pratt mengusulkan "prosedur peringkat bertanda nol". Prosedur ini menyertakan angka nol saat memberi peringkat observasi dalam sampel. Namun, prosedur ini mengecualikan angka nol dari statistika uji, atau secara ekivalen mendefinisikan $\operatorname {sgn}(0)=0$ . Pratt membuktikan bahwa prosedur peringkat bertanda nol memiliki beberapa perilaku yang diinginkan yang tidak dimiliki oleh prosedur sampel tereduksi:^[21]

Meningkatkan nilai yang diamati tidak membuat sampel yang secara signifikan positif menjadi tidak signifikan, dan tidak membuat sampel yang tidak signifikan menjadi secara signifikan negatif.
Jika distribusi pengamatan simetris, maka nilai $\mu$ yang tidak ditolak oleh pengujian membentuk suatu interval.
Suatu sampel secara signifikan positif, tidak signifikan, atau secara signifikan negatif, jika dan hanya jika demikian ketika angka nol diberi tanda bukan nol sembarang, jika dan hanya jika demikian ketika angka nol diganti dengan nilai bukan nol yang lebih kecil dalam nilai mutlak daripada pengamatan bukan nol mana pun.
Untuk ambang signifikansi tetap $\alpha$ , dan untuk pengujian yang diacak untuk memiliki tingkat tepat $\alpha$ , probabilitas menyebut sekumpulan pengamatan secara signifikan positif (masing-masing, secara signifikan negatif) adalah fungsi yang tidak menurun (masing-masing, tidak meningkat) dari pengamatan.

Pratt menyatakan bahwa, ketika prosedur peringkat bertanda nol dikombinasikan dengan prosedur peringkat rata-rata untuk menyelesaikan ikatan, uji yang dihasilkan adalah uji yang konsisten terhadap hipotesis alternatif bahwa, untuk semua $i\neq j$ , $\Pr(X_{i}+X_{j}>0)$ dan $\Pr(X_{i}+X_{j}<0)$ berbeda setidaknya dengan konstanta tetap yang independen dari $i$ dan $j$ .^[22]

Prosedur peringkat bertanda nol memiliki kelemahan yaitu, ketika terjadi angka nol, distribusi nol dari statistika uji berubah, sehingga tabel nilai p tidak dapat lagi digunakan.

Ketika data berada pada skala Likert dengan kategori yang berjarak sama, prosedur peringkat bertanda nol lebih mungkin mempertahankan tingkat kesalahan Tipe I daripada prosedur sampel yang dikurangi.^[23]

Dari sudut pandang efisiensi statistika, tidak ada aturan sempurna untuk menangani angka nol. Conover menemukan contoh hipotesis nol dan alternatif yang menunjukkan bahwa metode Wilcoxon dan Pratt tidak secara seragam lebih baik daripada yang lain. Ketika membandingkan distribusi seragam diskrit dengan distribusi di mana probabilitas meningkat secara linier dari kiri ke kanan, metode Pratt mengungguli metode Wilcoxon. Ketika menguji distribusi binomial yang berpusat di nol untuk melihat apakah parameter setiap percobaan Bernoulli adalah ${\tfrac {1}{2}}$ , metode Wilcoxon mengungguli metode Pratt.^[24]

Nilai yang sama

sunting

Ketika data tidak memiliki hasil seri, peringkat $R_{i}$ digunakan untuk menghitung statistika uji. Jika terdapat hasil seri, peringkat tidak didefinisikan. Ada dua pendekatan utama untuk mengatasi hal ini.

Prosedur yang paling umum untuk menangani hasil seri, dan yang awalnya direkomendasikan oleh Wilcoxon, disebut "prosedur peringkat rata-rata" atau "peringkat tengah". Prosedur ini menetapkan angka antara 1 dan n pada observasi, dengan dua observasi mendapatkan angka yang sama jika dan hanya jika keduanya memiliki nilai mutlak yang sama. Angka-angka ini secara konvensional disebut peringkat meskipun himpunan angka-angka ini tidak sama dengan $\{1,\dots ,n\}$ (kecuali jika tidak ada hasil seri). Peringkat yang diberikan kepada suatu observasi adalah rata-rata dari kemungkinan peringkat yang akan dimilikinya jika hasil seri dipecahkan dengan semua cara yang mungkin. Setelah peringkat ditetapkan, statistika uji dihitung dengan cara yang sama seperti biasanya.^[25]^[26]

Misalnya, anggaplah pengamatan memenuhi $|X_{3}|<|X_{2}|=|X_{5}|<|X_{6}|<|X_{1}|=|X_{4}|=|X_{7}|.$ Dalam hal ini, $X_{3}$ diberi peringkat 1, $X_{2}$ dan $X_{5}$ diberi peringkat $(2+3)/2=2.5$ , $X_{6}$ diberi peringkat 4, dan $X_{1}$ , $X_{4}$ , dan $X_{7}$ diberi peringkat $(5+6+7)/3=6$ . Secara formal, misalkan terdapat sekumpulan observasi yang semuanya memiliki nilai mutlak yang sama $v$ , bahwa $k-1$ observasi memiliki nilai mutlak kurang dari $v$ , dan bahwa $\ell$ observasi memiliki nilai mutlak kurang dari atau sama dengan $v$ . Jika kesamaan nilai mutlak $v$ dihilangkan, maka observasi-observasi ini akan menempati peringkat $k$ hingga $\ell$ . Oleh karena itu, prosedur peringkat rata-rata menetapkan peringkat $(k+\ell )/2$ kepada mereka.

Di bawah prosedur peringkat rata-rata, distribusi nol berbeda jika terdapat kesamaan nilai mutlak.^[27]^[28] Prosedur peringkat rata-rata juga memiliki beberapa kekurangan yang mirip dengan prosedur sampel yang dikurangi untuk nilai nol. Ada kemungkinan bahwa sampel dapat dinilai positif secara signifikan oleh prosedur peringkat rata-rata; Namun, meningkatkan beberapa nilai untuk memecahkan ikatan, atau memecahkan ikatan dengan cara apa pun, menghasilkan sampel yang menurut uji tersebut tidak signifikan.^[29]^[30] Namun, meningkatkan semua nilai yang diamati dengan jumlah yang sama tidak dapat mengubah hasil positif yang signifikan menjadi tidak signifikan, atau hasil yang tidak signifikan menjadi negatif yang signifikan. Lebih lanjut, jika pengamatan didistribusikan secara simetris, maka nilai $\mu$ yang tidak ditolak oleh uji tersebut membentuk suatu interval.^[31]^[32]

Pilihan umum lainnya untuk menangani ikatan adalah prosedur pemecahan ikatan. Dalam prosedur pemecahan ikatan, pengamatan diberi peringkat yang berbeda dalam himpunan $\{1,\dots ,n\}$ . Peringkat yang diberikan kepada suatu pengamatan bergantung pada nilai mutlaknya dan aturan pemecahan ikatan. Pengamatan dengan nilai mutlak yang lebih kecil selalu diberi peringkat yang lebih kecil, seperti pada uji jumlah peringkat standar. Aturan pemecahan ikatan digunakan untuk memberikan peringkat kepada pengamatan dengan nilai mutlak yang sama. Salah satu keuntungan dari aturan pemecahan seri adalah memungkinkan penggunaan tabel standar untuk menghitung nilai 'p.^[33]

"Pemecahan seri acak" memecahkan seri secara acak. Dalam pemecahan seri acak, distribusi nol sama seperti ketika tidak ada seri, tetapi hasil pengujian tidak hanya bergantung pada data tetapi juga pada pilihan acak tambahan. Merata-ratakan peringkat atas pilihan acak yang mungkin menghasilkan prosedur peringkat rata-rata.^[29] Seseorang juga dapat melaporkan probabilitas penolakan atas semua pilihan acak.^[34] Pemecahan seri acak memiliki keuntungan bahwa probabilitas bahwa sampel dinilai positif secara signifikan tidak berkurang ketika beberapa pengamatan ditingkatkan.^[35] "Pemecahan seri konservatif" memecahkan seri yang mendukung hipotesis nol. Ketika melakukan pengujian satu sisi di mana nilai negatif $T$ cenderung lebih signifikan, seri dipecahkan dengan memberikan peringkat yang lebih rendah kepada pengamatan negatif dan peringkat yang lebih tinggi kepada pengamatan positif. Ketika uji tersebut menghasilkan nilai positif $T$ yang signifikan, maka jika terjadi seri, maka dilakukan pemecahan seri dengan cara sebaliknya, dan ketika nilai mutlak $T$ yang besar signifikan, maka pemecahan seri dilakukan agar $|T|$ menjadi sekecil mungkin. Pratt mengamati bahwa ketika kemungkinan terjadi seri, prosedur pemecahan seri konservatif "mungkin memiliki daya yang rendah, karena hal itu sama saja dengan memecahkan semua seri yang mendukung hipotesis nol."^[36]

Prosedur peringkat rata-rata dapat berbeda dengan prosedur pemecahan seri. Pratt memberikan contoh berikut.^[29] Misalkan pengamatannya adalah:

1, 1, 1, 1, 2, 3, −4.

Prosedur peringkat rata-rata memberikan peringkat bertanda berikut

2.5, 2.5, 2.5, 2.5, 5, 6, −7.

Sampel ini secara signifikan positif pada tingkat satu sisi $\alpha =14/2^{7}$ . Di sisi lain, aturan pemecahan seri apa pun akan memberikan peringkat berikut

1, 2, 3, 4, 5, 6, −7.

Pada tingkat satu sisi yang sama $\alpha =14/2^{7}$ , ini tidak signifikan.

Dua opsi lain untuk menangani seri didasarkan pada perataan hasil pemecahan seri. Dalam metode "statistika rata-rata", statistika uji $T$ dihitung untuk setiap kemungkinan cara pemecahan seri, dan statistika akhir adalah rata-rata dari statistika pemecahan seri. Dalam metode "probabilitas rata-rata", nilai p dihitung untuk setiap kemungkinan cara pemecahan seri, dan nilai p akhir adalah rata-rata dari nilai p pemecahan seri.^[37]

Menghitung distribusi nol

sunting

Menghitung nilai p memerlukan pengetahuan tentang distribusi $T$ di bawah hipotesis nol. Tidak ada rumus tertutup untuk distribusi ini.^[38] Namun, untuk nilai $n$ yang kecil, distribusinya dapat dihitung secara tepat. Di bawah hipotesis nol bahwa data simetris terhadap nol, setiap $X_{i}$ memiliki kemungkinan yang sama untuk bernilai positif maupun negatif. Oleh karena itu, probabilitas bahwa $T=t$ di bawah hipotesis nol sama dengan jumlah kombinasi tanda yang menghasilkan $T=t$ dibagi dengan jumlah kemungkinan kombinasi tanda $2^{n}$ . Ini dapat digunakan untuk menghitung distribusi pasti $T$ di bawah hipotesis nol.^[39]

Menghitung distribusi $T$ dengan mempertimbangkan semua kemungkinan memerlukan penghitungan $2^{n}$ jumlah, yang tidak mungkin dilakukan kecuali untuk $n$ terkecil. Namun, ada rekursi yang efisien untuk distribusi $T^{+}$ .^[40]^[41] Definisikan $u_{n}(t^{+})$ sebagai jumlah kombinasi tanda di mana $T^{+}=t^{+}$ . Ini sama dengan jumlah himpunan bagian dari $\{1,\dots ,n\}$ yang jumlahnya sama dengan $t^{+}$ . Kasus dasar rekursi adalah $u_{0}(0)=1$ , $u_{0}(t^{+})=0$ untuk semua $t^{+}\neq 0$ , dan $u_{n}(t^{+})=0$ untuk semua $t<0$ atau $t>n(n+1)/2$ . Rumus rekursifnya adalah $u_{n}(t^{+})=u_{n-1}(t^{+})+u_{n-1}(t^{+}-n).$ . Rumus ini benar karena setiap himpunan bagian dari $\{1,\dots ,n\}$ yang jumlahnya sama dengan $t^{+}$ entah tidak mengandung $n$ , dalam hal ini himpunan tersebut juga merupakan himpunan bagian dari $\{1,\dots ,n-1\}$ , atau mengandung $n$ , dalam hal ini menghilangkan $n$ dari himpunan bagian tersebut menghasilkan himpunan bagian dari $\{1,\dots ,n-1\}$ yang jumlahnya sama dengan $t^{+}-n$ . Di bawah hipotesis nol, fungsi massa probabilitas $T^{+}$ memenuhi $\Pr(T^{+}=t^{+})=u_{n}(t^{+})/2^{n}$ . Fungsi $u_{n}$ berkaitan erat dengan fungsi partisi bilangan bulat.^[42]

Jika $p_{n}(t^{+})$ adalah probabilitas bahwa $T^{+}=t^{+}$ di bawah hipotesis nol ketika ada $n$ pengamatan dalam sampel, maka $p_{n}(t^{+})$ memenuhi rekursi serupa:^[42] $2p_{n}(t^{+})=p_{n-1}(t^{+})+p_{n-1}(t^{+}-n)$ dengan kondisi batas yang serupa. Ada juga rumus rekursif untuk fungsi distribusi kumulatif $\Pr(T^{+}\leq t^{+})$ .^[42]

Untuk $n$ yang sangat besar, bahkan rekursi di atas pun terlalu lambat. Dalam kasus ini, distribusi nol dapat didekati. Distribusi nol dari $T$ , $T^{+}$ , dan $T^{-}$ secara asimtotik normal dengan rata-rata dan varians:^[43] ${\begin{aligned}\mathbf {E} [T^{+}]&=\mathbf {E} [T^{-}]={\frac {n(n+1)}{4}},\\\mathbf {E} [T]&=0,\\\operatorname {Var} (T^{+})&=\operatorname {Var} (T^{-})={\frac {n(n+1)(2n+1)}{24}},\\\operatorname {Var} (T)&={\frac {n(n+1)(2n+1)}{6}}.\end{aligned}}$

Pendekatan yang lebih baik dapat dihasilkan menggunakan ekspansi Edgeworth. Dengan menggunakan ekspansi Edgeworth orde keempat, terlihat bahwa:^[44]^[45] $\Pr(T^{+}\leq k)\approx \Phi (t)+\phi (t){\Big (}{\frac {3n^{2}+3n-1}{10n(n+1)(2n+1)}}{\Big )}(t^{3}-3t),$ di mana $t={\frac {k+{\tfrac {1}{2}}-{\frac {n(n+1)}{4}}}{\sqrt {\frac {n(n+1)(2n+1)}{24}}}}.$ Dasar teknis dari ekspansi ini agak rumit, karena ekspansi Edgeworth konvensional berlaku untuk jumlah variabel acak sinambung IID, sedangkan $T^{+}$ adalah jumlah variabel acak diskrit yang tidak terdistribusi secara identik. Namun, hasil akhirnya adalah bahwa ekspansi di atas memiliki kesalahan $O(n^{-3/2})$ , sama seperti ekspansi Edgeworth orde keempat konvensional.^[44]

Fungsi pembangkit momen dari $T$ memiliki rumus yang tepat:^[46] $M(t)={\frac {1}{2^{n}}}\prod _{j=1}^{n}(1+e^{jt}).$

Ketika terdapat angka nol dan prosedur peringkat bertanda nol digunakan, atau ketika terdapat nilai yang sama dan prosedur peringkat rata-rata digunakan, distribusi nol dari $T$ berubah. Cureton menurunkan aproksimasi normal untuk situasi ini.^[47]^[48] Misalkan jumlah pengamatan awal adalah $n$ dan jumlah angka nol adalah $z$ . Koreksi nilai yang sama adalah $c=\sum t^{3}-t,$ di mana jumlahnya mencakup semua ukuran $t$ dari setiap kelompok pengamatan yang sama. Harapan dari $T$ masih nol, sedangkan harapan dari $T^{+}$ adalah $\mathbf {E} [T^{+}]={\frac {n(n+1)}{4}}-{\frac {z(z+1)}{4}}.$ jika $\sigma ^{2}={\frac {n(n+1)(2n+1)-z(z+1)(2z+1)-c/2}{6}},$ maka ${\begin{aligned}\operatorname {Var} (T)&=\sigma ^{2},\\\operatorname {Var} (T^{+})&=\sigma ^{2}/4.\end{aligned}}$

Statistika alternatif

sunting

Wilcoxon^[49] awalnya mendefinisikan statistika jumlah peringkat Wilcoxon sebagai $\min(T^{+},T^{-})$ . Penulis awal seperti Siegel^[6] mengikuti Wilcoxon. Ini sesuai untuk uji hipotesis dua sisi, tetapi tidak dapat digunakan untuk uji satu sisi.

Alih-alih menetapkan peringkat antara 1 dan n, dimungkinkan juga untuk menetapkan peringkat antara 0 dan $n-1$ . Ini disebut peringkat yang dimodifikasi.^[50] Jumlah peringkat bertanda yang dimodifikasi $T$ , jumlah peringkat positif yang dimodifikasi $T_{0}^{+}$ , dan jumlah peringkat negatif yang dimodifikasi $T_{0}^{-}$ didefinisikan secara analog dengan $T$ , $T^{+}$ , dan $T^{-}$ tetapi dengan peringkat yang dimodifikasi sebagai pengganti peringkat biasa. Probabilitas bahwa jumlah dua variabel acak independen berdistribusi $F$ bernilai positif dapat diestimasi sebagai $2T_{0}^{+}/(n(n-1))$ .^[51] Ketika pertimbangan dibatasi pada distribusi sinambung, ini adalah estimator tak bias varians minimum dari $p_{2}$ .^[52]

Contoh

sunting

$i$	$x_{2,i}$	$x_{1,i}$	$x_{2,i}-x_{1,i}$
$i$	$x_{2,i}$	$x_{1,i}$	$\operatorname {sgn}$	$\operatorname {abs}$
1	125	110	1	15
2	115	122	–1	7
3	130	125	1	5
4	140	120	1	20
5	140	140		0
6	115	124	–1	9
7	140	123	1	17
8	125	137	–1	12
9	140	135	1	5
10	135	145	–1	10

Urutkan berdasarkan selisih mutlak

$i$	$x_{2,i}$	$x_{1,i}$	$x_{2,i}-x_{1,i}$
$i$	$x_{2,i}$	$x_{1,i}$	$\operatorname {sgn}$	${\text{abs}}$	$R_{i}$	$\operatorname {sgn} \cdot R_{i}$
5	140	140		0
3	130	125	1	5	1,5	1,5
9	140	135	1	5	1,5	1,5
2	115	122	–1	7	3	–3
6	115	124	–1	9	4	–4
10	135	145	–1	10	5	–5
8	125	137	–1	12	6	–6
1	125	110	1	15	7	7
7	140	123	1	17	8	8
4	140	120	1	20	9	9

$\operatorname {sgn}$ adalah fungsi tanda, $\operatorname {abs}$ adalah nilai mutlak, dan $R_{i}$ adalah peringkat. Perhatikan bahwa pasangan 3 dan 9 memiliki nilai mutlak yang sama. Mereka akan diberi peringkat 1 dan 2, sehingga masing-masing mendapatkan rata-rata peringkat tersebut, yaitu 1,5.

W=1.5+1.5-3-4-5-6+7+8+9=9

|W|<W_{\operatorname {crit} (\alpha =0.05,\ 9{\text{, two-sided}})}=15

\therefore {\text{failed to reject }}H_{0}

bahwa median perbedaan berpasangan berbeda dari nol.

Nilai

p

untuk hasil ini adalah

0.6113

Ukuran efek

sunting

Untuk menghitung ukuran efek untuk uji peringkat bertanda, seseorang dapat menggunakan korelasi peringkat biserial.

Jika statistiks uji T dilaporkan, korelasi peringkat r sama dengan statistika uji T dibagi dengan jumlah peringkat total S, atau r = T/S. ^[53] Dengan menggunakan contoh di atas, statistika uji adalah T = 9. Ukuran sampel 9 memiliki jumlah peringkat total S = (1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9) = 45. Oleh karena itu, korelasi peringkat adalah 9/45, sehingga r = 0,20.

Jika statistika uji T dilaporkan, cara yang setara untuk menghitung korelasi peringkat adalah dengan perbedaan proporsi antara kedua jumlah peringkat, yaitu rumus perbedaan sederhana Kerby (2014).^[53] Untuk melanjutkan contoh saat ini, ukuran sampel adalah 9, sehingga jumlah peringkat total adalah 45. T adalah jumlah peringkat yang lebih kecil dari kedua jumlah peringkat tersebut, sehingga T adalah 3 + 4 + 5 + 6 = 18. Dari informasi ini saja, jumlah peringkat yang tersisa dapat dihitung, karena itu adalah jumlah total S dikurangi T, atau dalam kasus ini 45 − 18 = 27. Selanjutnya, dua proporsi jumlah peringkat adalah 27/45 = 60% dan 18/45 = 40%. Akhirnya, korelasi peringkat adalah selisih antara kedua proporsi tersebut (0,60 dikurangi 0,40), sehingga r = 0,20.

Implementasi perangkat lunak

sunting

R menyertakan implementasi pengujian sebagai wilcox.test(x,y, paired=TRUE), di mana x dan y adalah vektor dengan panjang yang sama.^[54]
ALGLIB menyertakan implementasi uji peringkat bertanda Wilcoxon dalam C++, C#, Delphi, Visual Basic, dll.
GNU Octave mengimplementasikan berbagai versi uji satu sisi dan dua sisi dalam fungsi wilcoxon_test.
SciPy menyertakan implementasi uji peringkat bertanda Wilcoxon dalam Python.
Accord.NET menyertakan implementasi uji peringkat bertanda Wilcoxon dalam C# untuk aplikasi .NET.
MATLAB mengimplementasikan uji ini menggunakan "uji jumlah peringkat Wilcoxon" sebagai [p,h] = signrank(x,y) yang juga mengembalikan nilai logis yang menunjukkan keputusan uji. Hasil h = 1 menunjukkan penolakan hipotesis nol, dan h = 0 menunjukkan kegagalan untuk menolak hipotesis nol pada tingkat signifikansi 5%.
Paket Julia HypothesisTests menyertakan uji peringkat bertanda Wilcoxon sebagai vvalue(SignedRankTest(x, y)).
SAS PROC UNIVARIATE menyertakan Uji Peringkat Bertanda Wilcoxon dalam kerangka judul "Uji untuk Lokasi" sebagai "Peringkat Bertanda". Meskipun prosedur ini menghitung Statistika S daripada Statistika W, nilai p yang dihasilkan masih dapat digunakan untuk uji ini.^[55] SAS juga dengan PROC NPAR1WAY berisi banyak uji non-parametrik dan juga memiliki uji eksak menggunakan pendekatan bayesian mcmc.
- SAS Documentation

Lihat juga

sunting

Uji Mann–Whitney–Wilcoxon

Referensi

sunting

^ Conover, W. J. (1999). Practical nonparametric statistics (Edisi 3rd). John Wiley & Sons, Inc. ISBN 0-471-16068-7., p. 350
^ McDonald, John H. "Wilcoxon signed-rank test – Handbook of Biological Statistics". www.biostathandbook.com. Diakses tanggal 2021-09-02.
^ Wilcoxon, Frank (Dec 1945). "Individual comparisons by ranking methods" (PDF). Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.
^ Siegel, Sidney (2007) [1956]. Non-parametric statistics for the behavioral sciences. New York: McGraw-Hill. hlm. 75–83. ISBN 978-0-07-057348-2.
^ Conover, p. 352
^ ^a ^b Siegel, p. 76
^ ^a ^b Conover, p. 353
^ Pratt, John W.; Gibbons, Jean D. (1981). Concepts of Nonparametric Theory. Springer-Verlag. ISBN 978-1-4612-5933-6., p. 148
^ ^a ^b Pratt and Gibbons, p. 148
^ Pratt and Gibbons, p. 150
^ Conover, pp. 352–357
^ Hettmansperger, Thomas P. (1984). Statistical Inference Based on Ranks. John Wiley & Sons. ISBN 0-471-88474-X., pp. 32, 50
^ Pratt and Gibbons, pp. 146–147
^ Hettmansperger, pp. 30–31
^ Pratt and Gibbons, p. 155
^ Conover, p. 354
^ Hollander, Myles; Wolfe, Douglas A.; Chicken, Eric (2014). Nonparametric Statistical Methods (Edisi Third). John Wiley & Sons, Inc. ISBN 978-0-470-38737-5., pp. 39–41
^ ^a ^b Pratt and Gibbons, p. 147
^ Wilcoxon, Frank (1949). Some Rapid Approximate Statistical Procedures. American Cynamic Co.
^ Pratt, J. (1959). "Remarks on zeros and ties in the Wilcoxon signed rank procedures". Journal of the American Statistical Association. 54 (287): 655–667. doi:10.1080/01621459.1959.10501526.
^ Pratt, p. 659
^ Pratt, p. 663
^ Derrick, B; White, P (2017). "Comparing Two Samples from an Individual Likert Question". International Journal of Mathematics and Statistics. 18 (3): 1–13.
^ Conover, William Jay (1973). "On Methods of Handling Ties in the Wilcoxon Signed-Rank Test". Journal of the American Statistical Association. 68 (344): 985–988. doi:10.1080/01621459.1973.10481460.
^ Pratt and Gibbons, p. 162
^ Conover, pp. 352–353
^ Pratt and Gibbons, p. 164
^ Conover, pp. 358–359
^ ^a ^b ^c Pratt, p. 660
^ Pratt and Gibbons, pp. 168–169
^ Pratt, pp. 661–662
^ Pratt and Gibbons, p. 170
^ Pratt and Gibbons, pp. 163, 166
^ Pratt and Gibbons, p. 166
^ Pratt and Gibbons, p. 171
^ Pratt, p. 661
^ Gibbons, Jean D.; Chakraborti, Subhabrata (2011). Nonparametric Statistical Inference (Edisi Fifth). Chapman & Hall/CRC. ISBN 978-1-4200-7762-9., p. 194
^ Hettmansperger, p. 34
^ Pratt and Gibbons, pp. 148–149
^ Pratt and Gibbons, pp. 148–149, pp. 186–187
^ Hettmansperger, p. 171
^ ^a ^b ^c Pratt and Gibbons, p. 187
^ Pratt and Gibbons, p. 149
^ ^a ^b Kolassa, John E. (1995). "Edgeworth approximations for rank sum test statistics". Statistics and Probability Letters. 24 (2): 169–171. doi:10.1016/0167-7152(95)00164-H.
^ Hettmansperger, p. 37
^ Hettmansperger, p. 35
^ Cureton, Edward E. (1967). "The normal approximation to the signed-rank sampling distribution when zero differences are present". Journal of the American Statistical Association. 62 (319): 1068–1069. doi:10.1080/01621459.1967.10500917.
^ Pratt and Gibbons, p. 193
^ Wilcoxon, p. 82
^ Pratt and Gibbons, p. 158
^ Pratt and Gibbons, p. 159
^ Pratt and Gibbons, p. 191
^ ^a ^b Kerby, Dave S. (2014), "The simple difference formula: An approach to teaching nonparametric correlation.", Comprehensive Psychology, 3 11.IT.3.1, doi:10.2466/11.IT.3.1
^ Dalgaard, Peter (2008). Introductory Statistics with R. Springer Science & Business Media. hlm. 99–100. ISBN 978-0-387-79053-4.
^ "Wilcox signed-rank test: SAS instruction". www.stat.purdue.edu. Diakses tanggal 2023-08-24.

Pranala luar

sunting

Wilcoxon Signed-Rank Test in R
Example of using the Wilcoxon signed-rank test
An online version of the test
A table of critical values for the Wilcoxon signed-rank test
Brief guide by experimental psychologist Karl L. Weunsch Diarsipkan 2015-11-17 di Wayback Machine. – Nonparametric effect size estimators (Copyright 2015 by Karl L. Weunsch)
Kerby, D. S. (2014). The simple difference formula: An approach to teaching nonparametric correlation. Comprehensive Psychology, volume 3, article 1. doi:10.2466/11.IT.3.1. link to article

Templat:Statistics

[Conover-1] Conover, W. J. (1999). Practical nonparametric statistics (Edisi 3rd). John Wiley & Sons, Inc. ISBN 0-471-16068-7., p. 350

[2] McDonald, John H. "Wilcoxon signed-rank test – Handbook of Biological Statistics". www.biostathandbook.com. Diakses tanggal 2021-09-02.

[Wilcoxon-3] Wilcoxon, Frank (Dec 1945). "Individual comparisons by ranking methods" (PDF). Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.

[Siegel-4] Siegel, Sidney (2007) [1956]. Non-parametric statistics for the behavioral sciences. New York: McGraw-Hill. hlm. 75–83. ISBN 978-0-07-057348-2.

[5] Conover, p. 352

[Siegel,_p._76-6] Siegel, p. 76

[Conover,_p._353-7] Conover, p. 353

[8] Pratt, John W.; Gibbons, Jean D. (1981). Concepts of Nonparametric Theory. Springer-Verlag. ISBN 978-1-4612-5933-6., p. 148

[Pratt_and_Gibbons,_p._148-9] Pratt and Gibbons, p. 148

[10] Pratt and Gibbons, p. 150

[11] Conover, pp. 352–357

[Hettmansperger-12] Hettmansperger, Thomas P. (1984). Statistical Inference Based on Ranks. John Wiley & Sons. ISBN 0-471-88474-X., pp. 32, 50

[13] Pratt and Gibbons, pp. 146–147

[14] Hettmansperger, pp. 30–31

[15] Pratt and Gibbons, p. 155

[16] Conover, p. 354

[Hollander-Wolfe-Chicken-17] Hollander, Myles; Wolfe, Douglas A.; Chicken, Eric (2014). Nonparametric Statistical Methods (Edisi Third). John Wiley & Sons, Inc. ISBN 978-0-470-38737-5., pp. 39–41

[Pratt_and_Gibbons,_p._147-18] Pratt and Gibbons, p. 147

[19] Wilcoxon, Frank (1949). Some Rapid Approximate Statistical Procedures. American Cynamic Co.

[Pratt-20] Pratt, J. (1959). "Remarks on zeros and ties in the Wilcoxon signed rank procedures". Journal of the American Statistical Association. 54 (287): 655–667. doi:10.1080/01621459.1959.10501526.

[21] Pratt, p. 659

[22] Pratt, p. 663

[IndivLikert-23] Derrick, B; White, P (2017). "Comparing Two Samples from an Individual Likert Question". International Journal of Mathematics and Statistics. 18 (3): 1–13.

[24] Conover, William Jay (1973). "On Methods of Handling Ties in the Wilcoxon Signed-Rank Test". Journal of the American Statistical Association. 68 (344): 985–988. doi:10.1080/01621459.1973.10481460.

[25] Pratt and Gibbons, p. 162

[26] Conover, pp. 352–353

[27] Pratt and Gibbons, p. 164

[28] Conover, pp. 358–359

[Pratt,_p._660-29] Pratt, p. 660

[30] Pratt and Gibbons, pp. 168–169

[31] Pratt, pp. 661–662

[32] Pratt and Gibbons, p. 170

[33] Pratt and Gibbons, pp. 163, 166

[34] Pratt and Gibbons, p. 166

[35] Pratt and Gibbons, p. 171

[36] Pratt, p. 661

[37] Gibbons, Jean D.; Chakraborti, Subhabrata (2011). Nonparametric Statistical Inference (Edisi Fifth). Chapman & Hall/CRC. ISBN 978-1-4200-7762-9., p. 194

[38] Hettmansperger, p. 34

[39] Pratt and Gibbons, pp. 148–149

[40] Pratt and Gibbons, pp. 148–149, pp. 186–187

[41] Hettmansperger, p. 171

[Pratt_and_Gibbons,_p._187-42] Pratt and Gibbons, p. 187

[43] Pratt and Gibbons, p. 149

[Kolassa-44] Kolassa, John E. (1995). "Edgeworth approximations for rank sum test statistics". Statistics and Probability Letters. 24 (2): 169–171. doi:10.1016/0167-7152(95)00164-H.

[45] Hettmansperger, p. 37

[46] Hettmansperger, p. 35

[Cureton-47] Cureton, Edward E. (1967). "The normal approximation to the signed-rank sampling distribution when zero differences are present". Journal of the American Statistical Association. 62 (319): 1068–1069. doi:10.1080/01621459.1967.10500917.

[48] Pratt and Gibbons, p. 193

[49] Wilcoxon, p. 82

[50] Pratt and Gibbons, p. 158

[51] Pratt and Gibbons, p. 159

[52] Pratt and Gibbons, p. 191

[Kerby2014-53] Kerby, Dave S. (2014), "The simple difference formula: An approach to teaching nonparametric correlation.", Comprehensive Psychology, 3 11.IT.3.1, doi:10.2466/11.IT.3.1

[54] Dalgaard, Peter (2008). Introductory Statistics with R. Springer Science & Business Media. hlm. 99–100. ISBN 978-0-387-79053-4.

[55] "Wilcox signed-rank test: SAS instruction". www.stat.purdue.edu. Diakses tanggal 2023-08-24.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

Uji peringkat bertanda Wilcoxon 📖 Wikipedia

Daftar isi

Sejarah

Prosedur uji

Hipotesis nol dan alternatif

Uji satu sampel

Uji data berpasangan

Nol dan nilai yang sama

Nol

Nilai yang sama

Menghitung distribusi nol

Statistika alternatif

Contoh

Ukuran efek

Implementasi perangkat lunak

Lihat juga

Referensi

Pranala luar

📚 Artikel Terkait di Wikipedia

Uji hipotesis

Uji t Student

Iritabilitas

Statistika nonparametrik

Uji U Mann–Whitney

Uji Kolmogorov–Smirnov

Metilfenidat

Ilmu