Pengujian Hipotesis

Tutorial sederhana dan singkat tentang pengujian hipotesis menggunakan Python

Gambar dari: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

Di blog ini, saya akan memberikan tutorial singkat tentang Pengujian Hipotesis menggunakan metode statistik dengan Python. Pengujian Hipotesis adalah bagian dari Metode Ilmiah yang kita semua kenal, sesuatu yang mungkin kita pelajari di tahun-tahun awal pendidikan kita. Namun, dalam statistik, banyak percobaan dilakukan pada sampel populasi.

“Menentukan apa yang disampaikan oleh serangkaian sampel pengamatan tentang penjelasan yang diajukan, secara umum, mengharuskan kita untuk membuat kesimpulan, atau seperti yang kita para statistik menyebutnya, dengan Alasan Dengan Ketidakpastian. Penalaran dengan ketidakpastian adalah inti dari inferensi statistik dan biasanya dilakukan menggunakan metode yang disebut Null Hypothesis Significance Testing. ” -Tujuh.

Sebagai contoh untuk blog ini, saya akan menggunakan kumpulan Data Sepak Bola Eropa yang ditemukan di Kaggle, dan akan melakukan pengujian hipotesis. Dataset dapat ditemukan di sini.

Langkah 1

Buat observasi

Langkah pertama adalah mengamati fenomena. Dalam hal ini, itu akan menjadi: Apakah ada dampak agresi pertahanan pada tujuan rata-rata yang diizinkan?

Langkah 2

Periksa penelitian

Pola pikir yang baik adalah bekerja lebih cerdas, bukan lebih keras. Satu hal yang baik untuk dilakukan adalah melihat apakah penelitian yang berkaitan dengan pengamatan Anda sudah ada. Jika demikian, ini dapat membantu menjawab pertanyaan kami. Menyadari penelitian atau eksperimen yang sudah ada akan membantu kami menyusun eksperimen dengan lebih baik, atau mungkin bahkan menjawab pertanyaan kami dan tidak harus melakukan eksperimen sejak awal.

Langkah 3

Bentuk Hipotesis Null dan Hipotesis Alternatif

Hipotesis alternatif adalah dugaan kita yang berpendidikan dan hipotesis nol adalah kebalikannya. Jika hipotesis alternatif menyatakan ada hubungan yang signifikan antara dua variabel, hipotesis nol menyatakan tidak ada hubungan yang signifikan.

Hipotesis Null kami adalah: Tidak ada perbedaan statistik dalam gol yang diizinkan dengan tim dengan peringkat agresi pertahanan lebih dari atau sama dengan 65 lawan tim di bawah 65.

Hipotesis Alternatif: Ada perbedaan statistik dalam gol yang diizinkan dengan tim dengan peringkat agresi pertahanan lebih besar atau sama dengan 65 lawan tim di bawah 65.

Langkah 4

Tentukan apakah hipotesis kami adalah uji satu sisi atau uji dua sisi.

Tes Satu Ekor

"Jika Anda menggunakan tingkat signifikansi 0,05, tes satu sisi memungkinkan semua alpha Anda untuk menguji signifikansi statistik di satu arah yang menarik." Contoh tes satu arah adalah “Tim sepak bola dengan peringkat agresi lebih rendah dari 65 memungkinkan secara statistik lebih banyak gol daripada tim dengan peringkat lebih rendah dari 65.”

Uji Dua Ekor

“Jika Anda menggunakan tingkat signifikansi 0,05, tes dua sisi memungkinkan setengah dari alpha Anda untuk menguji signifikansi statistik di satu arah dan setengah dari alpha Anda untuk menguji signifikansi statistik di arah lain. Ini berarti bahwa 0,025 ada di setiap ujung distribusi statistik tes Anda. "

Dengan uji dua sisi, Anda menguji signifikansi statistik di kedua arah. Dalam kasus kami, kami menguji signifikansi statistik di kedua arah.

Langkah 5

Tetapkan tingkat signifikansi ambang (alpha)

(nilai alpha): Ambang batas marjinal tempat kami setuju dengan menolak hipotesis nol. Nilai alfa dapat berupa nilai apa pun yang kami tetapkan antara 0 dan 1. Namun, nilai alfa yang paling umum dalam sains adalah 0,05. Alfa diatur ke 0,05 berarti kita baik-baik saja dengan menolak hipotesis nol meskipun ada peluang 5% atau kurang bahwa hasilnya adalah karena keacakan.

Nilai-P: Probabilitas yang dihitung untuk sampai pada data ini secara acak.

Jika kita menghitung nilai-p dan hasilnya adalah 0,03, kita dapat menafsirkan ini dengan mengatakan "Ada kemungkinan 3% bahwa hasil yang saya lihat sebenarnya karena keacakan atau keberuntungan murni".

Gambar dari Learn.co

Tujuan kami adalah menghitung nilai p dan membandingkannya dengan alpha kami. Semakin rendah alfa semakin ketat tes.

Langkah 6

Lakukan Sampling

Di sini kami memiliki dataset kami yang disebut sepak bola. Untuk pengujian kami, kami hanya perlu dua kolom dalam kumpulan data kami: team_def_aggr_rating dan goals_allowed. Kami akan memfilternya ke dua kolom ini lalu membuat dua himpunan bagian untuk tim dengan peringkat agresi defensif lebih besar dari atau sama dengan 65 dan tim dengan peringkat agresi defensif di bawah 65.

Sekadar rekap untuk uji hipotesis kami:

Dampak agresi pertahanan pada sasaran rata-rata yang diizinkan. Hipotesis Null: Tidak ada perbedaan statistik dalam gol yang diperbolehkan dengan tim dengan peringkat agresi pertahanan lebih besar dari atau sama dengan 65 lawan tim di bawah 65. Hipotesis Alternatif: Ada perbedaan statistik dalam gol yang diperbolehkan dengan tim dengan peringkat agresi pertahanan lebih besar dari atau sama dengan 65 lawan tim di bawah 65. Tes Alpha dua sisi: 0,05

Sekarang kami memiliki dua daftar sampel tempat kami dapat menjalankan uji statistik. Sebelum langkah itu, saya akan merencanakan dua distribusi untuk mendapatkan visual.

Langkah 7

Lakukan Uji-T Dua Sampel

Uji dua sampel digunakan untuk menentukan apakah rata-rata dua populasi sama. Untuk ini, kita akan menggunakan modul Python yang disebut statsmodels. Saya tidak akan membahas terlalu banyak detail tentang statsmodels tetapi Anda dapat melihat dokumentasinya di sini.

Langkah 8

Mengevaluasi dan Menyimpulkan

Ingat bahwa alfa yang kita atur adalah a = 0,05. Seperti yang dapat kita lihat dari hasil pengujian kami bahwa nilai-p kurang dari alpha kami. Kita dapat menolak hipotesis nol kami dan dengan keyakinan 95% menerima hipotesis alternatif kami.

Terima kasih telah membaca! Untuk lebih mendalam tentang pengujian hipotesis, Anda dapat memeriksa proyek grup ini di GitHub I yang terlibat dalam pengujian hipotesis di sini.

Sumber:

Oven, Matius. "Statistik dan" Metode Ilmiah "Diperoleh dari YourStatsGuru. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Pengantar SAS. UCLA: Kelompok Konsultasi Statistik. dari https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (diakses Mei 16, 2019).

Buku Pegangan Statistik Teknik. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm