15 Istilah Statistik yang Sering Salah Kaprah, dari Sidang Skripsi hingga Ruang Rapat

Suatu sore di ruang sidang sebuah program studi manajemen, seorang mahasiswa tingkat akhir mempresentasikan hasil skripsinya dengan penuh percaya diri. Ia menyimpulkan bahwa kepemimpinan transformasional berpengaruh signifikan terhadap kinerja karyawan, dengan nilai signifikansi 0,03. Slide demi slide bergulir mulus, hingga seorang penguji mengangkat tangan dan bertanya pelan: “Adik, coba jelaskan, apa makna angka 0,03 itu? Apakah artinya kepemimpinan transformasional menyebabkan kinerja meningkat sebesar 3 persen?” Ruangan hening. Mahasiswa itu tersenyum kaku, mencari kata, lalu menjawab dengan ragu bahwa ya, kira-kira begitu. Penguji menggeleng pelan.

Adegan seperti ini bukan hal langka. Ia berulang di banyak ruang sidang, di banyak kampus, dengan banyak istilah statistik yang sebenarnya sederhana namun kerap dipahami secara keliru. Bukan hanya mahasiswa. Manajer di ruang rapat juga sering melakukan kesalahan serupa ketika dengan penuh keyakinan menyatakan bahwa kampanye pemasaran terbaru “berhasil signifikan”, padahal yang dimaksud sebenarnya hanya kenaikan angka penjualan dibanding bulan lalu. Konsultan yang mempresentasikan hasil survei kepada klien pun tak luput. Mereka menampilkan grafik korelasi yang indah, lalu menyimpulkan hubungan sebab-akibat tanpa pernah berhenti memeriksa apakah dasar kausalitasnya memang ada.

Pangkal masalahnya satu: terdengar meyakinkan dan benar-benar benar adalah dua hal yang berbeda. Statistik bukan sekadar bumbu untuk membuat presentasi tampak ilmiah. Ia adalah cara berpikir, alat untuk mengukur ketidakpastian, dan rambu untuk menjaga kita dari kesimpulan yang gegabah. Memahami istilah-istilah dasarnya bukan kewajiban statistikawan, melainkan keharusan siapa saja yang harus mengambil keputusan berdasarkan data, baik itu peneliti, dosen, mahasiswa, manajer, maupun pembuat kebijakan. Berikut lima belas istilah yang paling sering muncul di laporan, presentasi, dan diskusi pengambilan keputusan, lengkap dengan contoh agar tidak lagi tergelincir dalam pemahaman yang keliru.

Pertama, populasi versus sampel. Populasi adalah keseluruhan kelompok yang ingin dipelajari, sedangkan sampel adalah bagian kecil yang dipilih untuk mewakilinya. Bila seorang peneliti ingin mengetahui kepuasan kerja seluruh karyawan PT Telkom Indonesia, populasinya adalah semua karyawan Telkom yang berjumlah puluhan ribu orang. Karena tidak mungkin mengukur seluruhnya, peneliti memilih sampel, misalnya 400 karyawan, untuk mewakili populasi. Kunci utamanya: cara pengambilan sampel menentukan apakah temuan dapat digeneralisasi atau tidak. Sampel yang diambil hanya dari kantor pusat di Jakarta jelas tak bisa mewakili karyawan yang tersebar di seluruh Indonesia.

Kedua, rata-rata (mean) versus median. Rata-rata adalah hasil penjumlahan seluruh nilai dibagi jumlah datanya, sedangkan median adalah nilai tengah ketika data diurutkan dari terkecil hingga terbesar. Bayangkan sebuah desa dengan sembilan keluarga berpendapatan Rp5 juta per bulan, lalu satu keluarga berpendapatan Rp500 juta per bulan. Rata-rata pendapatan desa itu menjadi Rp54,5 juta, angka yang menyesatkan. Sedangkan median tetap menunjukkan Rp5 juta, gambaran yang jauh lebih jujur tentang kondisi tipikal warga. Inilah sebabnya laporan Bank Dunia tentang ketimpangan lebih sering memakai median dibanding mean.

Ketiga, standar deviasi. Ukuran ini menggambarkan seberapa jauh titik-titik data tersebar dari rata-ratanya. Dua kelas mahasiswa bisa memiliki nilai rata-rata ujian yang sama, katakanlah 75. Namun di kelas pertama nilai mahasiswa berkisar antara 70 hingga 80 (standar deviasi kecil), sedangkan di kelas kedua nilainya berkisar antara 40 hingga 100 (standar deviasi besar). Dosen yang hanya melihat rata-rata akan menyimpulkan kedua kelas setara, padahal cerita di baliknya sangat berbeda. Kelas kedua menyimpan kesenjangan tajam antara mahasiswa yang sudah paham dan yang tertinggal jauh.

Keempat, varians. Varians adalah rata-rata kuadrat selisih dari mean, indikator lain dari sebaran data yang menjadi dasar perhitungan standar deviasi. Di dunia keuangan, varians dipakai untuk mengukur volatilitas harga saham. Saham A dan saham B bisa memiliki rata-rata return yang sama 8 persen per tahun, tapi saham A bergerak stabil di kisaran 6 hingga 10 persen, sementara saham B berayun antara minus 20 hingga plus 35 persen. Bagi investor konservatif, varians adalah peringatan. Bagi spekulan, justru ladang peluang.

Kelima, korelasi versus kausalitas. Dua hal yang bergerak bersamaan belum tentu yang satu menyebabkan yang lain. Penjualan es krim dan penjualan kacamata hitam meningkat bersamaan, tapi bukan karena es krim membuat orang membeli kacamata. Keduanya dipicu faktor ketiga: cuaca panas. Contoh klasik lain, ada korelasi tinggi antara jumlah bajak laut di dunia dengan kenaikan suhu global, tapi tidak ada satu pun pakar iklim yang menyimpulkan bajak laut menyebabkan pemanasan global. Dalam riset MSDM, kekeliruan ini sering muncul ketika peneliti menemukan korelasi antara pelatihan dan kinerja, lalu langsung menyimpulkan pelatihan menyebabkan peningkatan kinerja, tanpa mengontrol variabel lain seperti motivasi awal, dukungan atasan, atau kondisi pasar.

Keenam, p-value. Nilai ini menunjukkan probabilitas memperoleh hasil seekstrem yang diamati, jika hipotesis nol ternyata benar. P-value sebesar 0,03 berarti, andaikata sebenarnya tidak ada pengaruh apa pun, peluang mendapatkan hasil seperti yang diamati hanya 3 persen. Karena kecil, peneliti cenderung menolak hipotesis nol dan menyimpulkan ada pengaruh. Namun perlu digarisbawahi: p-value bukan ukuran besarnya efek, bukan probabilitas hipotesis benar, dan bukan jaminan temuan akan terulang di studi lain. P-value hanyalah satu kepingan informasi, bukan seluruh cerita.

Ketujuh, interval kepercayaan (confidence interval). Interval ini adalah rentang nilai yang diperkirakan memuat nilai populasi sebenarnya. Bila sebuah survei menyatakan tingkat konversi situs e-commerce adalah 3 persen dengan interval kepercayaan 95 persen antara 2 hingga 4 persen, artinya peneliti yakin nilai sebenarnya di populasi berada dalam rentang itu. Pernyataan ini jauh lebih informatif daripada sekadar mengatakan “konversi kami sekitar 3 persen”, karena memberi gambaran tentang seberapa presisi estimasi tersebut. Semakin lebar interval, semakin besar ketidakpastian.

Kedelapan, signifikansi statistik. Sebuah hasil disebut signifikan secara statistik bila kecil kemungkinannya muncul karena kebetulan acak, berdasarkan ambang batas yang telah ditetapkan, biasanya 0,05. Tapi inilah jebakan yang paling sering menjerat peneliti pemula: signifikan secara statistik tidak otomatis berarti penting secara praktis. Pada sampel sejuta pengguna, kenaikan engagement sebesar 0,1 persen bisa saja signifikan secara statistik, namun bagi tim produk angka itu nyaris tak berarti. Sebaliknya, pada sampel kecil, efek yang sebenarnya besar bisa gagal lolos uji signifikansi karena daya statistik (statistical power) yang rendah. Membaca signifikansi tanpa membaca ukuran efek (effect size) adalah membaca setengah cerita.

Kesembilan, distribusi normal. Kurva berbentuk lonceng yang simetris, dengan mayoritas data berkumpul di sekitar pusat dan semakin sedikit di kedua ujungnya. Tinggi badan, skor IQ, dan banyak fenomena alam mengikuti pola ini. Banyak metode statistik klasik (uji-t, ANOVA, regresi linier) mengasumsikan data terdistribusi normal. Masalahnya, tidak semua data di dunia nyata berperilaku demikian. Pendapatan masyarakat, misalnya, jauh dari normal. Ia menceng ke kanan karena segelintir orang super kaya. Jika asumsi distribusi tidak dicek, hasil analisis bisa menyesatkan.

Kesepuluh, outlier. Titik data yang berbeda jauh dari pengamatan lainnya. Bila seorang miliarder ikut dalam survei gaji rata-rata karyawan kantor menengah, hasilnya akan terdistorsi parah. Outlier perlu diidentifikasi, dipahami konteksnya, dan diputuskan apakah dibuang, dianalisis terpisah, atau justru menjadi temuan paling menarik. Dalam riset MSDM, karyawan dengan kinerja luar biasa atau sangat rendah sering dianggap outlier yang harus dieliminasi. Padahal, justru di sanalah kadang tersimpan pelajaran terpenting tentang faktor pendorong kinerja yang tak terlihat dari karyawan rata-rata.

Kesebelas, overfitting. Kondisi ketika sebuah model statistik atau machine learning belajar terlalu dalam pada data latih, termasuk derau dan keanehannya, sehingga gagal bekerja pada data baru. Bayangkan seorang mahasiswa yang menghafal mati seluruh soal latihan beserta jawabannya. Saat ujian, jika soal persis sama, ia bisa menjawab sempurna. Tapi begitu soal sedikit dimodifikasi, ia bingung. Model yang overfitting berperilaku serupa: tampak hebat pada data lama, rapuh pada data baru. Inilah sebabnya peneliti perlu membagi data menjadi training set dan testing set, agar dapat menguji generalisasi model.

Kedua belas, bias versus varians. Bias adalah kesalahan akibat asumsi yang keliru atau model yang terlalu sederhana, sedangkan varians adalah sensitivitas model terhadap fluktuasi kecil dalam data. Bias tinggi melahirkan underfitting, ketika model gagal menangkap pola dasar dalam data. Varians tinggi melahirkan overfitting, ketika model menangkap terlalu banyak detail termasuk derau. Analoginya seperti memanah ke papan target. Bias tinggi berarti panah konsisten meleset jauh dari pusat. Varians tinggi berarti panah tersebar di mana-mana, kadang dekat pusat kadang jauh. Tujuan pemodelan yang baik adalah menemukan keseimbangan, mendekat ke pusat dengan sebaran serendah mungkin.

Ketiga belas, A/B testing. Metode membandingkan dua versi sesuatu untuk melihat mana yang berkinerja lebih baik. Sebuah perusahaan e-commerce ingin tahu apakah tombol “Beli Sekarang” berwarna merah atau hijau yang lebih banyak mendorong klik. Mereka membagi pengunjung secara acak: separuh melihat tombol merah (versi A), separuh melihat tombol hijau (versi B). Setelah ribuan pengunjung, perusahaan dapat membandingkan tingkat klik kedua versi secara statistik. A/B testing memberi dasar empiris bagi keputusan yang sering kali diambil berdasarkan selera desainer, intuisi manajer, atau pendapat siapa yang paling lantang di rapat.

Keempat belas, R-squared. Ukuran proporsi varians dalam variabel terikat yang dapat dijelaskan oleh model. Nilainya berkisar antara 0 hingga 1. R-squared sebesar 0,75 berarti 75 persen variasi dalam variabel terikat dapat dijelaskan oleh variabel-variabel bebas dalam model. Terdengar mengesankan, tapi hati-hati. Nilai R-squared tinggi tidak otomatis berarti modelnya benar atau berguna untuk prediksi. Bisa jadi model itu mengandung variabel-variabel yang sebetulnya tidak masuk akal secara teoretis, atau mengalami overfitting. Sebaliknya, R-squared rendah dalam riset perilaku manusia kerap kali wajar, karena perilaku manusia memang dipengaruhi banyak faktor yang tidak semuanya bisa dimodelkan.

Kelima belas, multikolinearitas. Kondisi ketika dua atau lebih variabel bebas dalam sebuah model saling berkorelasi tinggi. Memasukkan pendapatan dan pengeluaran sekaligus untuk memprediksi risiko kredit bisa menimbulkan masalah ini, karena keduanya bergerak bersama. Akibatnya, koefisien regresi menjadi tidak stabil, sulit ditafsirkan, dan bisa berubah drastis hanya karena ada penambahan atau pengurangan variabel lain. Dalam riset MSDM, multikolinearitas sering muncul ketika peneliti memasukkan variabel-variabel yang konseptualnya tumpang tindih, misalnya kepuasan kerja, keterikatan kerja, dan komitmen organisasi sekaligus. Solusinya bisa berupa menggabungkan variabel, memilih salah satu, atau menggunakan teknik analisis lanjutan seperti regresi ridge.