• 28 Mar 2012 /  Tugas

    Bagaimana jika kita hendak melakukan analisis regresi dengan lebih dari satu prediktor atau variabel independen? Kita tetap dapat menggunakan analisis regresi, hanya saja saat ini melibatkan lebih dari satu prediktor dalam analisisnya. Analisis regresi seperti ini sering disebut dengan analisis regresi ganda (Multiple Regression Analysis). Sebagai catatan: baik analisis regresi sederhana maupun analisis regresi ganda, keduanya berada dalam satu bendera yang sama yaitu Analisis Regresi. Jadi keduanya bukan merupakan teknik analisis yang berbeda, tetapi analisis yang sama hanya saja diterapkan pada situasi yang berbeda.

    Pada dasarnya, pemikiran mengenai analisis regresi ganda ini merupakan perluasan dari prinsip-prinsip analisis regresi sederhana yang dibahas dalam postingan sebelumnya. Karena melibatkan lebih dari satu prediktor, tentu saja perhitungan dalam analisis regresi ganda akan lebih rumit.

    Dalam beberapa hal saya masih menganggap perlu untuk menampilkan rumus-rumus untuk kepentingan memperoleh pemahaman bukan untuk perhitungan semata. Jadi kita masih akan bertemu dengan beberapa rumus yang mungkin agak rumit dalam postingan ini. Harap sabar ya…

    Regresi Ganda dan Regresi dengan Satu Prediktor
    Sebenarnya pemikiran mengenai analisis regresi ganda itu seperti melakukan beberapa kali analisis regresi, satu kali untuk tiap prediktor. Analisis regresi ganda menjadi lebih rumit karena seringkali kedua prediktor memiliki hubungan yang mempengaruhi hubungan tiap prediktor dengan kriterion. Hal ini yang membuat hasil analisis regresi dengan menggunakan lebih dari satu prediktor akan berbeda dengan analisis regresi untuk tiap prediktornya. Perbedaan muncul misalnya dalam hasil estimasi b dan R2 nya.

    Baiklah saya akan berikan contoh untuk ilustrasi poin ini. Contoh yang saya berikan adalah ketika kedua prediktor memiliki korelasi yang sangat kecil dan hampir nol (sebenarnya saya ingin membuatnya benar-benar nol tapi agak sulit sepertinya). Anggaplah ada dua prediktor yaitu a dan b dan satu kriterion c. Yang pertama saya melakukan analisis regresi dengan melibatkan satu prediktor saja. Hasil analisis dengan menggunakan SPSS 16 dapat dilihat sebagai berikut:
    Gambar 1. R kuadrat dengan melibatkan a saja

    Gambar 2. R kuadrat dengan melibatkan b saja

    Gambar 3. R kuadrat dengan melibatkan a dan b

    Dari ketiga tabel di atas dapat dilihat bahwa nilai R kuadrat yang dihasilkan dari analisis regresi yang melibatkan dua prediktor kurang lebih adalah jumlah dari R kuadrat dari analisis regresi untuk tiap prediktornya: 0.549 =0.478+0.070.

    Gambar 4. nilai slope dengan melibatkan a saja

    Gambar 5. nilai slope dengan melibatkan b saja
    Gambar 6. nilai slope untuk tiap variabel dengan melibatkan a dan b

    Dari gambar 4 sampai 6, dapat kita lihat bahwa besarnya slope untuk tiap variabel kurang lebih sama antara slope yang didapatkan dari hanya melibatkan satu prediktor dengan slope yang didapatkan dari dua prediktor.

    Hal ini terjadi karena bagian dari variasi d yang dijelaskan oleh a adalah murni bagian yang terpisah dari bagian variasi d yang dijelaskan oleh b, karena kedua prediktor tersebut tidak berkorelasi. Begini gambarnya:
    Gambar 7. Ilustrasi regresi dengan dua prediktor yang tidak saling berkorelasi.

    Tentu saja kita akan sangat jarang berhadapan dengan situasi ini. Situasi lain yang lebih sering dijumpai dalam penelitian adalah ketika kedua prediktor saling berkorelasi. Korelasi dua prediktor ini mengakibatkan bagian dari variasi kriterion yang dijelaskan oleh prediktor yang satu bukan merupakan bagian yang murni terpisah dari bagian yang dijelaskan prediktor lain atau dengan kata lain ada overlap antara bagian yang dijelaskan oleh a dan b. Oleh karena itu bagian ini perlu diidentifikasi agar tidak terhitung ulang (lihat gambar 8.).
    Gambar 8. Ilustrasi analisis regresi yang melibatkan dua prediktor yang berkorelasi

    Estimasi Parameter dalam Regresi Ganda
    Seperti yang dijelaskan sebelumnya, estimasi parameter dalam regresi ketika melibatkan lebih dari dua prediktor, perlu memperhitungkan korelasi antar prediktor. Ini tercermin dalam rumus-rumus untuk mencari tiap parameter.
    Dalam artikel ini, penjelasan analisis regresi ganda melibatkan hanya dua prediktor saja demi kemudahan pemaparan. Oleh karena itu rumus dari garis prediksi yang akan dicari adalah
    Slope
    Rumus untuk mencari b1 maupun b2 mirip. Dapat dilihat sebagai berikut:
    Dapat dilihat dalam kedua rumus di atas, bahwa nilai b selalu didapatkan dari korelasi antara variabel yang dicari b-nya dengan variabel dependen (ry1), yang kemudian dikoreksi dengan korelasi antara variabel independen lain dengan variabel dependen (ry2) dan korelasi antar variabel independen (r12).

    Nah ketika korelasi antar variabel independen tidak sama dengan nol, maka dapat dikatakan korelasi ini ‘dibersihkan’ (partialed out) dari perhitungan nilai b atau dengan kata lain dikendalikan atau dikontrol. Oleh karena itu nilai b dalam analisis regresi ganda diinterpretasi sebagai “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X dengan mengendalikan nilai variabel independen lain”. Atau “kenaikan nilai prediksi Y untuk setiap poin kenaikan nilai X jika nilai variabel independen lain tetap”. Dari sinilah kemudian ide mengenai korelasi parsial dan semi parsial muncul, yaitu korelasi antara dua variabel dengan mengendalikan (partial out) variabel lain.

    Ketika korelasi antar variabel independen sama dengan nol (r12=0), maka akan terjadi :
    Jika kita lihat rumus b1 ini sama dengan rumus b1 pada analisis regresi dengan menggunakan satu prediktor saja, ini diakibatkan tidak ada korelasi yang ‘dibersihkan’ dari perhitungan nilai b, karena tidak ada korelasi antar variabel independen.

    R kuadrat.
    Perhitungan R kuadrat dalam regresi ganda dapat dilakukan dengan banyak cara. Cara pertama dilakukan dengan menjumlahkan R kuadrat untuk tiap korelasi antara variabel independen dengan variabel dependen, lalu dikoreksi.
    Rumus di atas juga menunjukkan bahwa R kuadrat dari garis regresi ganda merupakan jumlah r kuadrat tiap variabel yang dikoreksi atau ‘dibersihkan’ dari korelasi antar variabel independen. Jika r12 = 0 maka Selain cara pertama itu, cara lain yang terhitung mudah adalah dengan mencari koefisien korelasi antara prediksi y dengan y dari data penelitian. Koefisien korelasi yang didapatkan kemudian dikuadratkan. Cara kedua ini dapat dinyatakan dalam bentuk seperti berikut: Regresi Ganda dalam SPSS
    Saya tidak akan memberikan contoh pengerjaan rumus-rumus di atas secara manual…
    “Yaaah…..”, begitu mungkin terdengar dari kejauhan sana.
    Ya … ya … saya bisa memahami kekecewaan anda semua. Tapi saya melakukannya demi kebaikan kita semua (hmm… mulai tercium bau keangkuhan dan hawa kesombongan…). Selain karena membutuhkan kesabaran dan ketelitian ekstra, saya juga menghindari tampilan yang mengerikan dari perhitungan statistik dengan harapan mengurangi pengalaman traumatik berurusan dengan statistik …(hehe… lebai banget…). Saya juga merasa jauh lebih penting memfokuskan pada pemahaman konsep daripada penguasaan hitung-hitungannya, jadi dalam kesempatan ini mari kita segera beralih pada contoh regresi ganda dalam SPSS…. (Mari…. ).
    Contoh: Sebuah penelitian dilakukan untuk mengetahui korelasi dari nilai IPK mahasiswa dengan dua variabel lain yaitu nilai Tes Seleksi Masuk I dan Tes Seleksi Masuk II. Penelitian ini juga ditujukan untuk menemukan garis regresi untuk melakukan prediksi nilai IPK seorang mahasiswa berdasarkan informasi dari nilai Tes Seleksi Masuk I dan II.
    Baiklah, langkah pertama adalah dengan membuka data dalam SPSS tentu saja. Yang diikuti dengan klik menu Analyze-Regression-Linear sehingga muncul dialog box seperti ini (gambar 9.)
    Gambar 9.
    Variabel Indeks Prestasi Kumulatif dimasukkan ke dalam kotak Dependent sementara Tes Seleksi I dan Tes Seleksi II dimasukkan ke dalam kotak Independent(s). Kemudian klik OK, sehingga ditampilkan hasil seperti berikut (gambar 10, 11,12):
    Gambar 10.
    Pada Gambar 10. ditampilkan tabel yang memberikan informasi mengenai besarnya R dan R kuadrat. R merupakan korelasi majemuk (multiple correlation) dari kedua variabel independen dengan variabel dependen. R kuadrat (R square) memberikan gambaran seberapa baik garis regresi dapat memberikan prediksi variabel dependen. Dalam hal ini 14% dari variasi variabel dependen yang dapat diprediksikan oleh garis regresi dengan menggunakan kedua tes seleksi sebagai prediktornya.
    Gambar 11.
    Tabel dalam gambar 11, memberikan informasi mengenai signifikasi nilai R atau dapat juga dianggap sebagai uji hipotesis terkait dengan parameter-parameter regresi. Dalam tabel ditemukan nilai p (sig.) lebih kecil dari 0.05. Ini berarti nilai R secara signifikan berbeda dari 0 di populasi. Atau dapat juga diinterpretasi bahwa menggunakan garis regresi memberikan informasi lebih baik dibandingkan hanya dengan menggunakan mean dari variabel dependen. Interpretasi lain terkait dengan parameter, yaitu paling tidak ada satu nilai b yang signifikan. Jika kita membagi JK (Sum of Squares) dari Regression dengan JK dari Total, akan ditemukan nilai yang sama dengan R kuadrat.
    Gambar 12.
    Tabel berikutnya dalam gambar 12. memberikan informasi mengenai besarnya slope dan intercept serta signifikasi dari tiap koefisien tersebut. Slope untuk Tes Seleksi I adalah 0.049 sementara Tes Seleksi II adalah 0.090. Intercept dari persamaan garis regresi ini adalah 1.932. Semua parameter tersebut signifikan dengan taraf 5%. Ini berarti garis regresi untuk memprediksi IP Kumulatif mahasiswa adalah sebagai berikut:

    Arti dari slope untuk Tes Seleksi masuk : dengan mengendalikan nilai Tes Seleksi II, tiap kenaikan satu poin dalam Tes Seleksi I akan diikuti oleh prediksi IPK sebanyak 0.049 poin. Atau : kenaikan 1 poin nilai Tes seleksi I akan diikuti oleh kenaikan prediksi IPK, jika nilai Tes Seleksi II tetap.
    Baiklah demikian kiranya pembahasan mengenai analisis regresi ganda. Tentu saja banyak bunga-bunga di sekitar analisis regresi ganda ini yang belum bisa dibahas dalam postingan ini.

  • 28 Mar 2012 /  Tugas

    Regresi linier adalah metode statistika yang digunakan untuk membentuk model hubungan antara variabel terikat (dependen; respon; Y) dengan satu atau lebih variabel bebas (independen, prediktor, X). Apabila banyaknya variabel bebas hanya ada satu, disebut sebagai regresi linier sederhana, sedangkan apabila terdapat lebih dari 1 variabel bebas, disebut sebagai regresi linier berganda.

    Analisis regresi setidak-tidaknya memiliki 3 kegunaan, yaitu untuk tujuan deskripsi dari fenomena data atau kasus yang sedang diteliti, untuk tujuan kontrol, serta untuk tujuan prediksi. Regresi mampu mendeskripsikan fenomena data melalui terbentuknya suatu model hubungan yang bersifatnya numerik. Regresi juga dapat digunakan untuk melakukan pengendalian (kontrol) terhadap suatu kasus atau hal-hal yang sedang diamati melalui penggunaan model regresi yang diperoleh. Selain itu, model regresi juga dapat dimanfaatkan untuk melakukan prediksi untuk
    variabel terikat. Namun yang perlu diingat, prediksi di dalam konsep regresi hanya boleh dilakukan di dalam rentang data dari variabel-variabel bebas yang digunakan untuk membentuk model regresi tersebut. Misal, suatu model regresi diperoleh dengan mempergunakan data variabel bebas yang memiliki rentang antara 5 s.d. 25, maka prediksi hanya boleh dilakukan bila suatu nilai yang digunakan sebagai input untuk variabel X berada di dalam rentang tersebut. Konsep ini disebut
    sebagai interpolasi. Data untuk variabel independen X pada regresi linier bisa merupakan data pengamatan yang tidak ditetapkan sebelumnya oleh peneliti (obsevational data) maupun data yang telah ditetapkan (dikontrol) oleh peneliti sebelumnya (experimental or fixed data). Perbedaannya adalah bahwa dengan menggunakan fixed data, informasi yang diperoleh lebih kuat dalam menjelaskan
    hubungan sebab akibat antara variabel X dan variabel Y. Sedangkan, pada observational data, informasi yang diperoleh belum tentu merupakan hubungan sebab-akibat. Untuk fixed data, peneliti sebelumnya telah memiliki beberapa nilai variabel X yang ingin diteliti. Sedangkan, pada observational data, variabel X yang diamati bisa berapa saja, tergantung keadaan di lapangan. Biasanya, fixed data diperoleh dari percobaan laboratorium, dan observational data diperoleh dengan menggunakan kuesioner. Di dalam suatu model regresi kita akan menemukan koefisien-koefisien. Koefisien pada model regresi sebenarnya adalah nilai duga parameter di dalam model regresi untuk kondisi yang sebenarnya (true condition), sama halnya dengan statistik mean (rata-rata) pada konsep statistika dasar. Hanya saja, koefisien-koefisien untuk model regresi merupakan suatu nilai rata-rata yang
    berpeluang terjadi pada variabel Y (variabel terikat) bila suatu nilai X (variabel bebas) diberikan.
    Koefisien regresi dapat dibedakan menjadi 2 macam, yaitu:
    1. Intersep (intercept)
    Intersep, definisi secara metematis adalah suatu titik perpotongan antara suatu garis dengan sumbu Y pada diagram/sumbu kartesius saat nilai X = 0. Sedangkan definisi secara statistika adalah nilai rata-rata pada variabel Y apabila nilai pada variabel X bernilai 0. Dengan kata lain, apabila X tidak memberikan kontribusi, maka secara rata-rata, variabel Y akan bernilai sebesar intersep. Perlu diingat, intersep hanyalah suatu konstanta yang memungkinkan munculnya koefisien lain di dalam model regresi. Intersep tidak selalu dapat atau perlu untuk diinterpretasikan. Apabila data pengamatan pada variabel X tidak mencakup nilai 0 atau mendekati 0, maka intersep tidak memiliki makna yang berarti, sehingga tidak perlu
    diinterpretasikan.
    2. Slope
    Secara matematis, slope merupakan ukuran kemiringan dari suatu garis. Slope adalah koefisien regresi untuk variabel X (variabel bebas). Dalam konsep statistika, slope merupakan suatu nilai yang menunjukkan seberapa besar kontribusi (sumbangan) yang diberikan suatu variabel X terhadap variabel Y. Nilai slope dapat pula diartikan sebagai ratarata pertambahan (atau pengurangan) yang terjadi pada variabel Y untuk setiap peningkatan satu satuan variabel X.
    Contoh model regresi:
    Y = 9.4 + 0.7*X + 
    Angka 9.4 merupakan intersep, 0.7 merupakan slope, sedangkan  merupakan error. Error bukanlah berarti sesuatu yang rusak, hancur atau kacau. Pengertian error di dalam konsep statistika berbeda dengan pengertian error yang selama ini dipakai di dalam kehidupan sehari-hari. Di dalam konsep regresi linier, error adalah semua hal yang mungkin mempengaruhi variabel terikat Y, yang tidak diamati oleh peneliti.
    Berikut ini adalah contoh garis regresi di dalam sebuah grafik:

    Dalam grafik diatas dapat kita lihat bahwa sumbu X berada pada kisaran angka 5 lebih sedikit hingga angka 15 lebih sedikit. Hal ini berarti bahwa kita hanya diijinkan untuk melakukan prediksi nilai Y untuk nilai X yang berada dalam rentang tersebut. Sebab, kita tidak memiliki dasar yang kuat untuk mengatakan bahwa hubungan variabel X dan Y tetap linier untuk titik-titik data yang mendekati angka nol. Kondisi seperti ini berdampak terhadap interpretasi intersep. Dalam kasus ini, karena data untuk variabel X tidak memuat angka nol atau mendekati nol, intersep dikatakan tidak memiliki makna yang berarti, sehingga tidak perlu diinterpretasikan.

    Uji Simultan Model Regresi
    Uji simultan (keseluruhan; bersama-sama) pada konsep regresi linier adalah pengujian mengenai apakah model regresi yang didapatkan benar-benar dapat diterima. Uji simultan bertujuan untuk menguji apakah antara variabel-variabel bebas X dan terikat Y, atau setidaktidaknya antara salah satu variabel X dengan variabel terikat Y, benar-benar terdapat hubungan linier (linear relation). Hipotesis yang berlaku untuk pengujian ini adalah:
    H0 : 1=2 …=k=0
    H1 : Tidak semua i=0
    i = 1, 2, …, k
    k = banyaknya variabel bebas X
    i = parameter (koefisien) ke-i model regresi linier
    Penjabaran secara hitungan untuk uji simultan ini dapat ditemui pada tabel ANOVA (Analysis Of
    Variance). Di dalam tabel ANOVA akan ditemui nilai statistik-F ( Fhitung ), dimana:
    jika Fhitung ≤ Ftabel ( db1 , db2 ) maka terima H0 , sedangkan
    jika Fhitung > Ftabel ( db1 , db2 ) maka tolak H0 .
    db1 dan db2 adalah parameter-parameter Ftabel , dimana:
    db1 = derajat bebas 1
    = p -1
    db2 = derajat bebas 2
    = n – p
    p = banyaknya parameter (koefisien) model regresi linier
    = banyaknya variabel bebas + 1
    n = banyaknya pengamatan
    Apabila H0 ditolak, maka model regresi yang diperoleh dapat digunakan.
    Uji Parsial
    Uji parsial digunakan untuk menguji apakah sebuah variabel bebas X benar-benar
    memberikan kontribusi terhadap variabel terikat Y. Dalam pengujian ini ingin diketahui apakah jika secara terpisah, suatu variabel X masih memberikan kontribusi secara signifikan terhadap variabel terikat Y.
    Hipotesis untuk uji ini adalah:
    H0 : j = 0
    H1 : j ≠ 0
    dimana:
    j = 0, 1, …, k
    k = banyaknya variabel bebas X
    Uji parsial ini menggunakan uji-t, yaitu:
    jika thitung ≤ ttabel (n-p), maka terima H0
    jika thitung > ttabel (n-p), maka tolak H0
    dimana
    (n-p) = parameter ttabel
    n = banyanya pengamatan
    p = banyaknya parameter (koefisien) model regresi linier
    Apabila H0 ditolak, maka variabel bebas X tersebut memiliki kontribusi yang signifikan terhadap variabel terikat Y.

    Pengambilan Keputusan dengan p-value
    Dalam memutuskan apakah menerima atau menolak H0 dalam konsep statistika, kita
    dihadapkan pada suatu kesalahan dalam menyimpulkan suatu kasus yang kita amati. Hal ini disebabkan karena di dalam statistika, kita bermain-main dengan sampel. Statistika menggunakan informasi dari sampel untuk menyimpulkan kondisi populasi keseluruhan. Oleh karena itu, mungkin sekali terjadi kesalahan dalam membuat suatu kesimpulan bagi populasi tersebut. Namun demikian, konsep statistika berupaya agar kesalahan tersebut sebisa mungkin adalah yang terkecil.
    Untuk memutuskan apakah H0 ditolak atau diterima, kita membutuhkan suatu kriteria
    uji. Kriteria uji yang paling sering digunakan akhir-akhir ini adalah p-value. P-value lebih disukai dibandingkan kriteria uji lain seperti tabel distribusi dan selang kepercayaan. Hal ini disebabkan karena p-value memberikan 2 informasi sekaligus, yaitu disamping petunjuk apakah H0 pantas ditolak, p-value juga memberikan informasi mengenai peluang terjadinya kejadian yang disebutkan di dalam H0 (dengan asumsi H0 dianggap benar). Definisi p-value adalah tingkat keberartian terkecil sehingga nilai suatu uji statistik yang sedang diamati masih berarti.
    Misal, jika p-value sebesar 0.021, hal ini berarti bahwa jika H0 dianggap benar, maka kejadian yang disebutkan di dalam H0 hanya akan terjadi sebanyak 21 kali dari 1000 kali percobaan yang sama. Oleh karena sedemikian kecilnya peluang terjadinya kejadian yang disebutkan di dalam H0 tersebut, maka kita dapat menolak statement (pernyataan) yang ada di dalam H0 . Sebagai gantinya, kita menerima statement yang ada di H1 . P-value dapat pula diartikan sebagai besarnya peluang melakukan kesalahan apabila kita memutuskan untuk menolak H0 . Pada umumnya, p-value dibandingkan dengan suatu taraf nyata  tertentu, biasanya 0.05 atau 5%. Taraf nyata  diartikan sebagai peluang kita melakukan kesalahan untuk menyimpulkan bahwa H0 salah, padahal sebenarnya statement H0 yang benar. Kesalahan semacam ini biasa dikenal dengan galat/kesalahan jenis I (type I error, baca = type one error). Misal  yang digunakan adalah 0.05, jika p-value sebesar 0.021 (< 0.05), maka
    kita berani memutuskan menolak H0 . Hal ini disebabkan karena jika kita memutuskan menolak H0 (menganggap statement H0 salah), kemungkinan kita melakukan kesalahan masih lebih kecil daripada  = 0.05, dimana 0.05 merupakan ambang batas maksimal dimungkinkannya kita salah dalam membuat keputusan.

    Koefisien Determinasi R2
    Koefisien determinasi adalah besarnya keragaman (informasi) di dalam variabel Y yang dapat diberikan oleh model regresi yang didapatkan. Nilai R2 berkisar antara 0 s.d. 1. Apabila nilai R2 dikalikan 100%, maka hal ini menunjukkan persentase keragaman (informasi) di dalam variabel Y yang dapat diberikan oleh model regresi yang didapatkan. Semakin besar nilai R2 , semakin baik model regresi yang diperoleh.

    Daniel, W.W. STATISTIK NONPARAMETRIK TERAPAN. Gramedia. Jakarta.
    Gujarati, D. 1991. EKONOMETRIKA DASAR. Erlangga. Jakarta.