Berdamai dengan outliers, pencilan data

Hapus outlier data agar model statistiknya bagus atau robust. Ternyata tidak semudah itu dalam regresi spasial, bagian dari statistik ruang. Dalam statistik umum, outlier atau data terpencil ini cukup dihapus saja. Caranya dengan membuat boxplot, kemudian titik-titik data di luar boxplot itu disebut outliers atau pencilan data. Treatment yang biasa dilakukan adalah menghapusnya kemudian menghitung multicoloniaritas, dikala nilai VIF tinggi (>10) maka variabel itu tidak perlu diperitungkan. Dalam statistik umum dengan menghapus outlier dan tidak melibatkan variabel ber multikoloniariti tinggi maka nilai model akan semakin bagus yang biasanya ditunjukkan oleh r-squared dan p-value. Asumsi sederhana itu ternyata perlu diperhatikan dalam spatial statistik khususnya regresi ruang.

Alasan utamanya adalah adanya spatial dependency, ketergantungan ruang yang dinilai dari nilai tetangga (neighborhood). Sedikit keluar konteks, di dalam geografi berlaku hukum geografi 1 atau Tobler first law of geography yang dalam bahasa jawa berbunyi: “everything is related to everything else, but near things are more related than distant things”. Ada kekuatan pengelompokan data yang memungkinkan terjadinya ragam fungsi regresi spasial. Artinya bisa jadi fungsi regresi di zona A berbeda dengan zona B dan zona C. Itu yang kemudian saya sebut sebagai sub market (baca di sini).

Kembali ke treatment outliers di atas. Dikala penghapusan data outliers dilakukan, maka yang terjadi adalah nilai neighborhood akan berubah karena ada satu atau beberapa tetangga yang dihapus. Artinya menghapus outliers di spatial regresi bukanlah satu-satunya solusi. Dimana dikala kita hapus dari dataset statistik tidak otomatis akan meningkatkan nilai robustness, kenapa? Karena hilangnya 10 data berarti hilangnya 10 tetangga yang akan mempengaruhi nilai tetangga. Singkatnya menghilangkan outliers di dalam statistik ruang bukanlah satu-satunya keputusan bijak. Harus mencari model regresi yang dirasa lebih pas dengan berbagai konsekuensi.

Sub-market: potongan populasi representasi konsumen

Melalui teori hedonic, banyak peneliti mempercayai bahwa harga adalah sebuah bundle nilai-nilai vektor yang ditentukan oleh faktor internal dan eksternal dari suatu barang. Faktor internal ditentukan oleh karakter barang itu, ambil contoh baju maka faktor internal itu adalah : kualitas bahan, desain baju, warna, ukuran dan sebagainya yang melekat ke karakter baju itu. Kemudian faktor eksternal ditentukan oleh lingkungan di luar barang, bisa karena musim, pendapatan penduduk dan sebagainya. Asumsinya begini: sangat jarang orang membeli jaket tebal di musim panas. Maka produsen akan menyesuaikan dengan musim, atau mungkin dengan kecenderungan fashion. Itu adalah bagaimana produsen mengikuti faktor lingkungan dalam produksi maupun menentukan harga.

Yang di atas itu adalah contoh untuk barang. Perlakuan agak berbeda dengan rumah tinggal. Ada fungsi lokasi yang juga berpengaruh. Paling gampang bisa dicontohkan begini: pak Budi membeli rumah tipe 45/150 di dekat pasar seharga Rp. 800.000.000,- sedangkan pak Yono membeli rumah dengan tipe yang sama (45/150) di pinggir kota seharga Rp. 750.000.000,-. Ada tipe rumah yang sama tetapi harganya berbeda. Ada fungsi lokasi di sini, bisa kita asumsikan begitu. Sedikit melirik ke teorinya Alonso (1963) dalam bukunya Location and Land Use, di situ dijelaskan bahwa orang bertempat tinggal untuk mengurangi biaya transport menuju tempat kerja. Ada upaya untuk meningkatkan utilitas atas tempat yang kemudian ‘ditangkap’ oleh suplier rumah. Dikala ada kesepakatan harga maka itulah lokasi yang dipilih. Individual equilibrium terjadi di sini, bersepakat atas harga dan lokasi. Ini bisa terjadi dikala informasi pasar sama-sama diketahui dan dipahami oleh supplier/ developer dan consumer. Hubungan supplier dan consumer itu juga yang menjadi kritik atas pernyataan Haig (masih di bukunya Alonso) bahwa orang membeli rumah sama halnya dengan membeli makanan dan baju. Bagian dari kesenangan dari ekspektasi nilai atas barang, itulah kenapa kata hedonic (kesenangan) digunakan.

Kembali ke outliers/ pencilan data. Besar kemungkinan pencilan data itu terjadi karena tidak berimbangnya informasi yang diterima kedua belah pihak, supplier dan consumer. Mereka memiliki terkaan nilai atas barang yang berbeda, yang terjadi adalah ada pihak yang bisa menerka dengan baik tetapi ada juga yang tidak bisa menerka dengan baik. Itulah kenapa bid rent theory muncul yang memang representasi dari nilai pasar. Nilai pasar yang kemudian akan menentukan lokasi dimana kita memilih lokasi rumah. Yang menjadi pertanyaan selanjutnya adalah bagaimana jika nilai terkaan itu meleset? Ada 2 konsekuensi yaitu di harga dan lokasi yang tidak optimal dalam upaya meningkatkan utilitas lokasi. Dalam statistik itu adalah outliers.

Asumsi selanjutnya yang perlu diperhitungkan adalah berkaitan dengan heterogeneity, dalam populasi pasar yang banyak dan beragam diyakini ada konsumen yang homogen, relatif sama. Kembali ke contoh baju di atas. Baju ukuran S itu memiliki market sendiri yaitu mereka yang mungkin masih anak-anak atau mungkin memang berperawakan mungil. Itu adalah sub market, ada kelompok-kelompok konsumen yang memiliki karakter khas dan pada akhirnya menentukan penggunaan atas produk. Di kala ada orang berperawakan rada gemuk kemudian memakai baju ukuran S dengan konsekuensi menjadi ketat, itulah outlier. Dikala orang gemuk pemakai baju ukuran S ini kita keluarkan dari populasi maka data akan semakin homogen maka fungsi akan semakin robust. Cerita akan berbeda dikala outlier itu adalah rumah, dikala dihilangkan maka nilai tetangga akan berkurang dan model yang robust belum tentu tergapai. Let’s deal with it.