Perilaku data, menelisik setiap langkah

Melanjutkan cerita mengenai data-behavior: melihat beda dari tumpukan data (baca di sini). Pada satu titik tertentu kita harus menoleh kebelakang, berjalan mundur dan memperhatikan setiap langkah. Mencari langkah mana yang tidak sesuai. Apakah sudah benar cara jalan saya? Saya sedang berjalan di jalan yang memang hanya diperuntukkan pejalan kaki ataukah sebenarnya di jalan raya dimana ada kendaraan lalu lalang. Ataukah sebenarnya sedang berada di titian jalan. Reevaluasi, rewind, kembali dari titik 0 kemudian langkah demi langkah diperhatikan. Jika sudah benar, maka jalan lebih cepat bisa dilakukan. Sepertinya tidak ada yang keliru. Namun kenapa belum juga efektif, tidak sesuai dengan harapan bahkan sedikit melenceng dari tujuan. Maka evaluasi dilakukan bukan di cara berjalannya melainkan dimana kita berjalan.

Itu ilustrasi saja mengenai bagaimana kita memperlakukan data. Analogi yang harus diperhatikan di kala ingin selamat saat berjalan kaki di jalan raya adalah tidak hanya memperhatikan setiap langkah namun juga memperhatikan kendaraan lalu lalang, karakter mereka dan pengaruhnya ke orang yang berjalan, dengan satu tujuan selamat. Di spatial statistics rasanya itu terjadi. Ternyata ada perbedaan karakteristik yang menonjol antara spatial data dan data biasa (baca di sini). Konsekuensi dari koordinat (xi, yi) adalah pada nilai ketangguhan regresi spasial. Sekarang berasal dari data spasial namun di dalam analisisnya justru tidak memperhatikan fungsi geografis. Titik lokasi hanya diperlukan untuk mengetahui ada karakter apa di lokasi itu kemudian data dari sana menjadi bahan baku analisis. Contohnya begini di koordinat xi, yi berapa kemiringan lerengnya? Yang diperlukan hanyalah data kemiringan itu.

Titik koordinat hanya digunakan sebagai alamat untuk mengambil data semata. Kemudian dari setiap data yang didapat dioleh di statistik. Spatial analisis tetapi tidak langsung. Sekarang yang harus diperhatikan ternyata justru di tipe data dan bagaimana mereka berperilaku membentuk persamaan. Meskipun sama-sama statistik, rasanya ada loncatan frekuensi dari berfikir model A kemudian berubah menjadi model B. Pertama yang harus diperhatikan adalah menelisik perilaku data interval, data ordinal, data nominal. Kemudian selanjutnya adalah mencari apakah ada fenomena khusus yang itu hanya bisa di screening melalui literatur. Ambil contoh spatial spatistics menggunakan geographically weighted regression yang sudah robust untuk paper A & B, ternyata ada fenomena sub-market. Setelah ketemu ada fenomena segmentasi pasar ternyata model bisa robust seperti apa yang ditulis para pujangga statistics.

Yang sekarang belum ketemu, ada fenomena apa dibalik dataset dan model statistik untuk paper C ini. Terus mencari. Yang sudah dilakukan adalah gunakan data apa adanya, kemudian mengubah nilai interval, kemudian membuat dummy variabel. Yang terbaru adalah menghitung z-score atas seluruh variabel. Lumayan membantu, model semakin bagus, semakin terlihat hubungan antar variabel hingga nilai confidence interval (CI). Namun yang cukup unik adalah ada 2 variabel independent saling terikat (korelasi > 0,8). Hapus saja variabel itu! iya..pasti dihapus karena setiap variabel independent memang harus bebas atau tidak terikat. Namanya saja variabel bebas. Tapi dikala variabel itu dihilangkan justru menjadi model tidak robust. Dan nilai CI bisa melambung ke ribuan hingga jutaan. Ada yang aneh. Mencari lagi, bismilaah.