Kembali ke data. ‘Sekarang sudah masuk era Big Data, harusnya perencanaan kota di Indonesia sudah mengakomodasinya’ – sering banget saya dengar diskusi seperti itu baik di forum ilmiah maupun non-ilmiah semacam ngabuburit dan kongko-kongko tanpa secangkir kopi. Dan itu tidak sepenuhnya salah, data science sendiri adalah ilmu tentang data. Menggunakan pivot di excel itu saja sudah masuk kategori olah data, menuliskan code =IF(….; ….) di excel sendiri juga sudah termasuk coding sederhana. Dan sebenarnya excel sendiri adalah software yang bisa digunakan untuk data science. Artinya memang mudah dikala sudah paham bagaimana data bertingkah.
Pertanyaan selanjutnya adalah, apakah seluruh data sudah siap dalam bentuk tabel rapi, dengan ketikan rapi tanpa duplikasi, tanpa salah ketik dan berbagai benefit lainnya?. Kualitas data menjadi penting kita debatkan sekarang. Tidak usah menunjuk ke satu lembaga atau siapapun untuk mengatakan ‘itu kan tanggung jawabnya’. Bukan seperti itu, data memiliki perilaku. Punya karakteristik khas yang juga harus dipahami, itulah kenapa jangan sekali-kali meng-outsourcing-kan tahap ini, kecuali anda benar-benar sudah paham data behavior, yang akan kita bahas sedikit.
Memanipulasi data
Peneliti itu adalah Chef. Dia dihadapkan pada bahan-bahan yang banyak dengan berbagai karakternya, dan dia harus ‘masak’ untuk mendapatkan makanan yang diinginkan. Bukan hanya enak, yang menjadikan penentu. Sesuai dan berguna juga dipertimbangkan. Sebagai contoh begini: saya ingin membuat sate kambing pedas. Apa yang harus saya lakukan? Tentu mencari daging kambing bukan. Ada banyak cara untuk mendapatkannya, saya contohkan 3 saja, yaitu (1) potong kambing langsung dari kandang, (2) membeli di pasar, atau (3) membeli hasil olahan setengah jadi, misalnya sudah difillet atau dipotong sesuai tujuan. Proses pengolahan dari potong kambing kemudian dikuliti hingga menjadikan kubus-kubus daging siap tusuk itulah data processing. Itulah kenapa di 3 contoh di atas memiliki harga yang berbeda-beda meskipun sama-sama daging kambing. Di dalam data processing ada proses manipulasi data. Manipulasi di statistik itu bukan tindakan kriminal, itu adalah proses mengubah/ mentransformasi data saja. Contohnya adalah variabel yang ditulis di baris diubah menjadi kolom. Data wrangling istilahnya kalau di data science. Dan ini mudah, bahkan sangat mudah jika datanya sedikit. Kalau banyak, ya tentu beda. Bisa juga manipulasi ini dilakukan pada alamat rumah yang diubah menjadi koordinat X, Y. Dan sekali lagi ini juga mudah, tinggal masukkan saja alamat ke google search, masuk ke google maps dan generate coordinate, jadi. Pertanyaan selanjutnya adalah bagaimana kalau datanya sejuta atau sejuta sepraprat? – bisa setahun lebih hanya untuk manipulasi alamat ke koordinat.
Seperti membuat sate kambing di atas. Olah bahan makanan menjadi penting untuk membuatnya menjadi informasi, dari long list menjadi short list. Dari voice menjadi text. Dari angka menjadi visualisasi gambar. dan seterusnya tergantung kebutuhan. Visualisasi migrasi atau relokasi yang selama ini dibuat dalam bentuk peta bisa juga disajikan dengan grafik simple disebut dengan chord diagram. Itu hanya sebagai contoh saja. Namun yang menjadi tugas selanjutnya adalah bagaimana mensimplifikasi data menjadi informasi itu. Itulah kenapa penelitian dibahasa Inggris menggunakan kata research dan bukan refind. Mencari kembali dan bukanlah menemukan kembali. Mencari bukan berarti harus mensort decending ataupun accending data-data kita, tidak hanya itu. Bisa jadi kita lihat trend-nya bagaimana korelasinya, bagaimana sebaran scatter plot datanya, bagaimana autogressive-nya dan masih banyak cara lainnya. Untuk menentukan tingkat kedekatan tetangga saja ada sekitar 4 rumus matematika yang harus kita perhitungkan. Sekali lagi, itulah data manipulation sebelum melakukan proses olah data statistik. Jika selama ini kita menganggap bahwa statistik adalah back-end riset-riset kuantitatif, maka mulailah untuk mempelajari bagaimana data berperan. Justru di data-data super gede, olah data/ manipulasi data itulah yang menjadi back-end untuk kemudian disajikan dalam tabel siap pakai, halus, dan sudah dengan sangat baik terdefinisi: Ini adalah variabel Y dan itu yang di sana adalah variabel X. Kemudian masukkan ke SPSS, atau mungkin ke EXCEL untuk diolah dan disimpulkan inilah variabel yang paling bepengaruh. Rasanya simple sekali statistik ini, datanya sudah setengah mateng atau justru sudah mateng. Sebagai tantangan, coba interpretasikan gambar di bawah ini. Itu adalah scatter plot dari lebih dari 4.000 data yang tidak ada makna karena memang belum di strukturkan menjadi sebuah informasi. Dari sini jalur perjalanan harus dibuat sendiri dengan petunjuk-petunjuk sangat umum. Benar-benar membuat jalan sambil berjalan.

Big data adalah solusi?
Di dalam data gede, ada istilah data terstruktur dan data tidak terstruktur. Kalau kita mendapatkan data tidak terstruktur maka yang harus dilakukan adalah menstrukturkan data itu. Itulah peran data cleansing dan data wrangling, mentransformasi data. Lagi-lagi memanipulasi data lagi. Meng-utak-atik data sedemikian rupa agar bisa terbaca. Perumpamaan lain yang mungkin bisa memperjelas adalah membuat pondasi rumah. Itu seakan-akan pekerjaan ‘yang tidak terlihat’ kalau rumahnya sudah jadi, tetapi biaya konstruksinya tidaklah murah. Beli batu, semen, besi-besi super gede, dan konstruksi cakar ayam, mungkin seluruh biaya bisa dipakai untuk beli kendaraan. Dan setelah pondasi terbangun, semuanya dikubur oleh tanah. Penting tetapi seakan-akan ‘tidak terlihat’. Itulah data cleaning dalam statistik yang selama ini mungkin lebih banyak dibahas di meja-meja kampus statistik dan tidak di meja kampus lain seperti planologi. Data cleaning menjadi basis/ menjadi pondasi agar statistik benar-benar menjadi karya seni mengolah angka dan data.
Kembali ke perumpamaan daging kambing di atas. Jadi data clening & wrangling di big data itu kurang lebih adalah memproses daging dari menyembelih kambing hingga menjadikannya kubus-kubus daging. Software statistik menjadi perantara antara kubus daging menjadi masakan. Silakan saja mau dimasak apa, kalau mau di sate maka daging-daging kubus itu tinggal ditusuk dan bakar, Namun kalau ingin dimasak opor, yang tentu ada treatment berbeda. Inilah kenapa saya menyebutnya sebagai front-end dan data cleaninglah yang menjadi back-end. Di balik olah data statistik baik itu regresi, korelasi dan masih banyak lagi yang lainnya itu, masih ada tahapan yang selama ini ‘sering tidak dilihat’, ada pondasi yang tidak kalah penting yaitu data cleaning. Alhasil, yang bisa disimpulkan adalah big-data itu adalah sebuah tantangan selain sebagai alternatif solusi.
Big data sebagai solusi tidaklah absolut benar. Tetapi memang ini menjadi kebutuhan baru saat ini terutama di studi perkotaan yang banyak dipegang oleh rekan-rekan planologi. Tidak mungkin lagilah melakukan traffict counting dengan menunjukkan jari di pinggir jalan kemudian mencatat setiap kendaraan yang lewat ke kertas putih HVS. Sangat tidak efisien, selain itu bisa jadi ada perbedaan antara weekend dan weekdays. Belum lagi terbatas di waktu, tidak semua ruas jalan bisa di hitung.
One thought on “Data cleaning adalah kunci analisis big data”
Comments are closed.