Tidak saya duga sebelumnya bahwa riset tentang banjir ini justru kebanjiran data. Banyak sekali. Data terakhir yang didapatkan lebih dari 1 juta, tepatnya 1.234.745 dengan jumlah kolom sebanyak lebih dari 100. Di dalam dataset, kami menyebutnya variabel meskipun tidak semua kolom digunakan untuk analisis. Itulah konsekuensi dari tidak menggunakan kuesioner dan wawancara guna mendapatkan data. Alternatif lain yang sekarang ini sering disebut dengan data besar atau bahasa jawanya big data. Harus mencari jarum di tumpukan jerami. Sebelumnya harus bejibaku dengan rimbunnya literatur (baca: menentukan arah di rimbunnya literasi), sekarang harus memainkan mouse dan terus berdiskusi dengan komputer. Kode-kode biner yang kami sebut sebagai syntax atau script menjadi komunikasi intens tiap hari.
“Ambilkan dua variabel A dan B!“. Kurang lebih begitu perintah/ bahasa yang saya berikan ke komputer. Di bahasa komputer (R Studio) mungkin kurang lebih akan menjadi > data %>% select(A, B)
. Itu hanya contoh saja, sebenarnya masih banyak ragam kode yang bisa diberikan agar kita benar-benar berkomunikasi dengan ‘kolega kerja’, komputer. Sama juga dikala kita ingin membuat grafik atau mungkin justru peta menggunakan RStudio. Contoh lain adalah menghitung jarak antar 2 titik menggunakan metode euclidean distance. Metode paling lawas, yaitu menentukan jarak titik dari A ke B menggunakan garis lurus. Cari saja tutorialnya di google, sudah banyak yang menyajikan rumus untuk menghitung misalnya dari titik A (3, 2) menuju titik B (7, 8), mengunakan rumus pitagoras akan ketemu 4 satuan jarak. Rumus ini sangat berguna, tetapi menjadi tantangan tersendiri dikala titik yang akan kita hitung berjumlah lebih dari 1 juta. Apakah kita akan menghitung satu per satu? Menggunakan kalkulator kemudian merekapnya. Saya rasa tidak akan efisien. Harus kembali ke matematika dasar sekarang. Pelajaran SMA yang dulu tidak tau untuk apa kegunaannya.
Masa depan adalah masa lalu yang diperbaiki. Dunia coding itu cukup popular di tahun 2000-an dikala harus nyecript untuk membuat ArcView Avenue atau mungkin juga dikala harus membuat pemprograman sederhana menggunakan Qbasic. Atau mundur sedikit dikala SMA, kita bisa meminta komputer bernyanyi lagu ibu kita Kartini menggunakan Qbasic. Saya masukkan kode-kode biner yang didapatkan dari salah satu buku komputer terbitan Jogja. Dengan speaker CPU yang sebenarnya hanya support untuk beberapa bunyi saja, sudah bisa melantunkan lagu ibu kita kartini. Saya lakukan di komputer sekolah waktu itu, dan sebagai bonusnya adalah mendapatkan peringatan: “jangan utak-atik komputer, itu aset negara”. Dan sekarang ternyata dunia coding berkembang lagi. Tidak hanya QBasic yang tidak saya lanjutkan belajarnya, tetapi sudah ada python, kemudian R Studio, C++ dan masih banyak lagi. Sampai tidak hafal dan tentunya tidak menguasai semuanya. Kecerdasan komputer terus berevolusi dari masa lalu yang terus diperbaiki.
Karakter terlihat dari data yang diberikan
Sebenarnya kita semua adalah data producer. Anda, mereka, saya dan kita semua adalah producer data melalui media apapun. Dalam kacamata statistik data yang diberikan akan menunjukkan karakter informasi sumbernya. Sebagai contoh dikala kita melihat grafik yang menurun atau justru naik maka kita secara sadar akan tau bahwa ada sesuatu yang berubah, yaitu naik atau turun. Jika data yang digunakan adalah harga bensin maka bisa disimpulkan bahwa ada perubahan harga atas minyak itu. Sederhana sekali, data akan memberikan informasi atas karakter sumber data.
Baik, sekarang coba kalau kita representasikan dengan dunia sehari-hari. Dikala anda mengatakan sesuatu, maka itulah data yang anda berikan. Dikala komentar di facebook, di instagram hingga dikala anda ngobrol dengan teman-teman anda. Di situ ada pertukaran informasi antara manusia dengan manusia. Sama halnya dikala kita coding di komputer ada pertukaran informasi antara manusia dengan komputer. Ada bahasa yang disepakati kemudian dipahami bersama. Contohnya adalah wadah yang terbuat dari beling untuk menampung air dan digunakan untuk minum itu disebut dengan gelas
. Kita semua menyepakatinya kalau nama benda itu adalah gelas. Setiap orang yang berkomunikasi akan mudah dengan kosakata yang telah disepakati itu. Sama juga dengan komputer, harus ada bahasa yang membuat manusia dan komputer sama-sama paham atas perintah dan keinginan. Dikala kita membuat perintah: tunjukkan data banjir!
maka komputer akan membalasnya error
. Karena tidak dipahami.
Selain data cleaning yang memakan lebih dari 60% waktu, ada karakter data yang perlu dipahami. Data itu bersumber dari mana? sebarannya seperti apa? apakah merepresentasikan kondisi dan sederet pertanyaan lainnya. Lupakan uji sample yang berapapun populasinya akan ditemukan jumlah 100, kalau menggunakan rumus Slovin. Sekarang saatnya bermain dengan data populasi, data yang tidak sedikit dan cukup mengerutkan dahi setiap mendapatkan respon dari komputer: error
. Data memiliki perilaku dan itu sangatlah khas, tidak semua perilaku data sama, sangat bergantung dengan data yang kita pegang. Harus jeli bagaimana kita mengenalinya. Bagaimana kita membacanya dan bagaimana kita berdamai dengannya. Ini harus dipelajari sebelum ke olah data. Sedikit rumit memang, tetapi itulah jerami yang saya maksud. Di dalam statistik dikala kita mendapatkan data langsung/ primer maka kita bisa lakukan validasi atas data itu. Namun dikala kita mendapatkan dari layer ke -2 atau ke-3 maka selain harus melakukan validasi data juga harus melakukan validasi sumber.
Sama dengan kehidupan sehari-hari bukan. Dikala kita mendengarkan cerita atas orang lain dari seseorang tidak bisa langsung mempercayainya. Kita harus cek dulu siapa yang ngomong ini, apa peran dia, apa motivasi dia dan kenapa dia mengatakan itu. Cerita atas orang lain ini bisa bermakna umum, jangan hanya dimaknai cerita negatif. Itu adalah proses berfikir otak kita yang sebenarnya juga berlaku di dunia data science.