Mengajari mesin mengenali obyek foto

Saya meyakini bahwa memahami memiliki satuan waktu. Artinya adalah untuk bisa paham atas sesuatu itu membutuhkan waktu, bolak-balik belajar dan pada akhirnya mengatakan: ternyata seperti ini. Dan sebenarnya itu adalah prinsip dasar bagaimana otak manusia bekerja yang banyak dipelajari di neuroscience. Satu obyek yang sama, katakanlah burung, akan diterima oleh otak manusia secara beragam. Seseorang, sebut saja A, akan mengidentifikasi berdasarkan warnanya sedangkan si B mengenalinya berdasarkan bentuk. Satu obyek yang sama namun akan ditangkap berbeda oleh 2 orang yang tidak sama. Kemudian dikala kembali melihat gambar burung itu akan mendapatkan ‘experience’ yang berbeda. Prinsip-prinsip itu yang kemudian akan kita terapkan di dalam mesin digital.

Sebuah mesin, kita latih untuk mengenali suatu obyek. Caranya adalah dengan mengumpulkan berbagai foto hewan kemudian kita memberikan label atas foto-foto itu. Label A untuk gambar burung, label B untuk gambar anjing, dan label C untuk gambar monyet. Itu hanya contoh saja, dimana setiap label memiliki ratusan hingga ribuan contoh sampel foto. Foto untuk label A sebanyak 1.000 gambar, begitupula untuk label B dan C. Jadi total ada 3.000 foto. Kita ajari si mesin untuk mengenal bahwa A adalah burung, B adalah anjing dan C adalah monyet. Ini yang selanjutnya disebut sebagai data training. Semakin banyak data training akan semakin pintar komputer mengenali obyek.

Setelah dirasa semakin pintar mesin mengenali obyek yang ditunjukkan oleh nilai akurasi maka tahap selanjutnya adalah menggunakannya. Dari puluhan hingga ratusan foto-foto baru akan kita masukkan dalam kotak folder tertentu dan membiarkan mesin tadi membaca kemudian mengklasifikasikan mana yang termasuk foto burung, foto anjing dan foto monyet. Dikala ada foto lain, misalnya adalah gajah, maka akan dimasukkan ke dalam kotak berbeda: unidentified. Semuanya dilakukan secara otomatis dalam rentang waktu tertentu. Semakin banyak obyek semakin lama waktu yang dibutuhkan.

Untuk apa? – jawabannya ada di paragraf di atas, mengklasifikasikan. Selanjutnya untuk apa dikala kita bisa mengklasifikasikan foto binatang itu? – itu hanyalah contoh saja. Dalam aplikasinya bisa untuk obyek yang lain misalnya saja untuk land cover classification, dengan memanfaatkan perbedaan warna pixel citra satelit, kita bisa identifikasi: ini lho sawah, itu lho hutan, dan lain-lain. Setelahnya perlu dilakukan verifikasi lapangan mengenai akurasinya. Lagi-lagi itu hanyalah contoh saja bagaimana kita menggunakan mesin digital tadi.

Tidak berhenti disitu, beberapa ahli geoscience memanfaatkan teknologi serupa untuk memisahkan rumah berdasarkan kualitasnya, bahkan ada juga berdasarkan umurnya. Kualitas rumah yang dimaksud dari riset terdahulu adalah untuk building damage assessment, misalnya saja, pasca terjadi bencana. Bagaimana kerusakannya? Kita terjunkan mobil atau motor yang dilengkapi kamera 360° seperti punyanya google kemudian kita bisa lakukan klasifikasi. Buat data training kemudian digunakan untuk mengestimasi kerusakan bangunan lain. Tahap ini bisa dilakukan untuk menghemat waktu dan tentu sangat aplikatif untuk berbagai tempat asalkan ada fotonya.

Kembali ke quote ‘memahami memiliki satuan waktu’. Sebuah machine, dia juga membutuhkan waktu untuk belajar melalui data training tadi. Semakin banyak training yang dilakukan akan semakin presisi pekerjaan klasifikasi data tadi. Namun ada konsekuensi waktu, banyak latihan akan membutuhkan banyak waktu juga dan itulah kenapa memahami memiliki satuan waktu.