Kisah di Balik Object Detection: Dari R-CNN Lambat hingga YOLO Super Cepat


Posted on Friday, 26 September 2025 By Yanuar Taruna Lutfi
Article Image

Pernah bertanya-tanya bagaimana mobil otonom bisa 'melihat' jalan atau bagaimana fitur tag di media sosial bisa mengenali wajah teman Anda? Di balik semua itu, ada teknologi canggih bernama deteksi objek (object detection), sebuah tugas fundamental dalam computer vision untuk mengidentifikasi sekaligus menemukan lokasi objek di dalam gambar.

Metode-metode awal terbilang sangat tidak efisien, seperti harus memeriksa setiap potongan gambar satu per satu. Namun, hal ini memicu lahirnya serangkaian inovasi luar biasa. Artikel ini akan mengajak Anda menelusuri evolusi deteksi objek—dari keluarga R-CNN yang sangat akurat namun lambat, hingga kemunculan YOLO yang mengubah segalanya dengan kecepatan deteksi real-time. Mari kita bedah perjalanan menarik ini!
 

Era R-CNN: Awal Pendekatan Two-Stage

1. R-CNN (Regions with CNN features)

Model R-CNN (Girshick et al., 2014) menjadi terobosan besar dengan menggabungkan dua teknik utama: region proposal dan Convolutional Neural Network (CNN).

  • Region Proposal: Pertama, R-CNN menggunakan algoritma bernama Selective Search untuk mengidentifikasi sekitar 2.000 area potensial dalam gambar yang kemungkinan besar berisi objek. Area ini disebut Region of Interest (RoI).
  • Feature Extraction & Classification: Selanjutnya, setiap dari 2.000 RoI tersebut "diumpankan" satu per satu ke sebuah Convolutional Neural Network (CNN). Tugas CNN adalah mengekstrak fitur-fitur penting dari setiap area, yang kemudian digunakan untuk mengklasifikasikan objek (misalnya, "ini kucing," "ini mobil") dan memperbaiki posisi kotak pembatas (bounding box) agar lebih presisi.
     

Perkembangan: Menuju Efisiensi dengan Fast & Faster R-CNN

Menyadari R-CNN sangat lambat, inovasi selanjutnya berfokus pada peningkatan kecepatan tanpa mengorbankan akurasi.

1. Fast R-CNN (Girshick, 2015)

Fast R-CNN mengatasi bottleneck R-CNN dengan dua perbaikan utama:

  • Shared CNN: Menyadari R-CNN sangat lambat, inovasi selanjutnya berfokus pada peningkatan kecepatan tanpa mengorbankan akurasi.
  • RoI Pooling Layer: Untuk mengatasi masalah RoI yang ukurannya berbeda-beda di feature map, diperkenalkanlah lapisan RoI Pooling. Tugasnya adalah mengubah setiap RoI menjadi output berukuran tetap yang siap diproses lebih lanjut untuk klasifikasi dan perbaikan bounding box secara bersamaan.

Dengan dua perbaikan ini, Fast R-CNN menjadi jauh lebih cepat dari pendahulunya.

2. Faster R-CNN (Ren et al., 2015)

Faster R-CNN mengambil langkah lebih jauh dengan menghilangkan ketergantungan pada algoritma eksternal (Selective Search) yang masih lambat.

  • Region Proposal Network (RPN): RPN adalah sebuah jaringan saraf kecil yang diintegrasikan langsung ke dalam arsitektur utama. RPN "belajar" untuk memindai feature map dan secara efisien mengusulkan area mana saja yang berpotensi berisi objek, lengkap dengan skor kepercayaannya.
  • Single, Unified Network: Dengan adanya RPN, seluruh proses deteksi—mulai dari pembuatan proposal, ekstraksi fitur, klasifikasi, hingga regresi bounding box—terintegrasi ke dalam satu jaringan tunggal yang bisa dilatih secara end-to-end.

Inovasi ini menjadikan Faster R-CNN sebagai arsitektur two-stage yang paling dominan dan efisien pada masanya.

Peralihan Paradigma: You Only Look Once (YOLO)

Saat model R-CNN terus disempurnakan, YOLO hadir sebagai sebuah revolusi yang mengubah total cara pandang terhadap deteksi objek. Model ini menggeser paradigma dari pendekatan two-stage yang kompleks menjadi single-stage yang sangat efisien.

 

1. Konsep Dasar YOLO

Alih-alih mencari proposal wilayah terlebih dahulu, YOLO memperlakukan deteksi objek sebagai satu masalah regresi tunggal. Artinya, model ini menebak posisi dan kelas objek secara langsung dalam satu kali lihat.

Cara kerjanya dapat dipecah menjadi beberapa konsep kunci:

  • Grid System: YOLO membagi gambar menjadi sebuah grid S×S. Setiap sel dalam grid ini bertanggung jawab untuk mendeteksi objek yang titik pusatnya berada di area tersebut.
  • Prediksi Tunggal: Dalam satu kali proses (forward pass), setiap sel secara bersamaan memprediksi tiga hal: posisi bounding box, confidence score (keyakinan adanya objek), dan probabilitas kelas objek.
  • Output Tensor: Dalam satu kali proses (forward pass), setiap sel secara bersamaan memprediksi tiga hal: posisi bounding box, confidence score (keyakinan adanya objek), dan probabilitas kelas objek.

Perbandingan Kinerja: Kecepatan vs Akurasi

Evolusi dari R-CNN hingga YOLO menunjukkan adanya pertukaran (trade-off) antara kecepatan dan akurasi. Kinerja ini biasanya diukur menggunakan mAP (mean Average Precision) untuk akurasi dan FPS (Frames Per Second) untuk kecepatan.

Model Kecepatan (FPS) Akurasi (mAP) Keterangan

R-CNN

Sangat Lambat (~0.05 FPS)

Tinggi (~66%)

Akurat, namun tidak praktis untuk aplikasi real-time.

Fast R-CNN

Lambat (~0.5 FPS)

Tinggi

Peningkatan kecepatan yang signifikan dari R-CNN.

Faster R-CNN

Cukup Cepat (~5 FPS)

Tinggi

Menjadi standar arsitektur two-stage yang seimbang.

YOLOv1

Sangat Cepat (45 FPS)

Sedikit Lebih Rendah (~63%)

Mengubah permainan dengan kecepatan real-time.


Kesimpulan dan Aplikasi Praktis

Evolusi dari R-CNN hingga YOLO menunjukkan sebuah tren yang jelas dalam computer vision: pergeseran dari model yang fokus pada akurasi ekstrem menuju model yang menyeimbangkan akurasi dengan efisiensi untuk kebutuhan aplikasi real-time.

Setiap pendekatan kini memiliki perannya masing-masing:

  • Pendekatan Two-Stage (Contoh: Faster R-CNN) Masih menjadi pilihan utama untuk aplikasi yang menuntut akurasi maksimal dan kecepatan bukan prioritas utama. Contohnya seperti analisis citra medis untuk mendeteksi penyakit atau dalam penelitian ilmiah.
  • Pendekatan Single-Stage (Contoh: YOLO) Mendominasi aplikasi yang membutuhkan deteksi secepat kilat. Contohnya termasuk pada mobil otonom (autonomous driving), sistem pengawasan (surveillance), dan smart retail.

Perjalanan ini membuktikan bahwa inovasi tidak hanya tentang akurasi, tetapi juga tentang efisiensi komputasi yang membuka pintu untuk aplikasi-aplikasi canggih yang sebelumnya tidak mungkin.


Referensi

  • Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
  • Girshick, R. (2015). Fast R-CNN. Proceedings of the IEEE International Conference on Computer Vision (ICCV).
  • Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
  • Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. Proceedings of the Neural Information Processing Systems (NIPS).

Tags:

Rekomendasi Pelatihan Lainnya

Deskripsi Gambar

Lembaga Pelatihan dan Sertfikasi IT


Alamat

Jalan Cipaganti No.95 Pasteur, Kecamatan Sukajadi, Bandung, Jawa Barat


Jam Operasional

Senin - Jumat : 08.00 - 17.00 WIB



Ikuti Kami