EfficientDet: Ke Arah Pengesanan Objek Yang Skalabel Dan Efisien

Isi kandungan:

EfficientDet: Ke Arah Pengesanan Objek Yang Skalabel Dan Efisien
EfficientDet: Ke Arah Pengesanan Objek Yang Skalabel Dan Efisien

Video: EfficientDet: Ke Arah Pengesanan Objek Yang Skalabel Dan Efisien

Video: EfficientDet: Ke Arah Pengesanan Objek Yang Skalabel Dan Efisien
Video: [DeepReader] EfficientDet: Scalable and Efficient Object Detection 2024, November
Anonim

Sebagai salah satu aplikasi utama dalam penglihatan komputer, pengesanan objek menjadi semakin penting dalam senario yang memerlukan ketepatan tinggi tetapi mempunyai sumber pengkomputeran yang terhad, seperti robotik dan kereta tanpa pemandu. Malangnya, banyak alat pengesan berketepatan tinggi moden tidak memenuhi had ini. Lebih penting lagi, aplikasi pengesanan objek dunia nyata berjalan di platform yang berbeza, yang sering memerlukan sumber yang berbeza.

Pengesanan objek yang berskala dan cekap
Pengesanan objek yang berskala dan cekap

Jadi persoalan semula jadi adalah bagaimana merancang pengesan objek yang tepat dan cekap yang juga dapat menyesuaikan diri dengan pelbagai kekangan sumber?

EfficientDet: Pengesanan Objek Skalabel dan Efisien, diadopsi pada CVPR 2020, memperkenalkan keluarga pengesan objek berskala dan efisien baru. Berdasarkan karya sebelumnya mengenai penskalaan rangkaian saraf (EfficientNet) dan menggabungkan rangkaian fungsi dua arah baru (BiFPN) dan peraturan penskalaan baru, EfficientDet mencapai ketepatan moden sementara 9 kali lebih kecil dan menggunakan pengiraan yang jauh lebih sedikit daripada pengesan moden yang diketahui. Gambar berikut menunjukkan seni bina rangkaian umum model.

Imej
Imej

Mengoptimumkan Senibina Model

Idea di sebalik EfficientDet berpunca dari usaha untuk mencari penyelesaian untuk meningkatkan kecekapan komputasi dengan memeriksa secara sistematik model pengesanan canggih sebelumnya. Secara umum, pengesan objek mempunyai tiga komponen utama: tulang belakang yang mengeluarkan ciri dari gambar tertentu; rangkaian objek yang mengambil pelbagai tahap fungsi dari tulang belakang sebagai input dan mengeluarkan senarai fungsi gabungan yang mewakili ciri khas gambar; dan rangkaian kelas / kotak terakhir yang menggunakan fungsi gabungan untuk meramalkan kelas dan lokasi setiap objek.

Setelah mengkaji pilihan reka bentuk untuk komponen ini, kami mengenal pasti beberapa pengoptimuman utama untuk meningkatkan prestasi dan kecekapan. Pengesan terdahulu kebanyakannya menggunakan ResNets, ResNeXt atau AmoebaNet sebagai tulang belakang, yang sama ada kurang kuat atau mempunyai kecekapan yang lebih rendah daripada EfficientNets. Dengan pelaksanaan awal tulang belakang EfficientNet, lebih banyak kecekapan dapat dicapai. Sebagai contoh, bermula dengan garis dasar RetinaNet yang menggunakan tulang belakang ResNet-50, kajian ablasi kami menunjukkan bahawa dengan hanya mengganti ResNet-50 dengan EfficientNet-B3 dapat meningkatkan ketepatan sebanyak 3% sambil mengurangkan pengiraan sebanyak 20%. Pengoptimuman lain adalah untuk meningkatkan kecekapan rangkaian berfungsi. Walaupun kebanyakan pengesan terdahulu hanya menggunakan Rangkaian Piramid Downlink (FPN), kami mendapati bahawa FPN hilir secara semula jadi terhad kepada aliran maklumat sehala. FPN alternatif seperti PANet menambah hulu tambahan dengan kos pengiraan tambahan.

Percubaan baru-baru ini untuk menggunakan Neural Architecture Search (NAS) telah menemui seni bina NAS-FPN yang lebih kompleks. Namun, walaupun struktur jaringan ini efektif, struktur ini juga tidak teratur dan sangat dioptimalkan untuk tugas tertentu, sehingga sukar untuk menyesuaikan diri dengan tugas lain. Untuk menyelesaikan masalah ini, kami mencadangkan rangkaian baru fungsi dua arah BiFPN, yang menerapkan idea menggabungkan fungsi multi-lapisan dari FPN / PANet / NAS-FPN, yang memungkinkan maklumat dihantar dari atas ke bawah dan dari bawah ke atas. menggunakan sambungan tetap dan berkesan.

Imej
Imej

Untuk meningkatkan kecekapan, kami mencadangkan teknik sintesis normalisasi cepat yang baru. Pendekatan tradisional biasanya memperlakukan semua input ke FPN dengan cara yang sama, walaupun pada resolusi yang berbeza. Walau bagaimanapun, kami melihat bahawa ciri input dengan resolusi yang berbeza sering menyumbang tidak sama dengan fungsi output. Oleh itu, kami menambah berat tambahan pada setiap fungsi input dan membiarkan rangkaian mempelajari kepentingan masing-masing. Kami juga akan mengganti semua konvolusi biasa dengan konvolusi yang lebih murah dan boleh dipisahkan. Dengan pengoptimuman ini, BiFPN kami meningkatkan lagi ketepatan sebanyak 4% sambil mengurangkan kos pengiraan sebanyak 50%.

Pengoptimuman ketiga melibatkan mencapai kompromi terbaik antara ketepatan dan kecekapan di bawah pelbagai kekangan sumber. Karya kami sebelumnya telah menunjukkan bahawa skala bersama kedalaman, lebar, dan resolusi rangkaian dapat meningkatkan prestasi pengecaman gambar secara signifikan. Diilhamkan oleh idea ini, kami mencadangkan kaedah penskalaan komposit baru untuk pengesan objek yang secara kolektif meningkatkan resolusi / kedalaman / lebar. Setiap komponen rangkaian, iaitu backbone, objek dan rangkaian ramalan blok / kelas, akan mempunyai satu faktor penskalaan kompleks yang mengawal semua dimensi penskalaan menggunakan aturan heuristik. Pendekatan ini memudahkan untuk menentukan bagaimana skala model dengan mengira faktor skala untuk kekangan sumber sasaran tertentu.

Dengan menggabungkan tulang belakang baru dan BiFPN, pertama-tama kami merancang garis dasar EfficientDet-D0 kecil dan kemudian menerapkan skala kompaun untuk mendapatkan EfficientDet-D1 hingga D7. Setiap model bersiri mempunyai kos pengiraan yang lebih tinggi, merangkumi pelbagai kekangan sumber dari 3 bilion FLOP hingga 300 bilion FLOPS, dan memberikan ketepatan yang lebih tinggi.

Model prestasi

Menilai EfficientDet pada set data COCO, kumpulan data rujukan yang banyak digunakan untuk pengesanan objek. EfficientDet-D7 mencapai ketepatan purata rata-rata (peta) 52.2, iaitu 1.5 mata lebih tinggi daripada model moden sebelumnya, menggunakan parameter 4 kali lebih sedikit dan pengiraan 9.4 kali lebih sedikit

Imej
Imej

Kami juga membandingkan ukuran parameter dan latensi CPU / GPU antara EfficientDet dan model sebelumnya. Dengan kekangan ketepatan yang serupa, model EfficientDet berjalan 2–4 kali lebih pantas pada GPU dan 5–11 kali lebih pantas pada pemproses daripada pengesan lain. Walaupun model EfficientDet terutama ditujukan untuk pengesanan objek, kami juga menguji keberkesanannya dalam tugas lain seperti segmentasi semantik. Untuk melaksanakan tugas segmentasi, kami sedikit mengubah EfficientDet-D4 dengan menggantikan kehilangan dan kehilangan kepala dan kepala pengesanan sambil mengekalkan tulang belakang berskala yang sama dan BiFPN. Kami membandingkan model ini dengan model segmentasi moden sebelumnya untuk Pascal VOC 2012, set data ujian segmentasi yang banyak digunakan.

Imej
Imej

Memandangkan prestasi mereka yang luar biasa, EfficientDet diharapkan dapat menjadi landasan baru untuk penyelidikan pengesanan objek masa depan dan berpotensi menjadikan model pengesanan objek yang sangat tepat berguna dalam banyak aplikasi dunia nyata. Oleh itu, buka semua titik pemecahan kod dan model pra-latihan di Github.com.

Disyorkan: