EfficientDet: Ke Arah Pengesanan Objek Yang Skalabel Dan Efisien

2025 Pengarang: Ian Gardner | [email protected]. Diubah suai terakhir: 2025-06-01 06:35

Sebagai salah satu aplikasi utama dalam penglihatan komputer, pengesanan objek menjadi semakin penting dalam senario yang memerlukan ketepatan tinggi tetapi mempunyai sumber pengkomputeran yang terhad, seperti robotik dan kereta tanpa pemandu. Malangnya, banyak alat pengesan berketepatan tinggi moden tidak memenuhi had ini. Lebih penting lagi, aplikasi pengesanan objek dunia nyata berjalan di platform yang berbeza, yang sering memerlukan sumber yang berbeza.

Jadi persoalan semula jadi adalah bagaimana merancang pengesan objek yang tepat dan cekap yang juga dapat menyesuaikan diri dengan pelbagai kekangan sumber?

EfficientDet: Pengesanan Objek Skalabel dan Efisien, diadopsi pada CVPR 2020, memperkenalkan keluarga pengesan objek berskala dan efisien baru. Berdasarkan karya sebelumnya mengenai penskalaan rangkaian saraf (EfficientNet) dan menggabungkan rangkaian fungsi dua arah baru (BiFPN) dan peraturan penskalaan baru, EfficientDet mencapai ketepatan moden sementara 9 kali lebih kecil dan menggunakan pengiraan yang jauh lebih sedikit daripada pengesan moden yang diketahui. Gambar berikut menunjukkan seni bina rangkaian umum model.

Mengoptimumkan Senibina Model

Idea di sebalik EfficientDet berpunca dari usaha untuk mencari penyelesaian untuk meningkatkan kecekapan komputasi dengan memeriksa secara sistematik model pengesanan canggih sebelumnya. Secara umum, pengesan objek mempunyai tiga komponen utama: tulang belakang yang mengeluarkan ciri dari gambar tertentu; rangkaian objek yang mengambil pelbagai tahap fungsi dari tulang belakang sebagai input dan mengeluarkan senarai fungsi gabungan yang mewakili ciri khas gambar; dan rangkaian kelas / kotak terakhir yang menggunakan fungsi gabungan untuk meramalkan kelas dan lokasi setiap objek.

Setelah mengkaji pilihan reka bentuk untuk komponen ini, kami mengenal pasti beberapa pengoptimuman utama untuk meningkatkan prestasi dan kecekapan. Pengesan terdahulu kebanyakannya menggunakan ResNets, ResNeXt atau AmoebaNet sebagai tulang belakang, yang sama ada kurang kuat atau mempunyai kecekapan yang lebih rendah daripada EfficientNets. Dengan pelaksanaan awal tulang belakang EfficientNet, lebih banyak kecekapan dapat dicapai. Sebagai contoh, bermula dengan garis dasar RetinaNet yang menggunakan tulang belakang ResNet-50, kajian ablasi kami menunjukkan bahawa dengan hanya mengganti ResNet-50 dengan EfficientNet-B3 dapat meningkatkan ketepatan sebanyak 3% sambil mengurangkan pengiraan sebanyak 20%. Pengoptimuman lain adalah untuk meningkatkan kecekapan rangkaian berfungsi. Walaupun kebanyakan pengesan terdahulu hanya menggunakan Rangkaian Piramid Downlink (FPN), kami mendapati bahawa FPN hilir secara semula jadi terhad kepada aliran maklumat sehala. FPN alternatif seperti PANet menambah hulu tambahan dengan kos pengiraan tambahan.

Percubaan baru-baru ini untuk menggunakan Neural Architecture Search (NAS) telah menemui seni bina NAS-FPN yang lebih kompleks. Namun, walaupun struktur jaringan ini efektif, struktur ini juga tidak teratur dan sangat dioptimalkan untuk tugas tertentu, sehingga sukar untuk menyesuaikan diri dengan tugas lain. Untuk menyelesaikan masalah ini, kami mencadangkan rangkaian baru fungsi dua arah BiFPN, yang menerapkan idea menggabungkan fungsi multi-lapisan dari FPN / PANet / NAS-FPN, yang memungkinkan maklumat dihantar dari atas ke bawah dan dari bawah ke atas. menggunakan sambungan tetap dan berkesan.

Untuk meningkatkan kecekapan, kami mencadangkan teknik sintesis normalisasi cepat yang baru. Pendekatan tradisional biasanya memperlakukan semua input ke FPN dengan cara yang sama, walaupun pada resolusi yang berbeza. Walau bagaimanapun, kami melihat bahawa ciri input dengan resolusi yang berbeza sering menyumbang tidak sama dengan fungsi output. Oleh itu, kami menambah berat tambahan pada setiap fungsi input dan membiarkan rangkaian mempelajari kepentingan masing-masing. Kami juga akan mengganti semua konvolusi biasa dengan konvolusi yang lebih murah dan boleh dipisahkan. Dengan pengoptimuman ini, BiFPN kami meningkatkan lagi ketepatan sebanyak 4% sambil mengurangkan kos pengiraan sebanyak 50%.

Pengoptimuman ketiga melibatkan mencapai kompromi terbaik antara ketepatan dan kecekapan di bawah pelbagai kekangan sumber. Karya kami sebelumnya telah menunjukkan bahawa skala bersama kedalaman, lebar, dan resolusi rangkaian dapat meningkatkan prestasi pengecaman gambar secara signifikan. Diilhamkan oleh idea ini, kami mencadangkan kaedah penskalaan komposit baru untuk pengesan objek yang secara kolektif meningkatkan resolusi / kedalaman / lebar. Setiap komponen rangkaian, iaitu backbone, objek dan rangkaian ramalan blok / kelas, akan mempunyai satu faktor penskalaan kompleks yang mengawal semua dimensi penskalaan menggunakan aturan heuristik. Pendekatan ini memudahkan untuk menentukan bagaimana skala model dengan mengira faktor skala untuk kekangan sumber sasaran tertentu.

Dengan menggabungkan tulang belakang baru dan BiFPN, pertama-tama kami merancang garis dasar EfficientDet-D0 kecil dan kemudian menerapkan skala kompaun untuk mendapatkan EfficientDet-D1 hingga D7. Setiap model bersiri mempunyai kos pengiraan yang lebih tinggi, merangkumi pelbagai kekangan sumber dari 3 bilion FLOP hingga 300 bilion FLOPS, dan memberikan ketepatan yang lebih tinggi.

Model prestasi

Menilai EfficientDet pada set data COCO, kumpulan data rujukan yang banyak digunakan untuk pengesanan objek. EfficientDet-D7 mencapai ketepatan purata rata-rata (peta) 52.2, iaitu 1.5 mata lebih tinggi daripada model moden sebelumnya, menggunakan parameter 4 kali lebih sedikit dan pengiraan 9.4 kali lebih sedikit

Kami juga membandingkan ukuran parameter dan latensi CPU / GPU antara EfficientDet dan model sebelumnya. Dengan kekangan ketepatan yang serupa, model EfficientDet berjalan 2-4 kali lebih pantas pada GPU dan 5-11 kali lebih pantas pada pemproses daripada pengesan lain. Walaupun model EfficientDet terutama ditujukan untuk pengesanan objek, kami juga menguji keberkesanannya dalam tugas lain seperti segmentasi semantik. Untuk melaksanakan tugas segmentasi, kami sedikit mengubah EfficientDet-D4 dengan menggantikan kehilangan dan kehilangan kepala dan kepala pengesanan sambil mengekalkan tulang belakang berskala yang sama dan BiFPN. Kami membandingkan model ini dengan model segmentasi moden sebelumnya untuk Pascal VOC 2012, set data ujian segmentasi yang banyak digunakan.

Memandangkan prestasi mereka yang luar biasa, EfficientDet diharapkan dapat menjadi landasan baru untuk penyelidikan pengesanan objek masa depan dan berpotensi menjadikan model pengesanan objek yang sangat tepat berguna dalam banyak aplikasi dunia nyata. Oleh itu, buka semua titik pemecahan kod dan model pra-latihan di Github.com.

Disyorkan:

Semua Kelebihan Dan Kekurangan Xiaomi Mi Pad 4 Dan Adakah Ia Setanding Dengan IPad

Xiaomi Mi Pad 4 adalah tablet yang mempunyai prestasi tinggi dan harganya agak sedikit. Tetapi adakah ia patut mendapat perhatian pengguna dan adakah perlu? Reka bentuk Penampilan peranti itu menyenangkan, ia kelihatan cukup bagus - panel logam belakangnya laconic dan tidak meninggalkan cap jari dan bekas pada dirinya sendiri, dan oleh itu penutupnya hanya diperlukan untuk keselamatan peranti

Lenovo Phab Dan Lenovo Phab Plus: Gambaran Keseluruhan Dan Spesifikasi

Lenovo Phab Plus adalah telefon pintar, ukurannya sebanding dengan tablet kecil, mempunyai ciri teknikal yang sangat baik dan harga rendah yang berpatutan. Telefon pintar Lenovo mencapai keseimbangan yang baik antara harga dan kualiti, memberikan pengguna produk berkualiti tinggi yang berpatutan

Cara Memutar Kamera Di Sekitar Objek

Semasa membuat objek dalam editor 3D, penting untuk mempertimbangkan model dari semua sisi, untuk menentukan bagaimana ia akan kelihatan dari sudut yang berbeza. Dengan memutar kamera di sekeliling objek, anda dapat menemui kekurangan dalam masa dan memperbaikinya

Alcatel Idol 5 Dan 5s: Ulasan Dan Spesifikasi, Perbandingan Dengan Idol 4 Dan 4s

Pada tahun 2017, Alcatel sekali lagi menggembirakan pengguna dengan perantinya - idol 5 dan versi idola 5s yang lebih baik. Tetapi adakah itu bagus berbanding generasi siri sebelumnya? Untuk menjawab soalan ini, mari kita lihat ciri-ciri telefon pintar baru

Samsung Galaxy S8 Dan S8 Plus (Samsung S8 Dan S8 Plus) - Ulasan Dan Pembentangan Flagships Baru, Spesifikasi, Foto, Tarikh Pelepasan, Harga, Beli, Video

Samsung Galaxy S8 dan S8 Plus adalah generasi kelapan telefon pintar Galaxy S siri Samsung Electronics yang hebat dan hebat. Ciri Samsung Galaxy S8 dan S8 Plus Samsung Galaxy S8 dirilis bersamaan dengan S8 Plus pada 29 Mac 2017

EfficientDet: Ke Arah Pengesanan Objek Yang Skalabel Dan Efisien

Isi kandungan:

Mengoptimumkan Senibina Model

Model prestasi

Disyorkan:

Semua Kelebihan Dan Kekurangan Xiaomi Mi Pad 4 Dan Adakah Ia Setanding Dengan IPad

Lenovo Phab Dan Lenovo Phab Plus: Gambaran Keseluruhan Dan Spesifikasi

Cara Memutar Kamera Di Sekitar Objek

Alcatel Idol 5 Dan 5s: Ulasan Dan Spesifikasi, Perbandingan Dengan Idol 4 Dan 4s

Samsung Galaxy S8 Dan S8 Plus (Samsung S8 Dan S8 Plus) - Ulasan Dan Pembentangan Flagships Baru, Spesifikasi, Foto, Tarikh Pelepasan, Harga, Beli, Video

Berapakah Jangka Hayat Purata Pemacu Denyar USB

Cara Memilih Fon Kepala Permainan Yang Baik

Cara Menghidupkan Sensor

Cara Memindahkan Peta Ke Navigator

Cara Menala Saluran Satelit

Cara Menyambungkan Dua Monitor Ke Satu Kad Video

Penstabil Kamera Sederhana

Mengapa Anda Memerlukan Cermin Mata Pelindung Untuk Permukaan Telefon Pintar

Mana Yang Lebih Baik: SSD Atau HDD?

Cara Memilih Fon Kepala. Nasihat Praktikal. Bahagian 1

Cara Mengambil Gambar Kaca

Jenama Kamera Digital Mana Yang Terbaik

Cara Menambah Garisan Menjalar

Cara Menyambungkan Kamera Ke PDA

Cara Memotret Bunga