📑 Table of Contents
VGGNet
PengembangVisual Geometry Group
Rilis awalSeptember 4, 2014; 11 tahun lalu (2014-09-04)
Templat:Kotak info perangkat lunak/simple
Ditulis dalamCaffe
JenisJaringan saraf konvolusional
LisensiCC BY 4.0
Situs webwww.robots.ox.ac.uk/~vgg/research/very_deep/
Arsitektur modul VGG dibandingkan dengan arsitektur AlexNet .

VGGNet adalah serangkaian jaringan saraf konvolusional yang dikembangkan oleh Visual Geometry Group (VGG) Universitas Oxford.

Keluarga arsitektur VGG terdiri dari berbagai konfigurasi dengan kedalaman (depth) yang bervariasi. Setiap seri dalam keluarga ini dilambangkan dengan huruf "VGG" yang diikuti oleh jumlah lapisan pembobotnya. VGG-16 dan VGG-19 merupakan varian yang paling umum digunakan. VGG-16 terdiri dari 13 lapisan konvolusi dan 3 lapisan fully connected dengan total 138 juta parameter, sedangkan VGG-19 memiliki 16 lapisan konvolusi dan 3 lapisan fully connected dengan total 144 juta parameter.[1]

Keluarga arsitektur VGG telah banyak diimplementasikan dalam berbagai bidang visi komputer.[2] Model ensemble VGGNet berhasil mencapai hasil terbaik dalam ImageNet Large Scale Visual Recognition Challenge (ILSVRC) pada tahun 2014.[1][3] Selain itu, VGG sering digunakan sebagai arsitektur dasar (baseline) dalam berbagai penelitian, seperti pada makalah ResNet untuk klasifikasi citra,[4] sebagai tulang punggung (backbone) dalam Fast Region-based CNN untuk deteksi objek, dan sebagai model dasar dalam teknik transfer gaya neural.

Secara historis, seri VGG memiliki signifikansi besar sebagai arsitektur awal yang dirancang dengan menyusun modul-modul konvolusional yang berulang dan generik, sedangkan AlexNet (2012) yang dibangun dengan konfigurasi yang lebih spesifik. Inovasi utamanya terletak pada penggunaan kernel berukuran kecil (3x3) secara konsisten di semua lapisan konvolusi, berbeda dengan model sebelumnya yang menggunakan kernel besar (seperti 11x11 pada AlexNet). Strategi ini terbukti sangat efektif dalam meningkatkan kedalaman jaringan hingga akhirnya arsitektur ini mulai ditinjau kembali dan disempurnakan melalui model ConvNeXt (2022).[5][6]

VGGNet kemudian baru menjadi usang dengan adanya Inception, ResNet, dan DenseNet. Adapun RepVGG (2021) adalah versi terbaru dari arsitektur ini.[7]

Arsitektur

sunting
Arsitektur Network-in-Network (NiN) dibandingkan dengan arsitektur VGG. Arsitektur Network in Network (2013) [8] adalah CNN yang lebih awal. Arsitektur ini mengubah arsitektur AlexNet dengan menambahkan konvolusi 1x1, dan menggunakan global average pooling setelah konvolusi terakhir.

Prinsip arsitektur utama model VGG adalah penggunaan filter konvolusi berukuran kecil yang konsisten di seluruh jaringan. Pendekatan ini berbeda dengan arsitektur CNN sebelumnya yang menggunakan filter yang lebih besar, seperti di AlexNet.[6]

Sebagai contoh, dua lapisan konvolusi berukuran yang ditumpuk bersama memiliki bidang reseptif yang setara dengan satu lapisan konvolusi berukuran . Namun, efisiensi parameternya sangat berbeda, sebab satu lapisan memerlukan parameter, sedangkan dua lapisan hanya membutuhkan parameter (dengan adalah jumlah kanal masukan dan luaran). Publikasi asli VGG membuktikan bahwa CNN yang lebih dalam dan sempit secara signifikan mengungguli CNN yang dangkal dan lebar dalam menangkap representasi fitur yang kompleks.[6]

Seri model VGG merupakan arsitektur jaringan saraf dalam (deep neural networks) yang dirancang dengan menyusun modul-modul konvolusional generik secara berulang:

  1. Modul konvolusi: Menggunakan filter konvolusi berukuran dengan langkah (stride) 1 yang diikuti oleh aktivasi ReLU.
  2. Lapisan max-pooling: Setelah beberapa modul konvolusi, lapisan max-pooling dengan filter dan langkah 2 untuk melakukan downsampling pada peta fitur asli. Hasilnya, lebar dan tinggi dikurangi setengahnya, tetapi jumlah channel tetap dipertahankan.
  3. Lapisan fully connected: Tiga lapisan terhubung penuh di ujung jaringan, dengan ukuran 4096-4096-1000. Lapisan terakhir memiliki 1000 saluran yang sesuai dengan 1000 kelas di ImageNet.
  4. Lapisan Softmax: Lapisan Softmax menghasilkan distribusi probabilitas atas kelas-kelas tersebut.

Keluarga arsitektur VGG terdiri dari berbagai konfigurasi dengan kedalaman (depth) yang bervariasi. Setiap seri dalam keluarga ini dilambangkan dengan huruf "VGG" yang diikuti oleh jumlah lapisan pembobotnya. VGG-16 dan VGG-19 merupakan varian yang paling umum digunakan. VGG-16 terdiri dari 13 lapisan konvolusi dan 3 lapisan fully connected dengan total 138 juta parameter, sedangkan VGG-19 memiliki 16 lapisan konvolusi dan 3 lapisan fully connected dengan total 144 juta parameter, yang dilambangkan sebagai konfigurasi D dan E dalam makalah aslinya.[9]

Sebagai contoh, 16 lapisan konvolusi VGG-19 disusun sebagai berikut: dengan panah artinya konvolusi 3x3 dengan saluran masukan dan saluran luaran dan langkah (stride) 1 dan diikuti oleh aktivasi ReLU. The artinya lapisan down-sampling dengan maxpooling 2x2 dengan langkah 2.

Tabel model VGG
Nama Jumlah lapisan konvolusi Jumlah lapisan fully connected Jumlah parameter
VGG-16 13 3 138 juta
VGG-19 16 3 144 juta

Pelatihan

sunting

Model VGG asli diimplementasikan dalam versi C++ Caffe yang telah dimodifikasi untuk pelatihan dan evaluasi multi-GPU dengan teknik paralelisme data. Pada sistem yang dilengkapi dengan 4 unit GPU NVIDIA Titan Black, pelatihan satu model jaringan membutuhkan waktu 2–3 minggu, tergantung pada arsitekturnya.[1]

Referensi

sunting
  1. ^ a b c Simonyan, Karen; Zisserman, Andrew (2015-04-10), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556
  2. ^ Dhillon, Anamika; Verma, Gyanendra K. (2020-06-01). "Convolutional neural network: a review of models, methodologies and applications to object detection". Progress in Artificial Intelligence (dalam bahasa Inggris). 9 (2): 85–112. doi:10.1007/s13748-019-00203-0. ISSN 2192-6360.
  3. ^ "ILSVRC2014 Results". image-net.org. Diakses tanggal 2024-09-06.
  4. ^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). hlm. 770–778. arXiv:1512.03385. Bibcode:2016cvpr.confE...1H. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  5. ^ Liu, Zhuang; Mao, Hanzi; Wu, Chao-Yuan; Feichtenhofer, Christoph; Darrell, Trevor; Xie, Saining (2022). "A ConvNet for the 2020s". 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 11976–11986. arXiv:2201.03545. doi:10.1109/CVPR52688.2022.01167. ISBN 978-1-6654-6946-3.
  6. ^ a b c Zhang, Aston; Lipton, Zachary; Li, Mu; Smola, Alexander J. (2024). "8.2. Networks Using Blocks (VGG)". Dive into deep learning. Cambridge New York Port Melbourne New Delhi Singapore: Cambridge University Press. ISBN 978-1-009-38943-3.
  7. ^ Ding, Xiaohan; Zhang, Xiangyu; Ma, Ningning; Han, Jungong; Ding, Guiguang; Sun, Jian (2021). "RepVGG: Making VGG-style ConvNets Great Again". 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (dalam bahasa Inggris). hlm. 13733–13742. arXiv:2101.03697. doi:10.1109/CVPR46437.2021.01352. ISBN 978-1-6654-4509-2.
  8. ^ Lin, Min; Chen, Qiang; Yan, Shuicheng (2013). "Network In Network". arΧiv:1312.4400 [cs.NE]. 
  9. ^ "Very Deep Convolutional Networks for Large-Scale Visual Recognition". Computer Vision group from the University of Oxford. Diakses tanggal 2024-09-06.

📚 Artikel Terkait di Wikipedia

Tangga nada kromatis

Piston (1987) A chromatic scale is a nondiatonic scale consisting entirely of half-step intervals. Since each tone of the scale is equidistant from the

Alam semesta

OCLC 1193067111. Brill, Dieter; Jacobsen, Ted (2006). "Spacetime and Euclidean geometry". General Relativity and Gravitation. 38 (4): 643–651. arXiv:gr-qc/0407022

Optika geometris

dikembangkan oleh Stephen Hawking dan George F.R. Ellis dalam buku The large scale structure of space-time. Refleksi atau pantulan cahaya terbagi menjadi 2

Visi komputer

ISBN 978-3-540-67754-3. Richard Hartley and Andrew Zisserman (2003). Multiple View Geometry in Computer Vision. Cambridge University Press. ISBN 978-0-521-54051-3

Daftar pesawat eksperimental

System de Havilland Canada C-8A Augmentor Wing Marsden Gemini - variable-geometry glider NRC tailless glider - tailless flying wing UTIAS Ornithopter No

Persamaan medan Einstein

Wheeler (1973), hlm. 916 [ch. 34]. Carroll, Sean (2004). Spacetime and Geometry – An Introduction to General Relativity. hlm. 151–159. ISBN 0-8053-8732-3

Stephen Hawking

kosmologi pada Maret 1966; dan esainya yang berjudul "Singularities and the Geometry of Space-Time" dan esai Penrose sama-sama memenangi Adams Prize. Dalam

Matematika dan arsitektur

Iasef Md; Park, Jin-Ho; Ahn, Hyung Uk; Chang, Dongkuk (2007). "Fractal geometry as the synthesis of Hindu cosmology in Kandariya Mahadev temple, Khajuraho"