Transformator wizyjny

Transformator wizyjny (ang. vision transformer, ViT) to transformator przeznaczony do komputerowego przetwarzania obrazu^[1]. ViT rozkłada obraz wejściowy na serię fragmentów (zamiast tekstu na tokeny), mapuje każdy fragment do wektora i mapuje go na mniejszy wymiar za pomocą mnożenia macierzy^[2].

Sieci ViT zostały zaprojektowane jako alternatywa dla konwolucyjnych sieci neuronowych (CNN) w zastosowaniach przetwarzania obrazu. Różnią się one stabilnością treningu i wydajnością danych^[3]. ViT w porównaniu z CNN jest mniej wydajny pod względem przetwarzania danych, ale mają większą pojemność. Niektóre z największych współczesnych modeli komputerowego widzenia to ViT, na przykład model z 22 mld parametrów^[4]^[5].

Transformator wizyjny znalazł zastosowanie w rozpoznawaniu obrazów, wykrywaniu deepfakeów^[6], segmentacji obrazów, przewidywaniu pogody i pojazdach autonomicznych^[7]^[8].

Przypisy

↑ Neo ChristopherN.Ch. Chung Neo ChristopherN.Ch., Autoreferat , 2025 (pol.).
↑ AlexeyA. Dosovitskiy AlexeyA. i inni, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 czerwca 2021, DOI: 10.48550/arXiv.2010.11929 .
↑ MaithraM. Raghu MaithraM. i inni, Do Vision Transformers See Like Convolutional Neural Networks?, arXiv, 3 marca 2022, DOI: 10.48550/arXiv.2108.08810 .
↑ MostafaM. Dehghani MostafaM. i inni, Scaling Vision Transformers to 22 Billion Parameters, arXiv, 10 lutego 2023, DOI: 10.48550/arXiv.2302.05442 .
↑ Scaling vision transformers to 22 billion parameters , research.google (ang.).
↑ DavideD. Coccomini DavideD. i inni, Combining EfficientNet and Vision Transformers for Video Deepfake Detection, arXiv, 20 stycznia 2022, DOI: 10.48550/arXiv.2107.02612 .
↑ KaiK. Han KaiK. i inni, A Survey on Vision Transformer, „IEEE Transactions on Pattern Analysis and Machine Intelligence”, 45 (1), 2023, s. 87–110, DOI: 10.1109/TPAMI.2022.3152247, ISSN 1939-3539 .
↑ SalmanS. Khan SalmanS. i inni, Transformers in Vision: A Survey, „ACM Comput. Surv.”, 54 (10s), 2022, 200:1–200:41, DOI: 10.1145/3505244, ISSN 0360-0300 .

[1] Neo ChristopherN.Ch. Chung Neo ChristopherN.Ch., Autoreferat , 2025 (pol.).

[2] AlexeyA. Dosovitskiy AlexeyA. i inni, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 czerwca 2021, DOI: 10.48550/arXiv.2010.11929 .

[3] MaithraM. Raghu MaithraM. i inni, Do Vision Transformers See Like Convolutional Neural Networks?, arXiv, 3 marca 2022, DOI: 10.48550/arXiv.2108.08810 .

[4] MostafaM. Dehghani MostafaM. i inni, Scaling Vision Transformers to 22 Billion Parameters, arXiv, 10 lutego 2023, DOI: 10.48550/arXiv.2302.05442 .

[5] Scaling vision transformers to 22 billion parameters , research.google (ang.).

[6] DavideD. Coccomini DavideD. i inni, Combining EfficientNet and Vision Transformers for Video Deepfake Detection, arXiv, 20 stycznia 2022, DOI: 10.48550/arXiv.2107.02612 .

[7] KaiK. Han KaiK. i inni, A Survey on Vision Transformer, „IEEE Transactions on Pattern Analysis and Machine Intelligence”, 45 (1), 2023, s. 87–110, DOI: 10.1109/TPAMI.2022.3152247, ISSN 1939-3539 .

[8] SalmanS. Khan SalmanS. i inni, Transformers in Vision: A Survey, „ACM Comput. Surv.”, 54 (10s), 2022, 200:1–200:41, DOI: 10.1145/3505244, ISSN 0360-0300 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]