Transformator wizyjny

W dzisiejszym świecie Transformator wizyjny staje się coraz ważniejszy w różnych obszarach. Niezależnie od tego, czy chodzi o technologię, politykę, kulturę czy jakikolwiek inny aspekt życia codziennego, Transformator wizyjny stał się istotnym tematem, który przyciąga uwagę i zainteresowanie dużej liczby ludzi na całym świecie. Od wpływu na społeczeństwo po konsekwencje dla przyszłości, Transformator wizyjny stał się źródłem debaty i refleksji, generując niekończące się opinie i perspektywy. W tym artykule szczegółowo przeanalizujemy znaczenie Transformator wizyjny i jego wpływ na naszą obecną rzeczywistość.

Architektura transformatora wizyjnego. Obraz wejściowy jest dzielony na fragmenty, z których każdy jest liniowo mapowany poprzez warstwę osadzania fragmentów, zanim trafi do kodera transformatora.

Transformator wizyjny (ang. vision transformer, ViT) to transformator przeznaczony do komputerowego przetwarzania obrazu[1]. ViT rozkłada obraz wejściowy na serię fragmentów (zamiast tekstu na tokeny), mapuje każdy fragment do wektora i mapuje go na mniejszy wymiar za pomocą mnożenia macierzy[2].

Sieci ViT zostały zaprojektowane jako alternatywa dla konwolucyjnych sieci neuronowych (CNN) w zastosowaniach przetwarzania obrazu. Różnią się one stabilnością treningu i wydajnością danych[3]. ViT w porównaniu z CNN jest mniej wydajny pod względem przetwarzania danych, ale mają większą pojemność. Niektóre z największych współczesnych modeli komputerowego widzenia to ViT, na przykład model z 22 mld parametrów[4][5].

Transformator wizyjny znalazł zastosowanie w rozpoznawaniu obrazów, wykrywaniu deepfakeów[6], segmentacji obrazów, przewidywaniu pogody i pojazdach autonomicznych[7][8].

Przypisy

  1. Neo Christopher Chung, Autoreferat , 2025 (pol.).
  2. Alexey Dosovitskiy i inni, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 czerwca 2021, DOI10.48550/arXiv.2010.11929 .
  3. Maithra Raghu i inni, Do Vision Transformers See Like Convolutional Neural Networks?, arXiv, 3 marca 2022, DOI10.48550/arXiv.2108.08810 .
  4. Mostafa Dehghani i inni, Scaling Vision Transformers to 22 Billion Parameters, arXiv, 10 lutego 2023, DOI10.48550/arXiv.2302.05442 .
  5. Scaling vision transformers to 22 billion parameters , research.google (ang.).
  6. Davide Coccomini i inni, Combining EfficientNet and Vision Transformers for Video Deepfake Detection, arXiv, 20 stycznia 2022, DOI10.48550/arXiv.2107.02612 .
  7. Kai Han i inni, A Survey on Vision Transformer, „IEEE Transactions on Pattern Analysis and Machine Intelligence”, 45 (1), 2023, s. 87–110, DOI10.1109/TPAMI.2022.3152247, ISSN 1939-3539 .
  8. Salman Khan i inni, Transformers in Vision: A Survey, „ACM Comput. Surv.”, 54 (10s), 2022, 200:1–200:41, DOI10.1145/3505244, ISSN 0360-0300 .