Machine learningDeep Learning, State Space Models

Vision Mamba

Vision Mamba és un enfocament eficient basat en models d'espai d'estats per a la comprensió d'imatges, introduït el 2024, que adapta Mamba, un model de seqüència de complexitat lineal, a la visió per computador. En reformular els tokens d'imatge com a seqüències i utilitzar models d'espai d'estats, Vision Mamba aconsegueix una precisió competitiva amb els transformers, mantenint alhora una complexitat computacional lineal.

Obre a MethodMindAviatVídeoAviatDownload slides

Llegeix el mètode complet

Només per a membres

Inicia la sessió amb un compte gratuït per llegir aquesta secció.

Inicia la sessió

Method map

The neighbourhood of related methods — select a node to explore.

Vision Mamba

Mamba (Model d'Espai d'E…Xarxes Convolucionals de…Swin Transformer Vision Transformer DETR (Detection Transfor…N-BEATSx

Fonts

Zhu, L., Liao, B., Zhang, Q., Wang, X., Liu, W., & Wang, X. (2024). Vision Mamba: Efficient state space models for image understanding. In International Conference on Machine Learning. link ↗

Com citar aquesta pàgina

ScholarGate. (2026, June 3). Vision Mamba: Efficient State Space Models for Image Understanding. ScholarGate. https://scholargate.app/ca/deep-learning/vision-mamba