Eine stille Revolution und ein neuer wilder Westen bei ComputerVision

Es scheint, dass es mit Computer Vision bereits eine Revolution gegeben hat. Im Jahr 2012 wurden Algorithmen ausgelöst, die auf Faltungs-Neuronalen Netzen basieren . Ab 2014 erreichten sie die Produktion und ab 2016 füllten sie alles . Ende 2020 fand jedoch eine neue Runde statt. Diesmal nicht in 4 Jahren, sondern in einem. Lassen Sie uns über Transformatoren in ComputerVision sprechen. Der Artikel bietet einen Überblick über neue Produkte, die im letzten Jahr erschienen sind. Wenn es für jemanden bequemer ist, ist der Artikel als Video auf Youtube verfügbar .

Transformatoren sind eine Art neuronaler Netze, die 2017 erstellt wurden. Anfangs wurden sie für Übersetzungen verwendet :

Aber wie sich herausstellte, arbeiteten sie einfach als universelles Modell der Sprache. Und los geht's. Tatsächlich ist der berühmte GPT-3 ein Produkt von Transformatoren.

ComputerVision?

. , . - , . . , . CV.

DETR

2020. . ? . , DETR (End-to-End Object Detection with Transformers), 2020 . , :

, ReInspect 2015 - , BackBone . - ReInspect Detr. .

, , DETR ( , ). .

, DETR ComputerVision. ? ? :

- , . Deformable DETR.
DETR . . iterdet. - ( - https://paperswithcode.com/sota/panoptic-segmentation-on-coco-panoptic ).

DETR Visual Transformer ( + ) . Feature map backbone:

Visual Transformer , . backbone .

VIT

. ViT:

2020 (). -. . - 16*16. “”, .

, , . ( state-of-art). 14 - .

. FaceBook - Deit. .

- https://paperswithcode.com/paper/going-deeper-with-image-transformers

- . , ~2-3 , . ResNet .

CLIP

. CLIP. . CLIP . , . , - :

, . . :

:

, - :

ResNet50. , 100 .

, /. CLIP . CLIP . . , :

Vision Transformers for Dense Prediction

, , - “Vision Transformers for Dense Prediction”, . Vit/Detr. , .

/, / . State-of-art , RealTime. @AlexeyAB ( Yolov4 ), . , , . - , :

---------------------------------------

. - :

1-2

- / . .

PoseFormer

Pose3D. , , :

3 . CherryLabs ( ) 3 , , . , , . - 3D, :

- . ( ). .

, . / .

TransPose

, . TransPose - :

. . , , :

SWIN

Intel. SWIN Microsoft , RealTime. VIT/Deit, :

, , - https://paperswithcode.com/paper/swin-transformer-hierarchical-vision

LOFTR

. . SIFT/SURF+RANSAK ( + ). SuperGlue- Graph Neural Network ComputerVision. SuperGlue . , LOFTR End-To-End:

, :

, , , . : (Video Transformer Network, ActionBert). MMAction.

. , . , - STARK:

, . . , , . , , . . BBOX + , ,

TransTrack

TransT

.

ReID

, . 20 ReID - .

:

. VIT (1,2):

(1,2):

- OCR . , - :

state-of-art . . - 2 . - .

, . , , :

ComputerVision. , , .

. . , - , 2 . , -

, . . - . / - https://t.me/CVML_team ( https://vk.com/cvml_team ).

, , youtube:

All Articles