자가 지도 학습 기술과 Meta사의 DINOv3

작성자 : 백승렬 울산과학기술원 인공지능대학원 교수 2025.08.29 게시

서론

인공지능을 학습하는 데에는 많은 량의 데이터가 필요하다. 여기서 데이터란 입력과 그에 해당하는 출력에 대한 정답을 말한다. 마치 갓 태어난 아기가 처음에는 아무것도 모르는 것처럼 처음 만들어진 인공지능은 그의 파라미터가 랜덤(random)하게 초기화가 되어 있다. 따라서 사용자가 입력을 넣었을 때 이상한 출력값을 내게 된다. 마치, 아기가 부모의 피드백을 받아 점차 세상을 알아가는 것처럼, 인공지능에 대한 학습은 입력에 대해 올바르게 출력할 수 있도록 인공지능 모델의 파라미터를 각 데이터에 대한 현재 출력물과 정답과의 차이값으로부터 피드백을 받아 지속적으로 업데이트 함으로써 이루어진다. 이를 지도학습(supervised learning)이라고 부른다. 지도학습에서는 데이터가 많을수록 인공지능 모델이 보다 신뢰성 있게 학습되지만, 입력에 대한 정답을 모으는 것이 쉽지 않은 응용분야도 많이 존재하며, 이런 분야에서는 인공지능의 지도학습 자체가 제한된다. 이러한 한계점을 해결할 수 있는 기법이 자가지도(self-supervised) 학습 기술이다. 데이터에 정답이 존재하지 않는 경우에도 정답으로 간주할 수 있는 정보를 추출하여 이로부터 얻는 피드백으로 학습을 수행하는 기법이다. 입력에 대한 정답을 얻기 힘든 분야에서도 인공지능 모델을 학습할 수 있는 기술이다. 자가지도 학습은 여러 분야에서 활용이 되었지만, 2025년 8월 미국 Meta사에서 자가 지도 학습 데이터의 스케일을 극단적으로 키워 학습으로서 특정 도메인에서의 지도학습 기반 인공지능 모델보다 성능이 뛰어난 DINOv3 [1]라는 모델을 발표하였다. DINOv1 [2]는 2021년, DINOv2 [3]는 2023년에 발표되었으며, DINOv3 는 그의 최신 버전이다. 본 고에서는 해당 기술의 현 수준과 응용 가능성에 대해 살펴보고자 한다.

트랜스포머 구조

인공지능 분야에서 가장 성공한 기술 중 하나인 딥러닝(deep learning)은  입력으로부터 출력물을 내기 위해 깊게(deep) 쌓은 구조를 제시하고, 이를 학습하는 것을 딥러닝이라고 부른다. 초창기 딥러닝은 콘볼루션(convolution) 연산을 깊게 쌓았지만 2020년 이후에는 어텐션(attention)이라는 연산을 깊게 쌓은 트랜스포머(Transformer) 구조[4]가 성능 면에서 콘볼루션을 쌓은 구조보다 월등하여, 트랜스포머 구조가 많이 활용되고 있다. 트랜스포머 구조는 원래 자연어처리(natural language processing) 분야에서 텍스트(text) 신호를 처리하도록 제안되었고, 우리가 많이 쓰는 GPT [7]나 BERT [8]와 같은 구조가 자연어처리 분야에서 제안된 트래스포머들이다. GPT는 Generative Pre-trained Transformer의 약어이며, BERT는 Bidirectional Encoder Representations from Transformers의 약어로 두 구조 모두 트랜스포머 구조를 기반으로 하고 있다. 보다 차원이 높은 2차원 영상이나 비디오를 다루는 컴퓨터 비전 기술에도 최근 트랜스포머 구조가 제안되어 응용되고 있다 [5, 6].

DINOv3의 학습 방법

DINO의 학습에는 선생님(teacher) 모델과 학생(student) 모델이 필요하다. 두 모델은 같은 구조로 되어 있고, 동시에 학습이 된다. 선생님 모델은 학생 모델로부터 파라미터를 지수이동평균 기법으로 업데이트함으로서 살짝 다르게 학습이 된다. 두 인공지능 모델이 같은 영상에 대한 다른 부분을 보게 한 뒤, 이 두 부분에 대한 특징 벡터가 유사하도록 학습이 된다. 영상에 대해 선생님 모델과 학생 모델이 유사한 특징 벡터를 내도록 피드백을 받음으로서, 정답이 없는 다양한 영상 입력 데이터에 대해 학습이 가능한 자가지도 학습 방식이다. 간단한 학습 방식이지만, 이 기법을 대용량 영상 데이터에 학습했다는 특징을 가진다. DINOv1은 120만장 정도의 학습 데이터를 가지는 ImageNet [9] 데이터를 활용하여 학습이 되었으며, DINOv2는 Meta사가 자체 제작한 1억장이 넘는 규모의 영상 데이터로 학습이 되었다. DINOv3는 17억(1.7B)장 규모의 고해상도 이미지를 활용하여 학습되었다. DINOv1은 출력물에 대한 정답이 없이도 의미있는 특징 벡터를 얻을 수 있다에 그쳤다면, DINOv2는 범용 특징 벡터로서 다양한 컴퓨터 비전 작업에 활용될 수 있을만한 특징 벡터를 얻었고, DINOv3는 지도학습보다도 자가지도 학습이 더 좋은 성능을 낼 수 있음을 증명하고 있다.

DINOv3 특징벡터의 특성

그림1은 DINOv3의 특징벡터의 특성을 보여준다. 컬러 영상으로 주어진 그림이 입력 영상일 때, DINOv3의 특징벡터를 푸른색 그림들이 보여준다. 이 때, 이 푸른색 그림들은 빨간색 십자가 영역에 대한 가중치 형식으로 인코딩이 되는데, 그것이 트랜스포머의 어텐션이라는 연산이 가지는 특징이다. 트랜스포머의 어텐션은 인풋끼리의 관계를 인코딩하며 영상 신호에서는 영상 내 픽셀(pixel) 사이의 관계를 인코딩한다.  따라서 각 푸른색 그림에서 빨간색 십자가 영역의 픽셀과 다른 모든 픽셀과의 의미론적 관계가 클수록 노란색으로, 의미론적 관계가 작을수록 파란색으로 인코딩되었음을 보여준다. 영상 내 그림을 보면 유사한 과일들끼리 비슷한 특징 벡터가 얻어졌음을 확인할 수 있다.

그림1. DINOv3 특징벡터 예시

DINOv3, ArXiv:2508.10104.

DINOv3의 현수준

DINOv3은 위의 특징벡터를 활용하여 물체 검출, 세그멘테이션, 비디오 세그멘테이션 추적, 비디오 분류 등 몇가지 컴퓨터 비전 응용 분야에 대한 실험을 제시하고 있으며 해당 작업에서 다른 기법 대비 좋은 일반화 능력을 가지고 있음을 확인해주고 있다. 동시에 각 도메인에 대해 데이터를 얻고 인공지능 모델을 학습시키던 전통적인 방식의 지도학습 대비 좋은 성능을 낼 수 있는 잠재력을 보여줌으로써 향후 인공지능 모델 학습 기술에 큰 변화를 가져올 수 있을 것으로 기대된다.

결론

Meta사의 DINOv3라는 새로운 인공지능 학습 모델을 살펴봄으로써 자가지도 학습과 그 잠재력에 대해서 살펴보았다. 각 도메인에 대한 대용량 데이터가 있어야 학습이 가능했던 전통적인 인공지능 모델 개발 방식에 큰 변화가 예상된다. 대용량 데이터를 모으기 힘든 분야에도 인공지능 기술을 쉽게 적용할 수 있고, 또 성능을 올리기 위해 소용량의 데이터도 충분할 수 있는 형태의 학습 기술이 향후 후속적으로 개발될 것이라 예상해본다. 이를 통해, 인공지능 모델 학습 데이터가 상대적으로 많지 않다고 판단되는 산업 전반에서 인공지능 모델의 적용을 기대해본다.

핵심단어
자료출처	[1] DINOv3, ArXiv:2508.10104 [2] DINOv2: Learning Robust Visual Features without Supervision, ArXiv:2304.07193 [3] Emerging Properties in Self-supervised Vision Transformers, ICCV 2021 [4] Attention Is All You Need, NIPS 2017 [5] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ICLR 2021 [6] Video Swin Transformer, ArXiv:2106.13230 [7] GPT-4 Technical Report, ArXiv:2303.08774 [8] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL 2019 [9] ImageNet: A Large-Scale Hierarchical Image Database, CVPR 2009
첨부파일

집필진