paper review

[Review] Qwen2.5-VL Technical Report

요즘 AI 서비스들은 대부분 이미지 인식 기능을 탑재하고 있다. 과연 이런 멀티모달 VLM은 실제로 어떤 모델 구조를 가지고 있을까?

[Review] Attention Is All You Need

기존 sequence 변환 모델은 RNN 또는 CNN 기반의 인코더-디코더 구조를 바탕으로 한다. 최고 성능의 모델들은 여기에 attention mechanism 을 사용하고 있는데, 우리는 RNN과 CNN을 배제한 채 attention mechanism 만을 사용하는 새로운 구조...

맨 위로 이동 ↑