💡 하드웨어와 AI 도메인으로 시야를 넓혀가는 서비스 기획자의 5분 스터디 기록입니다. [개념] 지금까지의 비전 AI(객체 탐지)가 단순히 영상 속에서 '사람이다!', '자동차다!'라고 외치는 수준이었다면, 이제는 영상의 맥락(Context)까지 이해하는 VLM(Vision Language Model, 비전 언어 모델)의 시대로 넘어가고 있다.과거의 AI는 단순 경비원처럼 '사장님, 화면에 '사람'이 나타났습니다'(누구인지, 뭘 하는지는 모름)라고 했다면, 미래의 AI는 베테랑 탐정처럼 '사장님, 빨간 모자를 쓴 30대 남성이 뒷문 주변을 서성이며 스마트폰을 보고 있습니다.' 라고 하는 것과 비슷하다.텍스트를 이해하는 거대 언어 모델(VLM)에 '눈(Vision)'을 달아주어, 영상 속 상황을 사람처럼..