기획 배우기/5분 스터디

[기획자의 하드웨어 5분 스터디] #011. 비전AI 알고리즘

쥰채 2026. 3. 24. 00:19

💡 하드웨어와 AI 도메인으로 시야를 넓혀가는 서비스 기획자의 5분 스터디 기록입니다.

 

[개념]

비전 AI는 이미지를 어떻게 해석하느냐에 따라 크게 세 단계로 나뉜다. 

Classification(분류): '이 사진에 무엇이 있는가?'를 알아내는 것. 과일 바구니의 사진을 보고 '사과'라고 말하는 것

Object Detection(객체 검출): '무엇이 어디에 있는가?'를 찾아 박스(Bounding Box)를 치는 것. 과일 바구니의 사진에서 사과가 어디에 있는지 네모칸을 그려서 위치를 표시하는 것.(보안 카메라에서 가장 많이 쓰이는 방식이라고 한다.)

Segmentation(분할): '픽셀 단위로 정확히 어떤 모양인가?'를 따내는 것. 사과의 테두리를 따라 가위로 오려내듯 정확한 형체를 구분하는 것(자율주행, 의료 AI 필수)

 

[최신 트렌드]

지능형 리테일(무인 매장): 고객이 물건을 집는 동작을 Detection하고, 그 물건이 어떤 제품인지 Classification하여 자동으로 결제한다. (Amazon Go 방식)

자율주행/안전로봇: 도로 위에서 단순히 '차다!' 라고 아는 것을 넘어, 차선과 인도, 장애물을 픽셀 단위로 Segmentation하여 충돌을 피한다.

영상 보안(침입 탐지): 단순히 움직임만 잡는 게 아니라, Detection을 통해 '사람'인지 '그림자'인지 구분하여 오경보를 획기적으로 줄일 수 있다.

 

[오늘의 인사이트] 

기획자는 '무조건 정확한 것'을 요구하기보다, 비즈니스 목적에 맞는 알고리즘을 선택해야 한다.

정확도 vs 속도(Trade-off): Segmentation은 매우 정확하지만 연산량이 어마어마하다. #010에서 정리했던 NPU에서는 구현이 힘들 수 있다. 보안 알림처럼 '속도'가 생명이라면 Detection 정도로 타협하는 기획적 결단이 필요하다.

성공 지표의 정의(Precision vs Recall)
- 정밀도(Precision): '사람이라고 알림 준 것 중 진짜 사람이 몇 명인가?' (오경보 차단 중요 시)
- 재현율(Recall): '실제 침입한 사람을 놓치지 않고 다 잡았는가?' (보안 사고 방지 중요 시)

기획자는 서비스 성격에 따라 이 둘 중 무엇에 더 가중치를 둘지 정책적으로 결정해주어야 한다.

데이터 학습 비용: Segmentation용 데이터를 만들려면 사람이 일일이 테두리를 따야하므로 Detection보다 데이터 구축 비용이 5~10배 비싸진다. '우리가 이 정확도를 위해 그만큼의 비용을 지출할 가치가 있는가?'를 따져봐야 한다.

비전 AI 알고리즘은 '어떤 수준으로 세상을 볼 것인가'를 정하는 일이며, 이는 곧 하드웨어 사양과 데이터 비용으로 직결되는 문제이다.