기획 배우기/5분 스터디

[기획자의 하드웨어 5분 스터디] #026. 학습 데이터와 라벨링 기획

쥰채 2026. 5. 15. 23:27

💡 하드웨어와 AI 도메인으로 시야를 넓혀가는 서비스 기획자의 5분 스터디 기록입니다.

 

[개념] 

AI는 태어날 때부터 똑똑한 것이 아니라, 엄청난 양의 기출 문제를 풀면서 학습하게 된다. 이때 사진이나 영상 같은 원본 자료를 모으는 것뿐만 아니라, 그 자료에 '이 부분이 정답이야'라고 꼬리표를 달아주는 작업이 필요한데 이를 '라벨링'이라고 한다. 아이에게 '강아지'라는 개념을 처음 알려준다고 상상해 보자. 공원에서 뛰어노는 강아지의 사진만 보여주는 것이 아니라 사진 속 강아지를 정확히 가리키면서 '이게 강아지야'라고 짚어주게 된다. 여기에서 공원 사진은 '원본 데이터'이고, 강아지를 가리키면서 정답을 알려주는 행위를 '라벨링'이라고 할 수 있다.

 

[최신 트렌드]

과거에는 수백만 장의 사진에 사람이 마우스로 일일이 네모 박스를 그렸다. 하지만 지금은 기술이 훨씬 발전했다.

자동화된 라벨링
AI가 먼저 1차로 대략적인 박스를 치고, 사람은 그 결과물이 맞는지 검수하고 수정만 하는 방식으로 작업 속도를 획기적으로 높이고 있다.

합성 데이터 생성
예를 들어, 영유아의 수면을 모니터링하다가 침대에서 떨어지는 '낙상' 상황을 감지하는 AI를 만든다고 가정해 보자. 실제 아기가 떨어지는 위험한 영상을 수만 장 찍어서 모을 수는 없다. 이럴 때 3D 그래픽 모델링 도구를 활용해서 가상의 아기와 침대를 만들고, 다양한 각도와 조명에서 떨어지는 상황을 시뮬레이션하여 가짜 정답 데이터를 무한히 찍어낸다. 현실에서 구하기 힘든 데이터를 비용 효율적으로 만드는 핵심 트렌드이다.

 

[오늘의 인사이트] 

비전 AI의 성능은 어떤 최신 알고리즘을 썼느냐보다, '얼마나 질 좋고 명확한 정답지를 먹였느냐'에서 결판이 난다. 기획자는 이 데이터들의 기준을 세우는 사람이다. 기획자가 데이터 학습 파트에서 챙겨야할 실무 포인트는 다음과 같다.

예외 상황 수집 기획
정상적으로 이불 덮고 자는 모습은 백날 모아봐야 실제 환경의 헷갈리는 상황에서는 오작동하게 된다. 카메라의 야간 적외선 모드일 때의 모습, 이불을 머리 끝까지 뒤집어 쓴 모습, 큰 애착 인형에 몸이 가려진 모습 등 AI가 헷갈려할 만한 '진짜 어려운 기출 문제'를 어떻게 수집하고 라벨링할지 시나리오를 짜야 한다.

라벨링 가이드라인 작성
작업하는 사람마다 기준이 다르면 AI는 혼란에 빠진다. '사람을 네모 박스로 칠 때, 뻗은 손 끝까지 포함할 것인가, 몸통만 칠 것인가?', '어두워서 형체만 보일 때는 정답 처리를 할 것인가 말 것인가?'와 같이 아주 명확하고 깐깐한 기준(가이드라인)을 세워 외주 업체나 개발팀에 전달하는 것이 서비스 품질을 결정 짓는다고 할 수 있다.