Home > 전체기사

[구축사례] 서초구, 무선 CCTV 영상 이용한 차량·사람 도심지 혼잡도 측정

  |  입력 : 2021-01-02 11:50
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
서초구의 버드아이뷰 활용한 AI 학습용 데이터셋 구축사례

[보안뉴스=임동현 서초구청 스마트도시서비스팀 주무관] 서울시 서초구는 2020년 8월 과기정보통신부와 한국정보화진흥원이 주관하는 ‘인공지능 학습용 데이터셋 구축 사업(2차)’ 자유과제 부문에 씨프로와 나무플래닛, 국민안전역량협회와 컨소시엄을 구성, 최고 점수로 선정돼 2021년 2월까지 데이터셋 구축을 진행하고 있다.

▲서초구청 전경[사진=서초구청]


서초구가 제시한 주제는 도심지 특징인 ‘버드아이뷰(BirdEye-View)를 이용한 차량·사람 도심지 혼잡도 측정 데이터셋 구축’이다. 서초구가 관내 랜드마크 20여 빌딩 옥상을 임차해 설치·운영 중인 고성능 무선 CCTV 영상(버드아이뷰)을 수집, 컨소시엄이 함께 가공해 카운팅과 혼잡·밀집도 등의 AI 엔진 성능 향상을 위한 기준 데이터셋을 제작할 예정이다.

▲인공지능 학습용 데이터셋 구축 사업(2차) 선정결과 화면[사진=서초구청]


정부는 AI 학습용 데이터셋 구축사업을 포함한 ‘데이터댐-뉴딜 사업’으로 라벨러라는 직업군을 정의하고 적극 지원을 약속한 바 있다. 데이터셋 구축사업 중 지방자치단체가 주관기관이 된 경우는 이번 사업이 처음으로, 향후 정부정책 수립과 업계 발전 방향을 위해 서초구 버드아이뷰 데이터셋 내용을 다음과 같이 정리해 보고자 한다.

구축 사업의 출발, ‘데이터 취득’
서초구는 버드아이뷰 화각 확보를 위해 고정카메라 40대를 랜드마크 건물 옥상에 신설해 버드아이뷰를 취득하고 이를 사업의 출발점으로 삼았다. 사진 2부터 사진 5까지처럼 사당역, 강남역, 고속터미널, 강남대로변, 경부고속도로 등 실제 혼잡 상황이 자주 발생하는 장소를 주요 목표로 선정해 혼잡도 관점에서 의미 있는 데이터셋이 될 수 있도록 디자인했다. 업계의 다양한 요구를 반영해 영상포맷(사진과 동영상), 영상크기(2M 픽셀과 5M픽셀), 압축방식(H.264와 H.265), 거리(원거리와 근거리), 촬영각도(대지수평기준 30도에서 90도까지), 객체크기(개인정보 확인 불가 크기부터 더 작게) 등 40여종의 다양한 화각을 설정하고 고품질 영상을 취득했다.

▲버드아이뷰(왼쪽 상단부터 시계방향으로 사진2~5)[사진=서초구청]


개인정보보호를 위한 ‘데이터 가공’
취득된 데이터에는 개인 식별 가능 정보가 있을 수 있다. 따라서 기존의 파일 유통 작업 방식 혹은 파일 다운로드 가능 작업 방식과 달리, 기본 환경을 VDI(데스크톱 가상화 : Virtual Desktop Infrastructure)로 구현해 개인정보 유통 및 개인정보 침해에 대한 근본적인 해결책을 제시했다. 즉, 라벨러는 VMware Horizon VDI client를 이용해 서초구 버드아이뷰 플랫폼에 접속·작업·저장(복사 불가)하도록 하고 모든 관리자가 VDI 환경에서만 모니터링과 품질평가를 하게 함으로써 법규를 준수했다. 사진 6부터 사진 11과 같이 가상화 환경 내 작업 플랫폼은 오픈소스 CVAT 기반으로 개발돼 라벨러는 직관적으로 작업하고 3차에 걸친 검수자에게는 편리성을 더하며, 관리자에게는 깊은 가시성을 확보할 수 있도록 디자인됐다. 사진 12부터 사진 15처럼 차량번호 등이 식별되는 특정 영상·이미지에 대해서는 해당 영역에만 마스킹 처리해 원본 및 학습용 데이터 훼손율이 최소가 되게 했다

▲왼쪽 상단부터 시계방향으로 사진6 VDI 실행 후 화면, 사진7 플랫폼 화면, 사진8 작업자화면, 사진9~11 관리자 모니터링 화면[사진=서초구청]


▲왼쪽부터 사진 12, 13 어노테이터 작업결과(사람)[사진=서초구청]


▲왼쪽부터 사진 14, 15 어노테이터 작업결과(차량)[사진=서초구청]


이용만족도 충족시킬 ‘데이터 제공’
서초구 컨소시엄은 사람·차량 각 300시간 라벨링 된 영상과 메타데이터(사진 18), 1만 4,400시간 버드아이뷰 원본 영상, 영상압축기술(H.264/H.265) 기반 AI 신뢰도 향상을 위한 차분용 배경이미지 1,200장(사진 19)을 결과물로 제공할 예정이다. 모든 영상에 개인정보 식별 가능 여부 확인 위해 실제 영상으로 법률 검토를 진행 중이며, 검토 완료된 데이터에 한해서 TTA 통한 검수 완료 후 aihub.nia.or.kr에 업로드한다. 객체 흐름 방향, 미세먼지 데이터 등 환경정보, 레이저측정기로 측정한 화각의 변곡점과 카메라 간의 거리·각도 데이터 등을 메타데이터 내에 포함 제공해 사용자의 데이터셋 이용만족도가 높아질 수 있게 할 계획이다. 참고로, 서초구 컨소시엄은 HW 제조사(씨프로), 인공지능서비스전문회사(나무플래닛)이 수요자 입장에서 공동 기획해 현재 상황에서 ‘충분히 쓸모있는 데이터셋’이 되도록 노력하고 있다.

▲사진16 어노테이터 질문하는 오픈톡(왼쪽)과 사진 17 어노테이터 질문결과 표준화하는 오픈톡(오른쪽)[사진=서초구청]


▲사진18 라벨된 메타테이터[사진=서초구청]


▲사진 19 차분인식 위한 배경이미지[사진=서초구청]


다양한 영역에서의 ‘데이터 활용’
이렇게 준비된 데이터셋은 AI 카운팅 엔진과 혼잡(밀집)도 측정 AI 서비스의 기준 데이터뿐만 아니라 ITS 영역에서 다양한 실증 서비스 기준 데이터로도 활용될 수 있다. 또한, 지금은 생각하지 못해 라벨링되지 않았으나 언제든지 새로운 라벨링 수요가 생겨날 수 있음을 감안해, 충분한 양(1만 4,400시간=30화각*20일분*24시간)의 고품질 원본데이터도 라벨링·메타데이터와 함께 aihub를 통해 제공할 예정이다.

1월부터 시범서비스 통한 ‘서비스로의 실증’
버드아이뷰 실증 서비스는 서초구 버드아이뷰 화각 2개(소)를 선정해 원본 스트림에 실시간 인공지능 혼잡도 분석 결과를 오버레이해, 1월부터 웹(birdeyeview.seocho.go.kr)과 앱(서초스마트시티)에 송출되는 시범서비스를 운영할 예정이다. 특히, 코로나대응 융합서비스 실증으로 실시간 인공지능 혼잡도 분석 결과를 SIP 방송 단말과 전광판 등 미디어 매체와 연동해 혼잡 레벨에 따른 주기적 안내 방송을 송출함으로써 국민건강에 일조하는 데이터셋 활용 가능성을 입증할 계획이다.

데이터셋 신뢰성과 품질 향상 위한 제언
AI 서비스 개발 기업이 요구하는 메타데이터는 다양할 수 있으므로, 라벨링과 별개로 다양한 원본 데이터가 많이 모이게 해야 한다. 이는 데이터셋 구축 사업이 일정 관점에서는 원본 데이터를 구입하는 사업이라는 인식으로의 전환이 필요하며 이에 따른 데이터셋의 신뢰성과 품질에 대해 관련자 모두가 책임의식을 공감해야 한다는 뜻이다.

사업을 기획하는 곳에서는 중립적인 데이터셋이 만들어지게 노력해야 한다. 업계를 대변하는 협회(○○○○연구조합, ○○○도시협회, ○○○○기술협회 등)도 기획에 참여시켜 더 넓고 보편적인 표준안이 생성되고, 데이터의 범주가 더 넓어져야 한다. 특히, 2차 사업에서처럼 건실한 전문기업이 그룹으로 묶이지 못해 데이터셋 구축사업에 참여하지 못하거나 탈락되는 일은 없어야 한다.

참여 컨소시엄 멤버의 다양성도 필요하다. 데이터셋 사업이 라벨러 운영 몇몇 전문 기업과 신생 AI SW기업들에 편중되기보다는, 이를 서비스화 시키는 사업자(하드웨어 제조사에서 AI서비스 현장 적용 기업들)까지 폭넓은 기업 연대가 이루어질 때 모두가 원하는 인공지능 생태계가 창출될 수 있다.

공공기관도 데이터셋 과제에 관심을 갖고 적극적으로 참여하는 분위기가 조성되길 바란다. 특히, 고품질의 데이터가 필요하다면, 데이터 취득과 정제 과정에는 공공이 참여해야만 한다. 주관기관이 공공기관이라면 데이터 신뢰도 하락을 스스로 방조하지 않을 것이기에 고품질로의 반사이익을 생각해볼 수 있다.

참여기업의 도덕성 제고도 필요해 보인다. 실제로 유튜브나 중국산 메터데이터 구입 등 적절하지 않은 경로로 취득된 학습 가능 데이터로 결과물이 제출되거나 부정확한 라벨링으로 인해 해당 사업의 취지를 무색하게 하며 AI 생태계 발전을 방해하는 일이 발생하지 않기를 바란다.

참고로 시장에서 이미 유통되고 있는 혹은 중국 등에서 손쉽게 구입할 수 있는 저렴한 영상데이터셋은 법적 문제 아니더라도 인공지능 시각에서 ‘무의미한 양만 많은’, ‘고유하지 않은’, ‘통계적 오류를 발생시키는’ 결과를 초래하므로 반드시 필터링 돼야 한다.

마지막으로 라벨러라는 직업은 국민복지 관점에서 사회에서 소외된 이들과 재진입이 어려운 이에게 주어질 수 있는 희망적인 일자리이다. 데이터셋 사업이 더욱 활성화되기를 바라고 무엇보다 이에 알맞은 처우가 규정되고 보장돼야 한다. 서초구 컨소시엄은 8시간 예상 근무 기준으로 약 10만원씩의 비용을 지급하며 사업의 취지를 살리기 위해 노력하고 있다.
[글_ 임동현 서초구청 스마트도시서비스팀 주무관]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지위즈디엔에스 2018파워비즈배너 시작 11월6일 20181105-20200131
설문조사
보안전문 기자들이 뽑은 2021년 보안 핫키워드 10개 가운데 가장 관심이 높은 키워드는?
민간인증서부터 융복합인증까지, 인증의 시대 열린다
랜섬웨어 공격, ‘불특정 다수’에서 ‘표적형’으로 진화
데이터 프라이버시가 기업들의 목을 죈다
재택근무와 주 52시간 근무제, 오피스 보안 ‘혁신’ 예고
영상·음성까지 합성 ‘딥페이크’, 비대면 사회 침투하나
의료·제약 분야, 코로나19 다음은 해커
스마트공장 구축은 OT/ICS 보안 정립부터
드론, 융합보안 산업의 핵심 아이템이 되다
몸집 키운 ADT캡스-에스원 대격돌, 보안시장 지각변동
CCTV 시스템온칩 대란, 중소기업 생존까지 위협