Home > 전체기사
ETRI, AI 음향 인식 대회서 세계 1위 입상
  |  입력 : 2020-07-20 15:47
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
DCASE 2020 대회 ‘복수 단말 음향 장면 인식’ 분야 입상
로봇 ‘전자 귀’, 위험 인식, 장비 모니터링 등 활용 가능


[보안뉴스 엄호식 기자] 국내 연구진이 인공지능(AI)을 이용해 소리를 듣고 어떠한 상황인지 음향 인식 기술력을 겨루는 국제대회에서 세계 1위를 달성했다. 이로써 기계가 사람과 같이 청각을 인식하는 길에 한 걸음 더 나아가고 음향 기술과 다양한 산업 분야의 융합이 가속화될 전망이다.

▲음향 이벤트 및 장면 인식기술 경진 대회에서 우수한 성적을 거둔 ETRI 연구진들(왼쪽부터 이태진 미디어부호화연구실장, 박수영 연구원, 정영호 책임연구원)[사진=ETRI]


한국전자통신연구원(ETRI)은 지난 3일, 세계적인 인공지능 기반 음향 이벤트 및 장면 인식 기술 경진 대회(DCASE)‘ 음향 장면 인식 분야’에 참가해 전 세계 기업, 대학 연합팀들과 겨뤄 우수한 성적을 거뒀다고 밝혔다.

올해로 6회째를 맞이한 이번 대회는 세계 최대 전기·전자기술자협회(IEEE) AASP(Audio and Acoustic Signal Processing)가 주관하고 구글, 인텔, 아마존, IBM, 삼성, LG 등 세계 유수기관이 참가하는 음향 기술 관련 유일한 대회다. 대회는 6개 분야에 총 138개 팀과 473개의 제안 시스템이 제출되어 지난 3월부터 6월 중순까지 과제별 기술 경쟁이 이뤄졌다.

ETRI가 참가한 분야 중 하나인 ‘복수 단말 대상 음향 장면 인식’ 과제는 여러 종류의 단말기로 녹음한 소리를 듣고 녹음 장소를 알아맞히는 분야다. 액션캠 및 바이노럴 마이크 뿐만 아니라 잡음이 쉽게 섞이는 일반 스마트폰에 이르기까지 장비별로 다른 신호 특성을 아울러 정확하게 판단하는 분야로 ‘일반화 성능’이 관건이다. 예를 들면, 학습용 음향 데이터로 프랑스 파리 지하철에서 나는 소리를 스마트폰으로 녹음한 파일이 주어지면 이를 인식하는 시스템을 개발한 뒤, 평가에서는 학습에 쓰이지 않았던 액션캠으로 녹음된 지하철 소리를 들려주며 상황을 맞힐 수 있는지 알아보는 방식이다.

연구진은 해당 분야에서 시스템 순위 1, 2위를 석권하며 압도적인 기술력을 자랑했다. 팀별로 최대 4개 기술까지 제출이 가능해 총 28개 팀, 92개 시스템이 출전한 가운데 ETRI 기술들은 최고의 성적을 차지하며 팀 순위 1위를 달성할 수 있었다. 팀 순위 2등은 조지아텍-중국과기대-텐센트-UEK 연합팀이 차지했다.

개발한 기술은 노약자 및 청각 장애인 등을 위한 ‘위험 회피 기술’ 분야로 응용이 가능하다. 소리를 잘 듣지 못해 상황을 인식하지 못하는 계층을 위해 따뜻한 기술로 활약할 수 있는 셈이다. 이외에도 소리를 듣고 관련 정보를 도출해내는 미디어 자동 태깅 기술, 자동차, 공장 라인 소리를 듣고 이상 유무를 알아내는 장비 상태 모니터링, 로봇 등 다양한 분야로 활용도 예상된다.

▲차세대 오디오 프로세서 기술을 시연하는 ETRI 연구진의 모습[사진=ETRI]


연구진은 우수한 성적의 비결로 △소리를 주파수 대역별로 나누어 모델이 각각 학습을 할 수 있도록 만든 ‘딥러닝 기반 트라이던트(Trident) 구조 신경망 개발’ △단말별 오디오 신호처리 특성 일반화를 이루는데 강점을 지닐 수 있는 ‘비균등 입력 특징 분할 기법’을 설계, 적용한 점을 들었다. 덕분에 전년도보다 어려워진 과제를 능숙하게 대처하고 학습에 사용된 단말 뿐만 아니라 새로운 단말의 음향 데이터를 접했을 때도 다른 참가팀들에 비해 앞서는 성능을 낼 수 있었다.

한편, 연구진은 수행 중인 과제와 관련해 ‘저복잡도 기반 음향 장면 인식’, ‘음향 발생 방향 및 이벤트 인식’ 분야에도 참가, 좋은 성적을 거뒀다. 입상한 팀은 추가 성능 분석 결과를 포함해 학회 논문 제출 및 발표를 진행할 예정이다.

김흥묵 ETRI 미디어연구본부장은 “딥러닝 기반 음향 인식 기술은 향후 새로운 응용 서비스 기술 개발을 통해 국내 관련 산업의 경쟁력 확보와 시장 활성화에 크게 기여할 것”이라고 말했다.

연구진은 AI가 시각, 언어 인식 등의 분야에서는 인간을 상회하는 수준으로 연구가 이뤄진 것에 비해 청각 분야에서는 아직 갈 길이 먼 상황에서 ‘전자 귀’와 같은 모든 음향을 인식할 수 있는 수준으로 목표로 연구개발 중이다.

이번 대회는 ETRI 미디어부호화연구실 서상원 연구원, 박수영 연구원, 정영호 책임연구원이 공동으로 참여했으며 과학기술정보통신부 <신체기능의 이상이나 저하를 극복하기 위한 휴먼 청각 및 근력 증강 원천 기술 개발> 과제의 일환으로 연구를 진행했다. 연구진은 해당 기술과 관련해 지난 2017년부터 국내·외 특허 17건 출원, 기술 논문 11건을 발표하기도 했다.

한편, ETRI는 지난 달 14일, 인공지능 영상 압축 대회인 CLIC 2020에서도 세계 1위를 거둔 바 있어 오디오 및 비디오 분야를 아우르는 기술력을 갖추고 있음을 여실히 증명했다.
[엄호식 기자(eomhs@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기


  •  SNS에서도 보안뉴스를 받아보세요!! 
그린존시큐리티 4개월 배너모니터랩 파워비즈 6개월 2020년6월22~12월 22일 까지넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지위즈디엔에스 2018파워비즈배너 시작 11월6일 20181105-20200131
설문조사
코로나19 팬더믹 이후, 가장 기승을 부리고 있는 사이버 공격 유형은 무엇이라고 보시나요?
랜섬웨어
피싱/스미싱
스피어피싱(표적 공격)/국가 지원 해킹 공격
디도스 공격
혹스(사기) 메일
악성 앱
해적판 소프트웨어
기타(댓글로)