Home > SecurityWorld

일본이 주목하는 생체인식 분야는 무엇?

  |  입력 : 2021-10-18 15:13
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
2023년 일본 음성인식 시장, 2019년 대비 5대 성장 전망
음성 안내, 자동응답 서비스 등 다양한 분야로 적용 확대


[보안뉴스 엄호식 기자] 생체인식에는 가장 대중적으로 알려지고 사용되는 지문과 얼굴을 비롯해 정맥과 홍채 등 다양한 분야가 있다. 그리고 최근 스마트폰과 스마트 스피커의 대중화로 인해 최근 음성인식 기술을 이용한 음성 사용자 인터페이스(VUI : Voice User Interface)의 활용 사례가 증가하고 있다. VUI란 음성 언어를 사용해 정보 기기를 제어하거나 정보 서비스를 수신할 수 있도록 말과 글을 음성으로 변환하는 인터페이스를 말한다. 이는 눈으로 보고 키보드나 마우스로 입력하는 그래픽 사용자 인터페이스(GUI)에 대비되는 개념이다.

[이미지 = utoimage]


이러한 음성인식을 가장 활발하게 사용하는 나라 중 하나가 일본으로, 일본 음성인식 시장은 2023년까지 약 1만 10억엔 규모로 성장할 것으로 전망된다.

음성인식이란, 사람의 음성을 컴퓨터가 인식해 텍스트화하는 기술이다. 구체적으로는 ①우선 잡음 등의 노이즈를 제거하고(잡음·잔향 억제), ②음성 데이터의 음의 강약이나 주파수, 소리와 소리의 간격, 시계열 등 여러가지 특징을 추출한다(음향 분석). ③이 특징이 어떤 음소(소재가 되는 소리)나 단어에 가까운 지를 판단해(음향 모델), ④방대한 데이터를 토대로 단어를 연결한다(언어 모델).

지금까지는 미리 등록해 둔 특징을 패턴화시켜 저장한 후 새로운 음성이 들어오면 기존의 패턴과 매칭시키는 방법을 채택해 왔지만, 음성인식 범위에 한계가 있는 등 과제가 있었다. 하지만 최근에는 GPU(Graphics Processing Unit)의 성능 향상과 딥러닝의 진화 덕분에 음성인식 기술은 상상을 뛰어넘을 정도로 높은 인식 수준을 실현하게 됐다.

IBM은 2017년 3월, 기계가 사람의 음성을 얼마나 정확하게 문자로 변환시킬 수 있는지를 보여주는 지표인 ‘단어 오류율(Word Error Rate)’에서 당해 연도 세계 1위인 5.5%를 달성했으며 순더 피차이 구글 CEO는 2017년 5월, 회사 주최 이벤트인 ‘구글 I/O 2017’에서 이 회사 음성인식 기술의 단어 오류율이 4.9%라고 밝혔다.

2016년 7월 시점에 8.5%였던 단어 오류율이 1년이 채 지나지 않아 4.9%로 대폭 개선된 점은 주목할 만하다. 한편, IBM과 음성인식 정확도로 개발 경쟁을 벌여온 마이크로소프트는 2017년 8월 21일 단어 오류율 5.1%를 달성했다고 발표했다. 마이크로소프트에 따르면 단어 오류율 5.1%는 속기사의 인식률과 비슷한 수준이라고 한다.

각 사의 테스트 실시 조건이 동일하지는 않기 때문에 단순히 우열을 비교할 수는 없만 4.9%라는 가장 뛰어난 단어 오류율을 기록한 구글은 스마트폰과 스마트폰 스피커 ‘구글 홈’에 대한 음성인식 기술 탑재를 적극 추진해왔다. 구글은 음성인식 분야에서는 후발주자이지만 딥러닝 연구에 적극적으로 투자해온 것이 단어 착오율 개선에 크게 기여한 것으로 보인다. 또, 2018년경부터는 입력한 음성 신호로부터 단어열(string)을 직접 출력하는 ‘엔드-투-엔드 음성인식’이라 불리는 새로운 방법의 연구도 진행되고 있어 향후 음성인식의 정확도 향상을 기대할 수 있다.

음석인식 기술은 음성인식 정확도의 향상에 수반해 실제 비즈니스 현장에서도 널리 적용되고 있다. 예를 들면 콜센터에서는 전화 응대 품질의 향상이나 컴플라이언스상 문제가 있는 발언의 수집을 목적으로 음성인식 기술이 이용되고 있다. 하지만 기술실증 테스트에서 높은 정확도를 기록해도 실제 기술을 업무에 적용했을 때 동일한 정확도를 실현하기는 쉽지 않다. 또한, 콜센터에서 대응해야 하는 상대는 사는 곳도 말투도 다르다. 억양의 차이나 사투리는 물론, 옥외인지 옥내인지 등 주변 환경도 음성인식에 영향을 주기 때문에 일반적 인식률은 기껏해야 80% 정도다. 반면, 일정한 속도의 표준어로 말하는 훈련을 받은 안내원의 음성이면 95% 정도의 정확도로 인식할 수 있다. 실제 현장에서는 고객의 문의 내용을 안내원이 다시 한 번 복창하게 함으로써 고객 문의의 누락을 막고 있다.

음성 사용자 인터페이스 등장으로 음성인식 정확도 높아져
음성인식의 정확도 향상은 VUI(음성 사용자 인터페이스)의 보급 확대에도 공헌하고 있다. VUI는 NUI(내추럴 유저 인터페이스: Natural User Interface)를 구성하는 인터페이스 중 하나다. 디스플레이의 화상을 보고 마우스를 조작하는 GUI(그래피컬 유저 인터페이스: Graphic User Interface)와 달리 NUI는 대상물을 직접 만지거나 음성을 사용하는 등 사람의 자연스러운 동작을 통해 디지털 기기를 제어하는 환경을 말한다. GUI를 대신하는 차세대 인터페이스로서 NUI에 기대가 모아지는 것은 자연스러운 흐름이라고 할 수 있다.

▲유저 인터페이스의 진화(자료=KOTRA 도쿄무역관)


2000년경부터 NUI의 가능성에 주목해 음성인식 기술을 이용한 자동응답 시스템의 도입에 힘써온 기업도 있었다. 하지만 ‘전화 주셔서 감사합니다. 고객님의 생년월일을 여쭤보겠습니다. 삐 소리가 울리면 고객님의 생년월일을 말씀해주세요’라는 음성 안내 뒤 고객이 ‘1990년 1월 1일’로 응답하는 정도에 머무는 등 당시에는 음성인식의 정확도가 향상되지 않아 널리 보급되지는 못했다. 특히, 고객 문의의 의도를 이해하고 적절하게 대응하는 처리 능력도 부족해 VUI 본연의 목적인 ‘기계와의 자연스러운 대화’와는 거리가 멀었다.

그러나 최근에는 정확도가 향상한 음성인식 기술과 음성 대화 시스템을 활용한 AI 음성 안내원이나 VUI 가상 에이전트가 등장해 챗봇에서 활용되는 대화 시스템을 응용해 콜센터의 자동응답 시스템이나 상업시설의 인포메이션 센터 등에서 활용되기 시작했다.

다양한 분야로 영역 넓혀가는 AI 보이스 테크놀로지
AI 음성안내원이 전화 접수부터 예약까지 대응하는 ‘에비설(ebisol)’
음식점 예약관리 시스템 ‘에비카(ebica)’를 운영하는 에비설(ebisol)사는 2020년 10월부터 LINE의 AI 전화응대 서비스 ‘라인 아이 콜(LINE Ai Call)’과의 협업을 통해 AI 전화 예약 응대 서비스 ‘AI 리셉션’을 제공하고 있다.

▲에비설(ebisol) 웹사이트 내 AI 전화 예약 응대 서비스 ‘AI 리셉션’ 소개[자료=에비설 웹사이트 캡쳐]


AI 리셉션에서 고객 전화에 응대하는 직원은 AI스탭 ‘사유리’다. 고객이 음식점 점원에게 예약 가능 여부를 확인할 때 ‘오늘 방문하고 싶은데 지금 예약 가능한가요?’라는 말을 이해하고 인간에 가까운 음성으로 전화를 응대하면서 예약 현황 데이터를 참조해 예약 완료까지 맡아서 진행한다. 예약접수는 물론 예약 확인 전화도 AI 음성으로 대응한다. 희망하는 예약 시간대가 만석일 경우에는 앞뒤 시간이나 인근 체인점의 예약 현황을 실시간으로 안내해 준다.

음식점 예약관리 서비스에 이용되는 VUI의 LINE AiCall은 스마트 스피커 라인 클로바(LINE CLOVA)에서도 적용되는데 클로바 스피치(CLOVA Speech, 음성인식)와 클로바 보이스(CLOVA Voice, 음성합성) 및 회화제어의 조합으로 구성돼 있다. LINE은 클로바 보이스에 딥러닝 기술을 도입해 인간에 가까운 자연스러운 음성의 재현에 성공했다. LINE AiCall은 AI 리셉션의 도입처인 음식점의 점포뿐만 아니라 대형 운송회사인 야마토운수에서 배송 의뢰인의 문의 응답에도 이용되고 있다.

콜센터 업무에 있어서 AI음성의 역할은 크다. 성수기의 통화량 증폭에 대한 대책으로 활용될 수 있을 뿐만 아니라 24시간 365일 대응이 가능해 기회 손실의 경감과 인력부족 해소로 이어진다.

AI 음성 자동 응답 시스템 ‘에이치엠컴(Hmcomm)’
음성인식 벤처기업 에이치엠컴(Hmcomm)은 AI 음성안내원을 통한 전화 대행 서비스 ‘Terry’를 제공한다. 에이치엠컴은 일본의 국립 연구개발 법인 산업기술 종합연구소(이하 산업기술 종합연구소)의 초고성능 인식 엔진을 기반으로 한 자연어 처리를 통해 AI 음성안내원이 자연스러운 대화를 구사하는 것을 가능하게 했다.

▲에이치엠컴(Hmcomm) 웹사이트 내 AI 음성안내원을 통한 전화 대행 서비스 ‘Terry’ 소개[자료=에이치엠컴 웹사이트 캡쳐]


대화 시나리오는 간단한 GUI로도 구축할 수 있어 고객사의 업무에 맞춰 자유롭게 작성할 수 있다. AI 음성 안내원의 응답 데이터를 열람해 수정하거나 대시보드로 당일 이용 상황을 확인할 수 있는 기능도 갖췄다. API 연계도 가능하므로 고객이 행사 일정을 물어볼 경우, 다른 데이터베이스를 참조해 날짜를 확인하고 최신 정보를 안내하는 것도 가능하다.

대형 전자제품 매장 야마다전기는 2019년 12월부터 ‘Terry’를 도입했다. 영업시간 외에 걸려온 야간의 출장수리 요청전화를 ‘Terry’로 접수함으로써 고객의 요구에 보다 빠르게 대응할 수 있게 됐다.

한국 음성인식 기술기업, 일본 시장 진출에 최적의 타이밍
KOTRA 도쿄무역관은 뛰어난 음성인식 기술을 보유한 한국기업이라면 지금이 일본 시장의 문을 두드리기에 최적의 타이밍이라고 조언하고 있다. 그 이유는 일본의 비즈니스 영역 전반에 걸쳐 활용되며 새로운 부가가치를 창출하고 있기 때문이다. 구글이나 IBM은 음성인식 API를 공개하고 있으며, 스타트업을 비롯한 복수의 벤더가 음성인식 API를 이용한 회의록 작성 서비스를 제공하고 있다.

고객 서비스 현장에서도 고객의 음성을 텍스트화한 데이터를 분석하면 빈출 키워드나 고객의 요구 및 불만사항 등을 정확히 파악할 수 있기 때문에 업무 개선과 효율성을 높이고 있다. 또한, 코로나19의 확대로 수요가 급증한 ‘줌(Zoom)’이나 ‘마이크로소프트 팀즈(Microsoft Teams)’ 등의 화상회의 툴의 영어 버전에도 회의 내용의 실시간 텍스트화 기능이 도입돼 활용되고 있다.

한편, 일본능률협회 종합연구소는 2023년 일본의 음성인식 시장은 2019년(약 200억엔)의 약 5배인 1,010억엔에 이를 것으로 전망했다.
[엄호식 기자(eomhs@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
모니터랩 파워비즈 6개월 2021년7월1~12월31일 까지2021 전망보고서위즈디엔에스 2018파워비즈배너 시작 11월6일 20181105-20200131
설문조사
2021년 주요 보안 위협 트렌드 가운데 올해 말까지 가장 큰 위협이 될 것으로 전망되는 트렌드 한 가지만 꼽아주신다면?
산업 전반에 영향 미치는 타깃형 랜섬웨어 공격 증가
다크웹/딥웹 등을 통한 기업 주요 정보 유출 및 판매 피해 급증
북한/중국/러시아 등 국가지원 해킹그룹의 위협 확대
코로나 팬더믹 등 사회적 이슈 악용한 사이버 공격
서드파티 SW나 조직 인프라 솔루션을 통한 공급망 공격 증가
업무 메일로 위장한 정보유출형 악성코드 활개
기타(댓글로)