Home > 전체기사

[주말판] 현재 가장 인기 높은 데이터 과학 관련 도구와 기술 TOP 10

  |  입력 : 2023-02-04 13:07
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기
데이터 과학은 점점 어느 기업이나 갖추고 있어야 할 필수 덕목이 되어가는 중이다. 그래서 이 분야에서 사용되는 도구들이 보편화 되고 있으며, 데이터 과학 전문가들 사이에서는 순위와 선호도가 정립되어 어느 정도 ‘표준화’ 수준에까지 이르고 있다.

[보안뉴스 문정후 기자] 데이터 과학의 중요성과 필요성을 인지하지 못하는 기업 리더들은 없을 것이다. 하지만 어디서부터 어떻게 시작해야 하는지, 어떻게 해야 그 잠재력을 120% 활용할 수 있을지, 또 보유하고 있는 데이터 분석 기술과 능력을 어떻게 확대시키고 발전시켜야 하는지는 잘 모를 수 있다. 그럴 때 현재 이 시장에서 가장 많이 사용되는 도구들을 알아보는 것이 의외의 활로가 되기도 한다. 본지에서 이 시점에서 가장 인기 높은 플랫폼, 프로그래밍 언어 등 여러 데이터 과학 도구들이 무엇인지 꼽아 보았다.

[이미지 = utoimage]


10위 : 트리팩타(Trifacta) 혹은 알테릭스(Alteryx)
트리팩타는 인기 높은 데이터 과학 도구로, 데이터 랭글링과 데이터 준비 과정을 빠르고 용이하게 해 준다. 미가공 데이터를 한 가지 포맷으로 빠르게 변환시켜줘서 데이터 과학자들이 실제 분석에 곧바로 사용할 수 있게 해 준다. 이 과정이 없다면 데이터 과학자들은 분석도 하지 못하고 긴 시간을 투자해 데이터를 준비해야 한다. 데이터를 특정 포맷으로 처리해 주는 과정이 데이터 과학자가 실제 현장에서 해야 하는 일의 80%를 차지한다는 말도 있을 정도다. 미처리 데이터를 트리팩타에 집어넣으면 데이터들을 검토하고 골라내서 비정상적인 것이나 바뀐 것을 골라내고 형식을 자동으로 바꿔주기 때문에 데이터 과학자들에게는 정말 고마운 도구다. 최근 알테릭스가 트리팩타를 4억 달러에 인수했다.

9위 : 데이터로봇(DataRobot)
데이터로봇은 인공지능과 머신러닝을 기반으로 한 데이터 모델링 도구다. 데이터 과학자들만을 위한 것이 아니라 일반인들까지도 사용할 수 있도록 기획된 도구로, 데이터로봇의 목적은 ‘누구나 활용할 수 있는 데이터 모델링’이다. 그러므로 사용이 매우 쉽고 프로그래밍이나 머신러닝에 대한 기술적인 지식이 없어도 된다. 기초적인 프로그래밍 경험만 가지고 있어도 데이터로봇을 통해 고급 예측 분석 모델을 구축할 수 있다. 그렇다고 전문 데이터 분석가들에게 가치가 없는 도구는 아니다. 경험이 많은 데이터 과학자들이 사용하면 훨씬 나은 예측 모델을 만들 수 있다. 알(R), 파이선(Python), H20, 스파크ML(Spark ML), 바우팔워빗(Vowpal Wabbit) 등 다양한 데이터 분석 관련 도구들과의 호환성도 높은 편이다.

8위 : SQL
데이터를 가지고 뭔가 작업을 할 때, 거의 대부분의 상황에서 비정형 데이터가 많이 다뤄진다. 세상에는 비정형 데이터가 훨씬 많으니까. 그럼에도 데이터 과학자들은 적지 않은 시간을 정형 데이터를 다루는 데 투자한다. 매번 신규 데이터만 분석하는 게 데이터 과학이 아니라, 오래 전부터 저장되어 왔던 과거의 데이터까지도 소화할 수 있어야 하니까 말이다. 즉 데이터 과학자의 일 중에 정형 데이터를 다루는 비중도 만만치 않다는 것이다. 정형 데이터를 손쉽게 다루는 방법 중 하나는 SQL을 사용하는 것이다. 2020년 데이터 과학자들을 대상으로 한 조사에 의하면 44%의 응답자가 SQL을 주기적으로 사용한다고 답했었다. SQL 기반 데이터베이스인 MySQL, PostgresSQL, SQL서버, SQLite 등으로부터 데이터를 요청하기도 하고, 스파크(Spark)나 하둡(Hadoop)과 같은 빅데이터 도구와 함께 사용하기도 한다.

7위 : 엑셀
의외로 데이터 과학자들 사이에서 꾸준히 높은 인기를 구가하고 있는 도구는 엑셀이다. 가장 간과되고 무시되는 도구이기도 하다. 엑셀은 전 세계에서 가장 널리 대중화 된 스프레드시트 도구의 대표 주자이며, 비전문가든 전문가든 대량의 데이터를 정리하고 처리하려고 할 때 가장 먼저 머릿속에 떠오르는 도구이기도 하다. 데이터를 처리하고 시각화하고 정리하고 각종 계산을 실시하기 위해 데이터 과학자들도 일단 컴퓨터를 켜고 엑셀부터 실행시키는 사례가 상당히 많다. 엑셀은 SQL과도 호환성이 좋기도 하다. 방대한 분량의 데이터 작업에는 어울리지 않는다.

6위 : SAS 바이야(SAS Viya)
데이터 관리와 분석이라는 기능을 가장 통합적으로 실시할 수 있게 해 주는 도구로서 SAS 바이야를 첫 손에 꼽는 과학자들이 많다. 위에 언급된 몇몇 도구들과 달리 처음부터 전문가들을 위해 만든 도구다. 통계 분석 전문가들 사이에서 가장 널리 사용되는 도구일 만큼 안정성과 보안성, 기능성 모든 면에서 뛰어나다. 방대한 분량의 데이터를 소화해도 별 탈이 없다. 다양한 라이브러리와 내부 기능들을 갖추고 있어 데이터 과학자들의 작업을 편안하게 해 주며, 인기 높은 프로그래밍 언어와도 호환성이 좋다. 클라우드 기반이며 인공지능을 바탕으로 한 자동화 기능도 갖추고 있다. 다만 비용이 좀 높은 편이다.

5위 : 태블로(Tableau)
가장 널리 사용되는 데이터 시각화 도구 중 하나로, 세일즈포스(Salesforce)에서 개발했다. 태블로는 정형 데이터와 비정형 데이터 모두를 다룰 수 있고, 처리한 데이터를 다양한 방식으로 시각화 할 수 있다. 인터랙티브 그래프, 차트, 맵 등 사용자에게 여러 각도로 데이터 처리 결과와 인사이트를 제공한다. 태블로의 강점이라면 관계형 데이터베이스, 각종 파일 포맷, 대형 클라우드 서비스 등 다채로운 데이터 출처들과 부드럽게 연결된다는 것이다. 데이터로봇처럼 배우기 쉽고 사용하기도 쉽다. 프로그래밍 관련 지식이 그리 많이 필요하지 않다.

4위 : 알(R)
알은 데이터 과학 분야에서 각광 받고 있는 프로그래밍 언어다. 통계학적 모델링과 분석을 진행할 때 특히 많이 사용된다. 데이터 분석에 조금이라도 발을 들여놓고 있는 사람이라면 파이선과 함께 반드시 알아두어야 할 언어가 바로 알이다. 현장에서 이미 활동하고 있는 데이터 과학자들 중 파이선과 알을 다루지 못하는 사람은 거의 없다고 볼 수 있다. 파이선과 알이 비슷한 점도 가지고 있지만 차이점도 꽤 존재하기 때문에 둘이 서로를 대체할 수는 없다. 알은 파이선보다 조금 더 느리고 배우기가 좀 더 까다롭지만 데이터 시각화나 분석을 전문적으로 한다는 측면에서는 파이선보다 낫다고 평가 받는다. 오픈소스이며 현존하는 거의 모든 OS에서 컴파일링이 가능하다.

3위 : 아파치 하둡(Apache Hadoop)
빅데이터 리포지터리로서 인기 1위 제품인 아파치 하둡은 오픈소스 프레임워크이며, 방대한 분량의 데이터를 처리하고 저장하는 데 특화되어 있다. 하둡은 빅데이터 관련 작업을 처리할 때 여러 컴퓨팅 클러스터에 분산하는 방식으로 부하를 줄이고 속도를 높인다. 이 ‘방식’이 중요한 건, 빅데이터나 데이터 과학 분야에 큰 돈을 투자할 수 없는 조직들도 비교적 저렴한 가격에 확장성 높은 데이터 분석 체제를 갖출 수 있게 해 주기 때문이다. 또한 하나의 시스템이 이상 현상을 일으킬 때 다른 클러스터로 워크로드를 넘김으로써 비상 상황에서도 안정적인 데이터 처리 업무를 이어갈 수 있게 된다. 안정성이 높다는 뜻이다.

2위 : 텐서플로(TensorFlow)
구글이 개발한 텐서플로는 오픈소스 라이브러리로 머신러닝 애플리케이션을 개발할 때 가장 많이 활용된다. 이 라이브러리 안에는 각종 리소스와 도구들이 포함되어 있어 개발자들이 크게 선호한다. 복잡하고 규모가 큰 신경망을 구축할 때 머신러닝 개발자들이 처음 머릿속에 떠올리는 솔루션이 바로 텐서플로다. 게다가 파이선과 호환성이 매우 높다는 것도 텐서플로의 인기를 더 높게 만든다. 구글 클라우드(Google Cloud)와 다른 클라우드 컴퓨팅 서비스들도 텐서플로를 기반으로 한 서비스들을 제공하는데, 이 때문에 텐서플로는 높은 접근성까지 갖추게 됐다. 인기가 높을 만한 모든 요소를 갖췄다고 볼 수 있다.

1위 : 파이선(Python)
파이선은 지난 수년 동안 1위 자리를 한 번도 내준 적이 없는 프로그래밍 언어이며, 앞으로도 수년 동안은 그 자리를 수성할 것으로 예상된다. 데이터 과학자들 중 86.7%가 매일 파이선을 사용한다고 하며, 이는 다른 언어들을 모두 합친 것보다 압도적으로 높은 비율이다. 파이선은 비교적 배우기가 용이하며, 그렇기 때문에 데이터 과학 분야에 처음 진입한 사람들에게 많은 사랑을 받는다. 위에 언급된 여러 가지 데이터 과학자용 도구들 중에도 파이선으로 개발된 경우가 많다. 데이터 과학자가 되고 싶은 사람이나, 데이터 과학이라는 기술을 사업적으로 접목하고 싶은 조직이나, 파이선은 반드시 알아두어야 하는 1순위 기본 전제다.

글 : 신시아 하비(Cynthia Harvey), IT 칼럼니스트
[국제부 문정후 기자(globoan@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
아스트론시큐리티 파워비즈 2023년2월23일 시작 시큐아이 위즈디엔에스 2018
설문조사
오픈AI가 개발한 인공지능 챗봇 챗GPT가 GPT4 버전까지 나오면서 디지털 혁신의 촉매재 역할을 하고 있습니다. 보안 분야에서도 챗GPT로 인해 보안위협이 가속화될 것이라는 전망과 함께 보안업무에 효과적으로 활용된다면 보안대응 역량 향상에도 크게 기여할 것이라는 의견도 제기됩니다. 이에 대한 여러분들의 생각은 어떠신가요?
챗GPT 악용으로 인해 보안위협이 더욱 고도화되고 증가할 것
챗GPT를 악용하는데 한계가 있어 보안위협이 소폭 늘어나는 추세에 그칠 것
챗GPT 활용에 따라 보안대응 업무에 적지 않은 도움이 될 것
챗GPT의 적극적인 도입 및 적용 통해 보안대응 역량이 획기적으로 향상될 것
보안위협 또는 보안대응과 관련해서는 큰 영향이 없을 것
기타(댓글로)