탐정처럼 데이터의 비밀을 밝혀낸다! 데이터 과학자
<KISTI의 과학향기> 제3036호 2024년 03월 11일
여러분의 장래 희망은 무엇인가요? 미래 유망 직업을 꼽을 때, 빠지지 않고 등장하는 것 중 하나가 ‘데이터 과학자’입니다. 특히 최근에는 인공지능(AI) 기술이 발전하면서 데이터 과학자의 인기가 더 높아지고 있어요. AI는 데이터를 기반으로 학습하고 작동하기에, 데이터를 다루는 데이터 과학자의 역할이 그만큼 중요해졌기 때문입니다. 이번 과학향기에서는 데이터 과학이 무엇인지, 데이터 과학자들은 어떤 일을 하는지 알아보기로 해요.
그림 1. 데이터 과학은 데이터를 수집하고 분석해 가치 있는 정보를 추출하는 분야다.
ⓒshutterstock
셜록 홈스처럼 데이터를 모아 비밀을 찾는 데이터 과학자
데이터 과학은 다양한 분야에서 데이터를 수집하고 분석해 가치 있는 정보를 추출하는 분야를 말해요.
그리고 데이터 과학 분야에서 일하는 사람들을 데이터 과학자라고 부르죠.
쉽게 비유를 들자면, 데이터 과학자는 셜록 홈스 같은 탐정이라고 할 수 있어요.
홈스는 사건을 해결하기 위해 현장에서 수많은 단서를 수집해요. 그리고 날카로운 관찰력과 추리력, 창의력을 발휘해 단서를 조합하고, 진실을 파헤쳐 범인을 찾아내죠. 데이터 과학자들의 일도 이와 비슷합니다.
우리 주변에 있는 엄청난 양의 데이터들을 모으고 분석해,
그 속에서 숨겨진 의미를 찾아내는 것이 데이터 과학자들의 역할입니다.
데이터 과학자들이 하는 일을 조금 더 자세하게 살펴볼까요?
우선 데이터 과학자들은 텍스트, 이미지, 음성 등 다양한 형태의 수많은 데이터를 수집합니다.
그리고 이렇게 모은 데이터를 컴퓨터를 이용해 깔끔하게 정리하고, 분석에 적합하도록 변환합니다.
그다음, 수학과 통계, 모델링 등의 방법을 활용해서 데이터의 패턴과 특징을 파악합니다.
그리고 이 결과를 통해 미래를 예측하거나, 새로운 지식을 발견하고 문제를 해결하죠.
데이터 과학자들은 데이터를 분석해 세상을 더 잘 이해하고, 더 나은 세상을 만들 수 있도록 돕습니다.
그림 2. 데이터 과학자는 데이터의 패턴과 특징을 분석해 미래를 예측하거나,
여러 문제들을 해결한다. ⓒ shutterstock
다양한 분야에서 활용되고 있는 데이터 과학
그렇다면 데이터 과학은 어디서, 어떻게 활용되고 있을까요? 예를 들어 볼게요.
유튜브에 접속하면 알고리즘이 여러 동영상을 추천해줍니다.
이 동영상 추천 알고리즘도 데이터 과학의 결과물이에요.
여러분이 이전에 시청한 동영상 기록, ‘좋아요’를 눌렀거나 댓글을 쓴 기록 등이 모두 데이터가 되어 분석의 대상이 됩니다. 그리고 분석 결과를 토대로 여러분의 취향일 거라 생각되는 영상들을 제안해주는 거죠.
이뿐만이 아니에요. 새로운 상품을 개발하고 출시할 때도 데이터 과학이 쓰입니다.
비슷한 다른 상품이 어떻게 팔리고 있는지, 나이별로 어떤 상품을 좋아하고 구매하는지 등의 데이터를 분석하면 새 제품을 개발하는 데 큰 도움이 됩니다. 또 교통 데이터를 분석해, 교통 체증을 예측하고 운전자들이 최적의 경로로 목적지까지 갈 수 있도록 도와주기도 해요. 금융 분야에서는 은행 거래 데이터를 분석해서 사기를 예측하고 방지하는 데도 활용될 수 있어요. 의료 분야에서는 환자의 유전 정보, 생활 습관, 의료 기록 등을 분석해 맞춤형 치료에 도움을 줄 수도 있죠. 이처럼 데이터 과학은 다양한 분야에서 활용되고 있답니다.
데이터 과학자가 되려면? 과학기술데이터 대표 연구기관 KISTI의 데이터 과학자 인터뷰
미래에 데이터 과학자가 되고 싶은 친구들은 여기 주목!
한국과학기술정보연구원(KISTI)은 국가 과학기술데이터 대표 연구기관이에요.
과학기술과 관련된 데이터를 수집해 제공할 뿐만 아니라, 데이터를 분석해 미래를 조망하고 문제에 대한 해결책을 제안하는 등, 데이터와 관련된 다양한 연구를 진행하고 있죠.
그만큼 KISTI에는 많은 데이터 과학자들이 일하고 있는데요, 이혜진 KISTI 디지털큐레이션센터 센터장님을 만나 KISTI에서는 어떤 일을 하는지, 또 데이터 과학자가 되려면 어떤 준비를 하면 좋을지 등을 여쭤봤어요.
함께 만나볼까요?
Q. KISTI 디지털 큐레이션 센터는 어떤 곳인가요?
이곳에서 어떤 일을 하고 있으신지 소개 부탁드립니다.
KISTI 디지털큐레이션 센터는 과학기술 관련 데이터를 모으고, 저장하고, 관리해 정보가 필요한 곳에 제공하고 있어요. 더 나아가 데이터가 용도에 맞게 잘 활용될 수 있도록 데이터에 여러 가치를 부여하는 일을 하고 있습니다. 예를 들어 데이터를 주제에 맞게 분류하고, 서로 다른 데이터를 연결하고, 검색이 잘되도록 데이터를 해석하거나 표현하는 방법을 연구하고 있습니다.
그림 4. KISTI는 국가 과학기술데이터 대표 연구기관으로, 데이터와 관련된 다양한 연구를 하고 있다. ⓒKISTI
Q. 데이터 과학자가 되신 계기가 있으셨나요?
데이터 과학자의 매력은 무엇이라고 생각하시나요?
저는 문헌정보학을 전공했는데, 공부하면서 정보와 데이터의 위대함을 느꼈습니다.
어떻게 데이터를 분석하고 활용하느냐에 따라 데이터가 변화무쌍하게 해석될 수 있다는 점에 매력을 느꼈어요.
그래서 석사·박사과정을 거치면서 통계, 데이터 모델링, 시각화, 프로그래밍 언어 등 데이터를 표현하는 기술과
관련된 수업들을 들으며 데이터 과학자로서의 훈련을 받았습니다. 데이터 과학자가 된 지금은,
데이터라는 원석에서 의미 있고, 새로운 것을 만들어내는 과정 그 자체가 매력이라고 생각합니다.
Q. 인공지능(AI)의 발전으로 앞으로 데이터 활용이나 분석이 더 중요해질 것 같습니다.
데이터 과학 분야의 전망은 어떤가요?
AI는 데이터와 떼려야 뗄 수 없는 관계입니다. AI 모델을 만들기 위해서는 데이터를 학습시켜야 합니다.
또 학습 후 AI가 주어진 정보의 의미를 분석하고 파악해 의사결정을 할 때도 데이터가 필요하고요.
챗GPT처럼 AI는 점점 더 큰 규모의 데이터를 학습하고 처리해야 하며, 더 정교하고 정확한 데이터를 학습할수록 AI의 성능이 좋아집니다. 이처럼 데이터와 AI의 긴밀한 관계 속에서, 데이터 과학 분야는 앞으로 더 중요해질 거라 생각합니다.
Q. 데이터 과학자가 되려면 어떤 준비를 하는 것이 좋을까요?
데이터 과학자는 다양한 분야에서 활약할 수 있어 필요한 지식의 범위가 넓고, 발전속도도 빨라서
모든 것을 완벽하게 공부하고 준비하는 것은 어려워요. 하지만 기본적으로 수학과 통계, 머신 러닝과 딥 러닝 등 AI에 관한 기초 공부를 해두면 좋습니다.
또 KISTI나 통계청 등에서 다양한 데이터 활용 경진대회를 개최하고 있어요.
데이터를 직접 처리하고 관련 기술을 만들어내는 전문 분야도 있지만, 데이터에 대한 활용 아이디어를 모집하는 경우도 있으니 관심을 갖고 적극적으로 참여하면 도움이 될 거예요.
Q. 마지막으로 데이터 과학자가 되고 싶은 학생들을 위해 한 말씀 부탁드립니다.
앞서 말했듯, AI가 발전할수록 데이터 분야도 함께 성장할 거예요.
그리고 그만큼 ‘데이터 윤리’도 중요해질 겁니다.
AI 모델은 사람이 만든 데이터로 학습하므로, 편향된 데이터를 사용하거나 나쁜 의도로 사용하게 되면 의사결정에 큰 오류가 생길 수 있기 때문입니다. 활용하고자 하는 목적에 맞게 안전하고, 정확하고, 책임감 있게 데이터를 사용하는 것이 중요해요. ‘콩 심은 데 콩 나고 팥 심은 데 팥 난다’는 말처럼 좋은 데이터가 좋은 결과를 만들어낼 수 있다는 점을 염두에 두고 데이터 과학자의 꿈을 키워가면 좋겠습니다.