[195호 인터뷰] 빅데이터, 새로운 패러다임의 등장-한양대학교 정보사회학과 윤영민 교수

 

윤영민 교수는 한국데이터사이언스학회장으로서 빅데이터 시대의 도래를 누구보다 주의 깊게 지켜보고 있다. 최근에는 SNS를 적극 활용하여 새로운 시대에서의 정보기술과 인간, 그리고 사회관계를 연구하고 있다. 지난 8월 20일, 한양대학교 언론정보대학을 찾아가 윤영민 교수를 만나 빅데이터의 등장과 정보사회에 관한 이야기를 들어봤다.

 

195-01-1

빅데이터의 개념과 의미

Q.  요즘 사회과학, IT분야 등에서 빅데이터가 큰 화제입니다. 하지만 빅데이터라는 용어가 아직 낯설게 받아들여지는 경우도 있을 텐데요. 빅데이터를 어떻게 정의할 수 있을까요?

 

‘빅데이터’는 사실 잘못된 표현입니다. 데이터는 크기의 문제가 아니라 많고 적은 양의 문제이기 때문입니다. 문법적으로는 맞지 않는 말이지만 하나의 상징으로 이해를 해야겠죠. 최근 사용되는 빅데이터는 크게 세 가지 특징으로 설명할 수 있습니다. 먼저, 빅데이터는 많은 양의 데이터를 뜻합니다. 페타바이트(peta byte), 제타바이트(zettabyte)처럼 퍼스널 컴퓨터로는 다루기 힘든 대량의 데이터를 다룰 수 있는 시대가 다가오고 있습니다. 두 번째로는 비정형화된 데이터의 등장을 뜻합니다. 과거의 데이터는 계량화·정형화 된 형태가 전부였습니다. 하지만 지금은 사진, 텍스트, 영상 등, 다양한 비정형 데이터들이 우리가 다룰 수 있는 범주로 들어오게 되었죠. 세 번째로는 실시간으로 데이터를 수집할 수 있는 것이 빅데이터 시대의 특징입니다. 지금도 CCTV, SNS, 그리고 센서 등은 실시간으로 데이터를 만들고 있습니다.

 

Q. 빅데이터가 급성장할 수 있었던 이유는 무엇입니까? 최근 들어서 화젯거리가 되는 이유를 알고 싶습니다.

 

실시간-비정형-대량의 데이터는 빅데이터 시대가 도래하기 전에도 지속적으로 축적되고 있었습니다. 하지만, 과거에는 이러한 데이터를 처리할 능력이 없었습니다. 하드웨어는 물론 소프트웨어도 개발되지 않았습니다. 그러나 지난 몇 년 사이에 하드웨어, 소프트웨어 모두 눈부신 발전을 했기 때문에, 빅데이터를 처리할 수 있는 시대가 도래했습니다. 우리나라에 빅데이터가 소개된 지는 7~8년 정도 된 것 같습니다. 물론 큰 기관에서는 빅데이터를 오래전부터 사용하였지만, 지금처럼 많은 사람들이 비교적 쉽게 다룰 수 있게 된 지는 몇 년 되지 않았죠.

 

Q. 과거의 데이터 분석과 현재의 빅데이터 분석은 어떠한 차이가 있을까요? 많은 양의 데이터를 분석하는 것이 중요한 이유는 무엇입니까?

 

기존의 통계학에서는 샘플을 가지고 분석을 하여 모수를 추정하는 방법을 사용했습니다. 하지만 우리가 많은 데이터를 모을 수 있다면 모수, 혹은 모수에 거의 근접한 샘플을 분석하게 될 수도 있겠죠. 그렇기 때문에 현재의 통계적 추정이 불필요하게 될 수도 있으며, 일각에서는 앞으로 사회과학 이론이 필요 없을 수도 있다는 주장을 합니다. 일반적인 사회과학 이론을 가지고 가설을 세우고 데이터를 검증 및 확인하는 일련의 과학적 방법을 거칩니다. 이 과정에서는 실험 데이터나 샘플 데이터가 사용되지만, 모수에 거의 근접한 빅데이터를 활용하게 되면 이러한 과정이 중요하지 않게 될 수 있다는 것입니다. .

 

Q. 빅데이터 분석의 중요성을 보여주는 실제 사례는 어떤 것이 있을까요?

 

미국의 인터넷 서점 아마존(Amazon)의 경우를 들어 보겠습니다. 아마존은 책을 구매한 사람에게 다른 책을 추천하는 시스템을 운영하고 있습니다. 약 10년 전에도 이 시스템을 운영했지만, 최근 들어 구매자가 실제로 원하는 책을 추천하는 확률이 높아지고 있습니다. 기존의 사회과학에 의하면, 이러한 추천에는 인과 관계와 모형이 필요합니다. A라는 책을 산 사람이 왜 B라는 책을 사려고 하는지 이론이 있어야 하죠. 하지만 아마존은 축적된 대량의 데이터와 상관관계만으로 구매자에게 또 다른 책을 추천함으로써 더 나은 마케팅 효과를 얻게 됩니다. 이처럼 기업은 빅데이터 분석을 통해 마케팅 분야 등에서 큰 효과를 누릴 수 있습니다. 이것이 기업에서 빅데이터에 관심을 갖는 이유 중 하나입니다.

빅데이터 시대의 도래, 그리고 우리나라의 대응

Q.  현재 우리나라는 빅데이터 시대에 어떻게 대응하고 있으며, 앞으로 어떤 움직임이 필요하다고 생각하십니까?

 

우선 가시적인 움직임은 서울대학교에 빅데이터 센터를 개설한 것과 인력양성 프로그램을 계획한 것입니다. 또한 정부에서 빅데이터와 관련된 예산을 책정해 다각도로 움직이고 있습니다. 하지만 이보다 더 중요한 것은 정부가 보유한 정보를 공개하는 것이라고 생각합니다. 정부는 유용한 사회적 가치를 지닌 많은 데이터를 가지고 있지만 비밀주의 행정과 데이터에 대한 주인의식 때문에 데이터를 잘 공개하지 않고 있습니다. 이는 우리나라만의 문제는 아닙니다. 미국도 정부가 데이터를 잘 공개하지 않는 것이 문제시 되었다고 합니다. 심지어 오바마 대통령이 처음 취임할 때 주요 기관에 가장 먼저 내린 명령이 데이터를 오픈하라는 것일 정도였습니다.

 

Q.  데이터를 공개하는 것이 어떠한 의미를 가지나요? 이미 통계청 자료 등으로 많은 정보를 공개하고 있는 것이 아닌가요?

 

그동안 우리나라가 데이터를 공개하지 않은 것이 아닙니다. 하지만, 지금의 주장은 어떤 식으로, 누가, 어떤 용도로 데이터를 사용할 것인가를 정부가 결정하지 말라는 것입니다. 가공된 데이터가 아닌 원자료를 공개하라는 것이죠. 원자료를 개방하게 되면 정부가 용도, 방식을 결정하는 것이 아니라 개인 및 기업이 결정하게 됩니다. 가장 널리 활용되는 몇 가지 주요 포맷으로 데이터를 공개하게 되면, 그 데이터를 가지고 개인이 스마트폰 애플리케이션을 만들 수도 있습니다. 최근 정부는 데이터를 개방하게 되면 일자리 창출, 창업 활동 증가 등 다양한 이점이 있다고 판단해, 데이터를 적극적으로 공개하려는 움직임을 시작하고 있습니다.

 

Q.  빅데이터라는 새로운 패러다임이 등장했습니다. 데이터를 다루는 것이 이토록 중요하게 생각된 적은 없었습니다. 하지만 이러한 발전은 인문학 등 기초학문의 퇴보를 야기하지 않을까 우려하는 시각도 존재하는데요.

 

사회적인 자원을 빅데이터에 집중 투자하게 되어 다른 분야에 보다 낮은 관심을 갖게 된다는 일종의 제로섬게임(zero-sum game)으로 지금의 흐름을 판단하면 곤란합니다. 빅데이터를 다루는 일이 반드시 사회과학, IT분야에서만 이용되는 것이 아닙니다. 인문학에서도 빅데이터가 이용될 수 있습니다. 예를 들어 조선왕조실록과 같은 방대한 양의 자료를 분석할 때 사용될 수 있습니다. 이미 미국에서는 셰익스피어를 연구할 때 빅데이터 분석 방법을 사용하고 있고 다른 분야도 마찬가지입니다. 빅데이터 세미나나 학회를 개최하면 다양한 학문분야의 전문가가 참여합니다. 물론 모든 분야에 빅데이터를 적용할 수는 없겠지만, 기존에 우리가 시도할 수 없었던 새로운 시각, 관점, 방법을 제공한다는 점은 다양한 학문분야에 긍정적인 영향을 끼칠 것이라고 생각합니다.

SNS와 개인, 그리고 사회관계

Q.  페이스북, 트위터 등 SNS 활동이 젊은 청년들 못지않게 매우 활발하십니다. 페이스북 “정보사회학” 페이지를 운영하시고, 그 페이지의 내용을 엮어서 책으로 펴내시기도 하셨는데요, SNS를 활발하게 하시는 이유가 무엇입니까?

 

정보사회학은 기본적으로 정보기술과 인간, 사회의 관계를 다루는 학문입니다. 그 이전에는 인터넷과 사회관계를 주로 연구했습니다. 최근에는 소셜 미디어와 SNS, 그리고 스마트폰이 등장하게 되면서 연구 주제를 SNS로 집중하게 됐습니다. 저는 SNS가 개인의 삶과 사회 관계, 그리고 사회 구조를 어떻게 서로 상호작용하면서 변화시켜 가는지를 연구했습니다. SNS는 인류 역사상 한 번도 없었던 사회 현상이기 때문에, 과거의 지식을 가지고 함부로 적용시키기 힘듭니다. 그렇기 때문에 연구를 위해 본격적으로 SNS를 시작하게 되었죠. SNS 활동의 중심은 상호작용, 즉 대화입니다. 대화에 대해서는 이미 고전 사회학부터 성립된 개념이 있습니다. 이러한 이론들이 온라인상의 대화에서도 적용이 되는지를 연구했습니다.

 

Q.  SNS를 활용하여 진행하신 연구의 구체적인 사례를 들어 주세요.

약 1년 동안 집단지성(collective intelligence)이 SNS상에서 나타날 수 있는지를 연구했습니다. 집단지성은 많은 사람들이 참여해서 주제에 대해 고민하게 되면, 한 명의 천재가 내놓는 결과보다 더 좋은 결과를 얻을 수 있다는 믿음에 기초합니다. 실제로 제가 SNS에 토론 주제를 제시하면 다양한 분야의 지성인들이 참여해 토론하기 시작했습니다. 지쳐서 그만두고 싶은 때도 있었지만 참여자들의 열정에 힘을 얻어 1년 이상 SNS를 통한 연구를 계속할 수 있었습니다. 많은 사람들이 우리나라에서는 토론식의 집단지성은 불가능하다고 했지만, 결국 실험을 통해 가능하다는 결론을 이끌어냈습니다. 이러한 SNS 활동은 일련의 데이터를 엮어서 책으로 펴낼 수 있는 기회를 제공했고, 현재 제가 학회장을 맡고 있는 한국데이터사이언스학회의 핵심 구성원도 이 활동을 통해 만날 수 있었습니다.

Q.  교수님께서는 정보사회학을 전공하셨고, 현재 한국데이터사이언스학회장이신 것으로 볼 때, 도회의 삶이 더 어울릴 것 같은 인상을 줍니다. 하지만 의외로 현재 전원생활을 하고 계십니다. 전원생활을 하시게 된 계기가 있으십니까?

 

오랜 기간 동안 컴퓨터로 일을 하면서 건강에 문제가 생기기 시작했습니다. 제 삶을 돌이켜 보니, 일종의 인공적 공간 속에서 너무 오랜 시간을 보낸다는 것을 깨달았습니다. 자연의 힘을 빌어 치유를 하려고 전원생활을 시작한 것이죠. 전원생활을 계속하다 보니 인간이라는 것은 인공적 환경 속에서만 살 수 없는 존재라는 것을 깨달았습니다. 아무리 과학기술이 발전하더라도 자연과의 균형, 자연과의 친화를 떠나게 되면 결국 우리는 말라 죽을지도 모르겠다는 깨달음을 얻었습니다. 그래서 지금은 자연과 인공의 조화를 취하는 것이 이상적인 모습이라고 생각합니다. 기술기반 사회에서 인공성을 버리거나 떠날 수는 없습니다. 그러나 인공적인 것에 무게 중심을 지나치게 두게 되면, 인간이 원래 갖고 있는 자연성을 상실하게 됩니다.

195-01-2

빅데이터를 다룬다는 것

Q.  앞으로 빅데이터와 관련된 분야에 대한 전망은 어떻습니까? 대학원생들에게 빅데이터에 관심을 가지라고 조언해도 괜찮겠습니까?

 

빅데이터를 다루는 것은 생각보다 어렵지 않습니다. 어느 정도 노력만 하면 다룰 수 있을 정도로 일반화 되었습니다. 앞으로는 더욱 다루기 쉬워질 것입니다. 그렇기 때문에 자신이 진출하는 분야와 관계없이 데이터를 다룰 수 있는 능력을 갖추기를 적극 권장합니다. 또한 빅데이터 자체도 하나의 산업입니다. 빅데이터를 다루는 데이터 사이언티스트(data scientist)도 매우 유망한 분야로 추천합니다.

 

Q.  마지막으로 공부를 하고 있는 대학원생들에게 조언 부탁드립니다.

 

서두르지 말라는 말씀을 드리고 싶네요. 대학원생들이 가지고 있는 공통적인 심리상태는 조급한 마음입니다. 항상 미래에 대한 불안감이 있으며, 빨리 과정을 마쳐야 한다는 생각을 갖고 있기 마련입니다. 대학원에 들어왔다는 것은 축복인데, 조급하면 많은 것을 놓치게 됩니다. 대학원 과정에서 철학적인 고민도 해 봐야 하고, 많은 영감을 받아야 합니다. 위대한 정신도 만나봐야 하며, 많은 영감을 받아야 합니다. 사회에 나가면 할 수 없는 것을 해야 합니다. 하지만 조급한 마음을 갖게 되면 이러한 것들을 할 수 없습니다. 기능적인 지식만을 가진 학자가 되지 않았으면 합니다. 조금 길게 보고 여유를 갖기를 바랍니다.

대담·정리 : 박운호 │ whpark@khu.ac.kr / 사진 : 이철주 │ vertigo1985@khu.ac.kr

 

 

작성자: khugnews

이글 공유

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다