[242호 과학학술 : 딥 페이크 기술의 실제] 딥 페이크(Deep Fake) 콘텐츠의 등장

딥 페이크(Deep Fake) 콘텐츠의 등장

워싱턴 대학교(University of Washington)에서는 오바마 미국 전 대통령(이하 오바마 전 대통령)이 연설하는 동영상을 미국 온라인 매체 버즈피드를 통해 유튜브에 공개하였다. 동영상의 오바마 전 대통령은 기존의 젠틀한 이미지와는 다르게 “트럼프 미국 대통령은 정말, 완전한 쓰레기(dipshit)입니다.”라고 과격하게 발언한다. 물론 이 영상은 인공지능 기술을 이용해서 만들어낸 딥 페이크 콘텐츠이지만, 많은 사람들이 이 동영상이 진짜라고 생각할 수밖에 없도록 정교하게 제작되었다. 영화 감독 조던 필이 만들어 낸 동영상이었다. 그는 “가짜 동영상의 폐해가 얼마나 심각한지 알리기 위해 이 같은 영상을 만들었다”며, 오바마가 위와 같은 말을 한 적이 없음을 분명히 밝혔다.

이 영상은 오바마 전 대통령의 연설 영상을 컴퓨터에게 14시간 동안 학습시켜 말할 때의 입모양, 표정, 얼굴 근육, 얼굴 주름 등을 습득하게 한 후, 조던 필 감독(사진 참조)이 말을 하면, 학습된 내용을 기반으로 얼굴을 똑같이 흉내내어 말하고, 제스쳐도 취하게 하는 방법으로 개발된 영상이다.

유명 인사들을 위협하는 딥 페이크 콘텐츠

2018년에는 마크 저커버그가 “수십억 명의 비밀과 사생활이 담긴 데이터를 통제할 수 있는 사람이 누군지 떠올려 보라”는 발언을 하는 영상이 공개되었다. 이 영상도 마찬가지로 딥 페이크 콘텐츠였지만 당시 페이스북이 개인 정보 유출로 질타를 받고 있던 시기였기 때문에 인터넷을 통해 전 세계에 빠르게 전파되었다. 이 밖에도 배우 알렉 볼드윈이 미국 대통령 트럼프를 개그 소재로 삼아 패러디한 영상에 트럼프 대통령 얼굴을 합성하거나, 트럼프 대통령이 파리 기후협약을 탈퇴한다고 발언하는 딥 페이크 영상도 제작되었다. 

해외뿐만 아니라 국내에서도 유명 인사들의 딥 페이크 영상이 개발되었는데 2019년 7월, 인공지능 스타트업인 ‘머니브레인’은 유튜브에 문재인 대통령의 딥 페이크 영상을 공개하였다. 영상 속의 문재인 대통령은 “존경하고 사랑하는 국민 여러분, 안녕하십니까. 머니브레인의 인공지능 대통령 1호 문재인입니다.”라며 회사를 소개한다. 이 밖에도 전 세계에서 인기를 끌고 있는 방탄소년단 멤버들의 얼굴에 중국 영화배우 성룡의 얼굴을 합성한 영상과 가수 아이유의 인터뷰 영상에 영화 아이언맨 주연 배우의 얼굴을 합성한 영상 등도 존재한다.

이처럼 연예인을 포함한 유명 인사들이 딥 페이크 콘텐츠의 피해자가 되는 이유는 무엇일까? 바로 컴퓨터가 학습하기에 충분한 양의 동영상 데이터가 인터넷에 다량 노출되어 있기 때문이다. 딥 페이크 콘텐츠는 데이터가 많을수록 더욱 정교한 콘텐츠 제작이 가능하다는 특성이 있다.

딥 페이크 생성 기술

그렇다면 딥 페이크가 무엇인지 살펴보자. 딥 페이크는 인공지능 기술 중 하나인 딥 러닝 (Deep Learning)과 가짜(Fake)의 합성어로 만들어진 용어로서 딥 러닝을 활용하여 원본 이미지나 영상 속의 사람을 다른 사람으로 합성하거나 영상과 오디오를 합성하는 기술이다. 딥 페이크를 생성하는 대표적인 딥러닝 알고리즘은 생성적 적대 신경망 GAN(Generative Adversarial Network)이다. 

10년 전만 하더라도 가짜 이미지나 합성사진을 생성하기 위해서는 포토샵(Adobe Photoshop), 일러스트레이터(Illustrator) 등의 도구를 사용해야 했지만, 이제는 공개된 딥 러닝 알고리즘을 이용하면 누구나 쉽게 가짜 이미지 및 동영상을 생성해 낼 수 있다. 딥 페이크를 생성하는 대표적인 딥 러닝 알고리즘은 GAN으로, 구글 브레인에서 머신러닝 연구를 수행하던 대학원생 이안 굿펠로우(Ian Goodfellow)에 의해 2014년 개발되었다.

GAN은 기계학습(Machine Learning) 모델 중, 컴퓨터에게 원하는 결과를 알려주고 학습하게 하는 지도 학습(supervised learning)이 아닌, 입력값으로부터 데이터의 특징을 찾아내도록 하는 비지도 학습(unsupervised learning) 모델에 속한다. GAN은 이미지를 생성하는 생성자(Generator)와 이미지가 진짜인지 가짜인지를 구별하는 감별자(Discriminator)로 이루어진다.

생성자는 특정한 분포로 이미지를 생성하여 이 이미지를 원본 이미지와 함께 구분자에 제공하고, 구분자는 제공된 이미지가 원본 이미지인지 생성자에서 생성된 이미지인지를 구분한다. 이렇게 경쟁적으로 생성과 구분이 반복되면서 감별자도 결과적으로 진짜인지 가짜인지 판단하기 힘든 이미지를 생성자가 생성해 낼 수 있게 된다. GAN은 이미지, 영상, 텍스트 생성 등 다양한 분야에서 활용되고 있으며 사람 얼굴뿐만 아니라, 동물, 풍경 등 어떤 객체라도 인공지능이 현실과 거의 유사하게 이미지를 만들어 낼 수 있게 하는 진화된 이미지 처리기술이다. 

▲ StyleGAN에서 생성된 가짜 이미지
ⓒ StyleGAN2

2019년 2월에는 엔비디아(NVIDIA)에서 GAN 기반으로 유명 연예인의 얼굴 이미지를 학습한 후, 가짜 얼굴 이미지를 생성하는 StyleGAN 기술을 발표하였다.

GAN이 발표된 이후, DCGAN(Deep Convolutional GAN) 및 BEGAN(Boundary Equilibrium GAN) 등 기존의 GAN 모델을 보완하는 모델들이 다수 제안되었지만 이러한 모델들이 사람 얼굴 이미지 생성에 활용될 경우, 부자연스러운 이미지가 생성되거나 이미지의 성별, 연령 등 세부적인 사항을 조절하기가 매우 어렵다는 한계가 존재했다.

엔비디아에서는 이러한 단점들을 보완하여 사람 얼굴 이미지 생성에서 높은 품질을 보이는 StyleGAN을 공개하였다. StyleGAN은 이미지를 스타일(style)의 조합으로 보고, 생성자의 각 계층에 스타일 정보를 추가하는 방식으로 이미지를 생성해 나간다. 스타일 정보는 이미지의 성별부터 머리 색상, 피부 색상까지 포함한다. 이를 통해 StyleGAN은 기존 GAN 모델들보다 더욱 안정적이고 향상된 품질의 얼굴 이미지를 생성할 수 있게 된다. 엔비디아는 2019년 12월 StyleGAN 버전 2를 공개했는데 StyleGAN 버전 1보다 더욱 정교한 고품질의 가짜 이미지를 생성한다.

딥 페이크 탐지 기술의 필요성

현재는 인공지능 지식이 없더라도 누구나 공개된 딥 러닝 알고리즘을 활용하여 쉽게 딥 페이크 콘텐츠를 개발할 수 있는 시대가 되었다. 딥 페이크는 현재 무료 모바일 앱으로도 개발되어 있는데 가장 유명한 앱이 페이크 앱(Fake App)이다. 이 앱을 이용하면 인공지능 기술을 잘 모르는 사용자들도 손쉽게 영상을 합성할 수 있기 때문에 연예인 및 정치인을 개그소재로 이용한 딥 페이크 영상이 무분별하게 생성되고 있다. 

지금까지는 딥 페이크 콘텐츠가 종종 선거에 사용되거나 가짜 뉴스 유포 등 정치적으로 이용되는 사례가 있었지만 점점 조직적인 범죄를 위한 도구로 악용되는 사례들이 늘고 있다. 실례로 국내 약 100여명의 연예인 얼굴을 음란물과 합성하여 제작한 딥 페이크 성착취물이 해외에 서버를 둔 웹 사이트에서 유포되는 사건이 발생되었고, 최근 ‘n번방’ 사건에서는 일반인의 딥 페이크 성착취물이 사회 관계망 서비스(Social Network Service)에 유포되기도 하였다. 

지금까지는 유명 인사들의 영상이 주로 딥 페이크 제작에 이용되었지만, ‘n번방’ 사건과 같이 점점 일반인 피해자도 늘어나고 있는 실정이다. 특히, 전 세계 사회 관계망 서비스에 공개된 수많은 사진 및 영상들이 범죄에 악용될 소지가 높기 때문에 이를 위한 딥 페이크 탐지 기술이 필요하다. 

현재 미국방위고등연구계획국(Defense Advanced Research Projects Agency)은 딥 페이크 영상 탐지를 위한 기술개발에 앞장서고 있으며 마이크로소프트 및 페이스북은 딥 페이크 탐지 대회를 개최하며 딥 페이크 탐지 기술 개발을 장려하고 있다. 미국방위고등연구계획국에서 개발한 대표적인 딥 페이크 영상 탐지 기술은 눈을 깜빡이는 횟수를 측정하는 기술이다. 딥 페이크 영상 속의 사람들은 진짜 사람들에 비해 눈을 깜빡이는 횟수가 적기 때문에 이에 초점을 둔 것이다. 그러나 인도 정치인이 선거에 이용한 딥 페이크 영상 제작에도 활용된 ‘립 싱크(lip-sync)’와 같이 입 모양만 바꾸는 딥 페이크 알고리즘 탐지에는 효과적이지 못하다. 또한, 딥 페이크 영상 제작 시, 눈을 깜빡이는 횟수를 늘리는 훈련을 통해 탐지를 피할 수 있다는 단점도 존재한다. 

이와 같이 빠르게 발전하는 딥 페이크 기술로 인해 탐지가 점점 어려워지면서 딥 페이크 탐지를 위해서도 인공지능 기술을 적용하는 연구가 많이 수행되고 있다. 특히, 이미지 데이터 학습에 강력한 성능을 보이는 합성곱계층망(Convolutional Neural Network, 이하 CNN)을 이용한 연구가 활발히 진행되고 있다. CNN은 합성곱 계층(convolutional layer) 및 풀링 계층(pooling layer)의 조합으로 구성된 신경망에서 진짜와 가짜 영상속의 얼굴 특징을 추출하고, 이를 학습함으로써 딥 페이크를 탐지한다. CNN은 순환신경망(Recurrent Neural Network) 및 LSTM(Long Shor-Term Memory)과 같은 다른 종류의 딥러닝 모델과 단계적으로 조합함으로써 딥 페이크 탐지 성능을 높일 수 있을 뿐 아니라, 현재 이미지 처리 외에도 음성인식이나 자연어 처리에서도 뛰어난 성능을 보이기 때문에 인공지능 기반의 딥 페이크 탐지에 계속 활발히 활용될 것으로 예상된다. 

이와 같이 딥 페이크 탐지 기술을 개발하기 위한 연구가 활발히 진행되고 있지만, 딥 페이크 범죄율을 감소시키기 위해서는 정책적인 대책 마련 또한 중요하다. 일반인을 대상으로 하는 딥 페이크 범죄가 증가하자 국회는 딥 페이크 음란물 유포 범죄에 대해 최고 징역 7년에 처할 수 있도록 법을 개정하였고, 올해 6월부터 강화된 법이 시행될 예정이다. 그동안 딥 페이크 성범죄는 현행법상 성폭력으로 인정되지 않았기 때문에 정보통신망법상 명예훼손 및 음란물 제작 등의 혐의만 적용되었었다. 그러나 오는 6월부터는 이를 범죄로 인지해 엄중 처벌하겠다는 것이 개정안의 취지이다. 이와 같이 딥 페이크 탐지를 위한 기술적 노력과 범죄 예방을 위한 정책적인 노력이 조화를 이룬다면 딥 페이크를 이용한 디지털 범죄를 효과적으로 근절할 수 있을 것이다. 

***tip

* 딥페이크 (Deep Fake) : 딥 러닝(Deep Learning)과 페이크(Fake)의 합성어로서, 인공지능 기술인 딥 러닝을 활용하여 원본 이미지나 영상을 다른 데이터와 합성하는 기술이다. 합성 대상의 동영상 데이터가 많을수록 컴퓨터의 학습량이 많아서 보다 자연스럽다.

* 인공지능 (Artificial Intelligence) : 인간의 학습, 추론, 지각 능력 등을 컴퓨터 프로그램으로 실행한 기술로, AI라는 용어가 대중화되어 있다.

* 머신러닝 (Machine Learning) : 인공지능의 대표적인 학습 방법으로 경험적 데이터를 기계가 스스로 학습하고 모델을 생성해내는 기술이다. 인간의 학습 능력과 유사한 방식을 컴퓨터에서 실현시키는 것으로, 패턴 인식에서 진화했다고도 볼 수 있다.

* 딥러닝 (Deep Learning) : 머신 러닝 중에서도 심층 신경망(Deep Neural Networks)를 사용하는 학습 방식이다. 이 또한 사람처럼 생각하고 학습하는 것을 목표로 한다. 데이터를 분류하고 묶는 것이 기술의 핵심이다.

* 비지도 학습 (unsupervised learning) : 원하는 결과를 기계에 알려주고 학습하는 것이 아닌, 입력값으로부터 데이터의 특징을 찾아내도록 하는 기계학습 방식이다.

* 생성적 적대 신경망 (Generative Adversarial Network) : 비지도 학습방식으로 생성자와 감별자 모델의 경쟁을 통해 실제 데이터 같은 거짓 데이터를 생성하는 심층 신경망이다. 스스로 답을 찾아낼 수 있도록 하는 것이기 때문에 AI 연구의 새로운 분야이지만, 악용 가능성이 높아 우려스러운 점도 있다.

* 합성곱 신경망 (Convolutional Neural Network) : 이미지 학습에 주로 사용되는 신경망으로 합성곱(convolution)과 풀링(pooling)을 반복하며 특징을 학습하는 심층 신경망이다. 주로 시각적 이미지를 분석하는 데에 사용된다. 따라서 이미지 및 비디오를 인식하거나 분류하는 식으로 활용하는 경우가 많다.

김지연 | 서울여자대학교 정보보호학과 교수

작성자: khugnews

이글 공유

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다