[231호 과학학술: 딥러닝 AI 반도체] 인간보다 뛰어난 인공지능의 탄생

최근 인공지능(AI) 기술에 대한 사회의 기대는 점점 커지고 있다. 특히, 딥러닝 기반의 기술들은 SF에서 등장하던 인공지능의 현실화가 가까워졌다는 평가도 받는다. 이에 본보에서는 2018년 2월 카이스트 유회준 교수 연구팀에서 발표한 딥러닝 AI 반도체 ‘UNPU(Unified Neural Network Processing Unit)’에 대해 자세히 알아보고자 한다.

인공지능 반도체 개발의 흐름

과학기술이 발달하면서 우주에 대한 인간의 이해가 깊어졌지만, 가장 가까운 곳에 아직도 완벽하게 이해하지 못한 것이 바로 인간의 ‘뇌’이다. 1950년 영국의 수학자이자 물리학자인 앨런 튜링(Alan Turing)에 의해 시작된 인공지능 연구는 50년이 넘게 이뤄진, 생각보다 오래된 연구이다. 그러나 인간을 뛰어넘는 인공지능은 불가능하리라 전망하며, 2000년대 이전까지 여러번 인공지능 연구는 암흑기를 겪었다. 당시 인간의 뇌를 모방하는 인공지능 기술은 과학적·기술적으로 많은 도전적인 문제가 남아 있었기 때문에 시기상조라는 우려도 많았다. 하지만 그 기대효과 또한 지대할 것이라는 전망도 있었다. 인공지능에 대한 서로 다른 전망 속에서 2013년에는 물체 인식 연구에서 최초로 인간의 인지능력을 뛰어넘는 인공지능, ‘딥러닝(Deep Learning)’이 등장했다. 2015년에는 구글 딥마인드(Google DeepMind)에서 개발한 알파고(AlphaGo)가 프로바둑기사 이세돌 9단을 이기는 역사적인 일이 벌어졌다. 인간을 뛰어넘는 인공지능의 탄생은 당연하게도 모든 사람에게 큰 충격으로 다가왔고, 딥러닝과 인공지능 연구는 미래 산업을 이끌어갈 가장 중요한 연구가 되었다. 급부상한 딥러닝은 순식간에 번역, 음성, 물체, 얼굴 인식 등에 다양하게 적용되어 우리 삶에 녹아들었다. 딥러닝에 사용되는 심층 신경망(Deep Neural Network)은 인간의 뇌와 유사한 인공신경망으로, 다양한 문제를 스스로 학습하여 해결할 수 있다. 하지만 대용량 데이터 처리의 필요성이 커지면서 이를 빠르게 가속하기 위한 반도체 기술을 요구하게 되었다. 초기에는 NVIDIA의 GPU(Graphics Processing Unit)를 통해 심층 신경망에 필요한 연산 가속을 대체했다. 2016년 구글의 TPU(Tensor Processing Unit) 서버용 딥러닝 가속기가 등장하면서, 데이터센터와의 통신을 통해 많은 연산을 대신 처리하는 방법을 사용했다. 그러나 드론과 스마트폰 등의 모바일 기기 분야에서 딥러닝 수요가 점점 늘어나면서 서버와의 통신 없이 모바일 기기 자체적으로 연산을 처리할 수 있는 기술에 대한 수요 또한 급증하고 있다. 이러한 변화에 맞춰, 최근 글로벌 IT 기업들이 모바일 인공지능을 위한 기술들을 경쟁적으로 발표하고 있지만 대체로 소프트웨어 기술이 주를 이루고 있다. 소프트웨어 기술은 처리하는 데이터의 크기를 줄일 수 있지만, 여전히 연산속도가 느리고 전력 소모가 큰 문제점을 해결하지 못해 모바일 환경에서 효율적인 구현이 어려웠다. 이런 세계적인 흐름을 통해 모바일 기기에서 적은 전력 소모로 고속 딥러닝 연산이 가능한 인공지능 반도체 기술은 필수적인 것을 예상할 수 있다.

 

UNPU 개발 배경 및 핵심 기술

국내 인공지능 칩 연구는 2000년대 초반으로 거슬러 올라간다. 초기에는 인간의 뇌를 모방한 반도체 칩 연구가 진행되었다. 뇌 모방 알고리즘은 아주 오래된 연구 주제지만 반도체에 응용하려는 시도는 많지 않았다. 개념도 모호하고, 구현하기 위한 확실한 알고리즘이 없어 해부학이나 신경학의 지식을 바탕으로 연구 방향을 설정했다. 게다가 뇌 모방을 통한 인공지능 칩 연구는 국내에서 익숙하지 않은 분야였기 때문에, 연구의 필요성을 사람들에게 크게 각인시키기 어려웠다. 이런 어려움은 연구비와 직결되는 문제였는데, 2008년 리먼 사태 때는 칩 제작비를 줄이기 위해 중국의 파운드리 업체까지 찾아 나섰지만 소용이 없었다. 다행스럽게도 어려운 환경에서 제작한 인공지능 반도체 칩은 긍정적인 반응들을 끌어낼 수 있었다. 이러한 성공에 힘입어, 세계 최고 반도체 학회들에 인공지능 반도체 칩을 공개하면서 국내뿐만 아니라 해외의 많은 관계자에게 인공지능 반도체의 중요성을 알리고 이 분야의 기술을 개척할 수 있었다. 알파고에 의해 인공지능이 주목을 받기 훨씬 전인 2008년 2월 국제고체회로학회(ISSCC)를 시작으로 발표하였던 인공지능 반도체 칩들이 모두 세계 학회에서 크게 인정을 받았고, 이를 적용한 증강현실 안경 ‘K-Glass 시리즈’를 개발하기에 이르렀다.
2013년부터는 심층 신경망이라는 알고리즘이 보급되면서 이때부터 심층 신경망용 고성능·저전력 칩 연구를 시작했다. 당시에는 NVIDIA에서 개발한 GPU에 의해서만 심층 신경망 가속이 가능했는데, 5W 이상의 상당한 전력 소모와 느린 속도로 모바일 기기에는 부적합했다. 이후 구글도 서버용 심층 신경망 가속 칩인 TPU를 개발하였고, NVIDIA도 Volta와 같은 서버용 고성능 심층 신경망 가속 칩 개발에 박차를 가했다. 국내에서도 여러 기업이 서버용 심층 신경망 가속 칩을 개발 중이었고, 모바일 기기용 심층 신경망 가속 칩을 개발하기 위한 모바일·내장 기기용 심층 신경망 연구가 진행하고 있었다. 2017년에는 심층 신경망의 대표 격인 회선인공신경망(Convolutional Neural Network, CNN)과 재귀 인공신경망(Recurrent Neural Network, RNN)을 가속하기 위한 이형 프로세서인 DNPU(Deep Neural Network Processing Unit)와 심층 신경망을 통한 얼굴 인식 시스템인 ‘K-Eye’를 개발하여 공개했다. 대표적인 심층 신경망인 회선 인공신경망과 재귀 인공신경망은 데이터 처리 및 연산 방식이 크게 달라, 다르게 디자인된 프로세서들에서 각각 가속하는 것이 일반적이었다. DNPU는 이러한 특성을 반영하여 제작한 범용 이형 프로세서로, 서로 다른 연산 방식에 최적화시켜 높은 에너지 효율을 보일 수 있었다. 2018년에는 다양한 종류의 인공신경망을 모두 같은 회로로 가속하여 GPU와 TPU를 뛰어넘는 저전력·고성능 프로세서인 UNPU 개발에 성공했다. (Jinmook Lee, Changhyeon Kim, Sanghoon Kang, Dongjoo Shin, Sangyeob Kim, Hoi-Jun Yoo(2018), UNPU: A 50.6 TOPS/W Unified Deep Neural Network Accelerator with 1b-to-16b Fully-Variable Weight Bit-Precision.)

 

▲ <그림 1> UNPU 칩과 성능                                           ⓒ 2018 IEEE

 

2018년 2월 국제고체회로학회에 발표된 UNPU는 다양한 심층 신경망에 모두 적용 가능한 높은 유연성과 기존 인공지능 가속기에서는 달성하지 못한 낮은 전력 소모, 높은 처리량으로 크게 주목을 받았다. UNPU는 2017년에 발표한 DNPU와 달리, 통합된 코어 아키텍처를 가지고 있어 회선 인공신경망과 재귀 인공신경망을 하나의 회로로 가속하는 것이 가능하다. 같은 회로에서 다른 특성을 갖는 인공신경망을 모두 가속할 수 있는 이유는 2차원 입력 데이터를 1차원 입력 데이터로 자동으로 전환해주는 회로가 집적되어 있기 때문이다. 덕분에 UNPU의 연산회로는 어떤 인공신경망을 가속하더라도 같은 회로를 사용할 수 있다. UNPU의 동형 프로세서는 회선 인공신경망의 경우 1.15배, 재귀 인공신경망의 경우 13.8배 정도 기존 이형 프로세서 대비 높은 성능을 보인다.
UNPU의 두 번째 특징은 심층 신경망 연산을 위해 1비트부터 16비트까지 다양한 비트수로 동작이 가능한 것이다. 심층 신경망의 큰 데이터 크기와 연산량으로 인한 문제를 최소화하기 위해 최근 심층 신경망을 적은 비트수로 연산하려는 움직임이 늘어나고 있다. 일반적으로 컴퓨터에서 사용하고 있는 CPU와 GPU의 경우 32비트의 비트수를 사용하여 연산하고 있는데, 데이터를 표현하는 데 필요한 비트수를 줄이면 필요한 메모리양과 연산기에서 생기는 전력소모를 최소화 할 수 있다. 비트수를 낮추는 방법은 심층 신경망의 정확도를 크게 떨어뜨리는 문제를 가지고 있어, 함부로 낮은 비트수로 낮추는 것은 어렵다. 또한, 심층 신경망의 종류와 심층 신경망이 해결해야 하는 문제의 복잡도에 따라 정확도 손실을 최소화하는 비트수도 달라져 범용 심층 신경망용 프로세서로 발전시키는 데는 어려움이 있었다. UNPU는 이러한 문제를 하드웨어에서 해결하기 위해 비트 시리얼(bit-serial) 연산 방식을 채택했다. 비트 시리얼 연산 방식은 1비트의 작은 연산 단위로 높은 비트수의 연산을 쪼개 처리할 수 있는 방식을 일컫는다. 이 방식을 도입한 UNPU는 1비트부터 16비트까지 다양한 비트수의 연산을 처리하는 것이 가능하다. 덕분에 심층 신경망의 종류에 따라 가장 높은 효율을 갖는 비트수를 찾고 이에 맞춰 동적으로 가속하는 것이 가능하다. 그동안에도 여러 번의 시도가 있었지만, 이번 칩처럼 완벽하게 비트수를 변형할 수 있는 프로세서는 없었다. 비유를 들자면 소프트웨어로 쉽게 변경이 가능한 CPU의 출현과 비슷한 것이다. 비트 시리얼 연산 방식을 채택한 UNPU는 기존 저전력 인공지능 프로세서 대비 에너지 효율을 최대 53.6% 가량 획기적으로 증가시켰다.

 

▲ <그림 2> UNPU의 원리와 성능 : 비트 시리얼 기법을 사용한 인공지능 연산 ⓒ 2018 IEEE

 

▲ <표 1> UNPU와 타 제품 성능 비교                                             ⓒ 필자제공

비트 시리얼 방식을 사용하면 이전에 수행했던 연산패턴을 반복적으로 수행해야 하는 경우가 늘어난다. 이러한 반복적인 연산은 과거 연산했던 결과를 재사용하여 반복되는 연산을 최소화 할 수 있다. 이러한 원리로, UNPU는 테이블 참조(Look-up table) 기반의 연산 방식을 비트 시리얼 연산 방식에 적용해 모바일 기기에 맞는 저전력 심층 신경망 가속을 가능하게 했다. UNPU가 제공하는 최소 비트인 1비트로 연산을 수행할 경우, 1W 전력 소모 당 50TB 이상의 연산이 수행 가능하며, 이는 CPU나 GPU, 그리고 구글의 TPU도 훨씬 웃도는 수치이다. UNPU는 65㎚ 공정을 사용하여 16㎟ 크기로 설계 및 제작되었다. UNPU는 1.1V 전압, 200㎒ 동작 주파수에서 297㎽의 전력 소모로 동작하며, 이는 0.63V, 5㎒까지 규모를 줄여 3.2㎽의 낮은 전력을 소모하면서 동작하는 것이 가능하다. UNPU는 1비트 정밀도를 사용하였을 때 1W 전력 소모 당 50.6TB 연산을 수행 할 수 있는 전력 효율을 가지며, 16비트 정밀도를 사용하여 계산하였을 때는 1W 당 3.08TB 연산을 수행 할 수 있다. 인공지능 가속 프로세서 성능 평가에 널리 사용되는 AlexNet(CNN)를 사용하여 UNPU의 성능을 확인한 결과, 타사 대비 효율적으로 작동하는 것을 알 수 있었다. UNPU는 NVIDIA의 TX2 칩과 Samsung Galaxy S6과 비교하여 각각 48배, 5.76배 적은 전력 소모량으로 심층 신경망 AlexNet을 가속할 수 있다. 이때 23.9배, 89.8배 높은 에너지 효율로 동작하는 것이 가능하다.

 

UNPU를 활용한 감정인식 시스템

 

▲ <그림 3> 감정인식 시스템                             ⓒ 필자제공

 

UNPU 칩은 물체 인식, 음성 인식 등 다양한 분야에 응용될 수 있지만, 이번 국제고체회로학회에서는 보다 생소한 사람들의 감정을 인식할 수 있는 시스템을 공개했다. UNPU 칩이 집적된 보드에는 USB 포트가 있어 감정 인식 애플리케이션이 설치된 스마트폰을 꽂으면 바로 감정 인식 데모를 실행할 수 있다. 스마트폰은 전면 카메라를 통해 사용자의 얼굴을 실시간으로 캡처해 UNPU로 전송하고, UNPU는 얼굴 표정을 보고 행복, 놀람, 공포, 중립 등 7가지의 감정 상태를 자동으로 인식하여 현재 사용자의 감정 상태를 알려준다. UNPU의 감정인식 시스템은 자신도 몰랐던 하루 동안의 감정변화를 통계로 보여 줄 수 있다. 더불어 감정인식이 마케팅에 활용될 경우, 구매자의 표정을 분석해 상품에 대한 호감도 등을 정량적으로 조사할 수도 있다.

 

인공지능 기술의 미래

인공지능 기술은 이미 산업계와 개인 소비자를 대상으로 하는 분야에도 뿌리내렸으며, 매우 다양한 분야에서 활용되고 있다. 얼굴 인식을 통한 잠금 해제, 심층 신경망을 통한 높은 정확도의 질병 예측 등 인공지능은 이미 우리 삶의 일부가 되었다고 해도 과언이 아니다. 하지만 데이터 센터와 통신을 통한 심층 신경망 활용은 개인정보 문제 등과 합쳐져 제한적일 수밖에 없다. 따라서 모바일 기기에서의 개별적인 심층 신경망 처리 기술은 앞으로도 그 수요가 더욱 증가할 것이며, 곧 모든 스마트폰 애플리케이션에도 필수적인 요소가 될 것이다. 2015년 이전까지 인공지능 반도체 및 뇌 모방 프로세서는 세간의 관심을 받지 못했다. 알파고 충격 이후부터 이 분야에 관한 관심이 커지고 있어서 이전보다 분위기는 좋아졌지만, 소프트웨어 위주의 연구가 주를 이루고 있다. 소프트웨어를 기반으로 한 인공지능 연구는 인간과 같거나, 인간을 뛰어넘는 지능을 갖는 구체적인 하드웨어 없이 그 구현이 불가능한 것은 분명하다. 하지만 점차 요구하는 데이터의 크기와 그 처리량이 커지면서 소프트웨어적 발전만으로는 이들을 실제로 처리하고 지능을 구현할 수가 없어 ‘담을 그릇이 없는 물’에 불과하며 사상누각일 뿐이다. 이러한 한계를 분명히 인식하고 중국이나 미국, 유럽, 최근에는 일본과 대만까지도 매우 큰 규모의 지원을 통해 인공지능 칩 연구를 시작하고 있다. 전세계에서 경쟁적으로 인공지능 반도체에 대한 지원책들이 쏟아져 나오며 많은 스타트업이 떠오르고 있다. 반면에, 우리나라의 인공지능 칩 연구 규모는 여전히 매우 작은 편이다. 하지만 마냥 비관적인 상황은 아니다. 우리나라의 인공지능 칩 분야에 관한 기술은 이미 세계적인 수준이며, 다른 나라에 밀리지 않는 높은 반도체 기술을 선점하고 있어 발전 가능성이 아주 크다. 이를 위해서는 로봇이나 드론 등의 새로운 응용분야에서 우리나라 기업들이 인공지능 칩으로 세계 시장을 선도해 나아가야 할 것이며 이를 위한 벤처 회사에 대한 지원이 필요하다. CPU와 GPU의 시기에는 우리가 외국의 칩을 수입했지만, 인공지능 칩의 시기인 미래에는 우리나라의 칩이 세계를 제패할 날이 오기를 기대한다.

 

 

유 회 준 / KAIST 전기 및 전자공학부 교수

 

작성자: khugnews

이글 공유

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다