[187호 과학학술: 인체인식 기술] 보안에서 출발한 인체인식기술, 문화용으로 꽃피우다

영화 리얼스틸(real steel), 아이로봇 등을 보셨나요? 이들 영화에서 로봇들은 사람을 인식하며 사람의 동작을 그대로 따라하고 있습니다. 로봇이 인간을 대신하여 궂은일을 하는 등의 역할을 수행하려면 인간처럼 동작하게 하는 모터제어, 자세제어 등의 기술뿐만 아니라 로봇 속의 컴퓨터가 인간의 얼굴, 목소리, 동작 등을 이해해야 인간이 원하는 일을 할 수 있지 않을까요? 즉 컴퓨터가 인체를 인식해야 할 텐데요. 그 인식 방법으로 무엇이 있을까요?

 

인체인식기술은 지문, 홍채, 얼굴, 목소리 등 사람의 신체정보 또는 걸음걸이, 서명 등 행동정보를 이용하여 사람을 인지하는 기술을 말하는데 여기서는 영상정보를 활용하여 얻을 수 있는 신체정보로 인체를 인지할 수 있는 기술을 다뤄봅니다. 먼저 보안용으로 개발되고 활용되기 시작한 인체인식기술을 알아보겠습니다.

 

지문인식기술

 먼저 지문인식기술이 있습니다. 현재 디지털 도어락(Door Lock), 동사무소, 은행 등에서 본인 인증용으로 많이 사용되고 있습니다. 지문은 손가락 끝에 땀샘이 융기되어 형성된 손가락무늬를 말하며 그 모양이 사람마다 다르고 평생동안 변하지 않는 특성을 가지고 있어 본인 인증용으로 사용됩니다.

지문 인식기술은 크게 손가락을 올려 놓고 지문을 촬영하는 입력시스템과 저장된 지문 데이터베이스와 대조해 본인 여부를 판단하는 인증시스템으로 이루어집니다. 지문 촬영은 CCD카메라를 이용하는 광학 스캐너 방식과 CMOS반도체소자를 이용하는 비광학 스캐너방식(노트북이나 키보드 등에 내장하여 사용)으로 나누어집니다. 광학 스캐너 방식은 촬영된 지문 영상에서 불필요한 이미지 등을 제거하고 지문만을 얇은 선으로 만든 다음, 갈라진 점, 이어진 점, 끝점 등 특징이 되는 곳을 특이점으로서 좌표로 잡습니다. 그리고 각 특이점에서 지문선의 갈라지는 방향을 좌표상의 데이터로 저장해 놓고 좌표와 함께 지문인식의 기본 데이터로 활용합니다.

비광학 스캐너 방식은 일종의 센서를 이용하는 것으로 접촉 부위의 금속과 지문 사이에 만들어지는 전기용량 값을 측정, 수치화하여 지문을 인식하는 방식입니다. 지문인식기술은 필요로 하는 데이터 양이 다른 인식기술에 비해 적어, 가장 많이 사용되고 있습니다. 단점으로는 지문이 닳거나 노화, 질병에 따라 손가락 무늬가 약해지거나 없어지는 경우 등으로 오인식 가능성도 있다고 합니다.

 

정맥인식기술

 또 다른 기술로 손등(바닥)이나 손가락 정맥인식기술이 있습니다. 정맥은 인체 내부에 있어 외상이나 노화로 인한 변형의 가능성이 적은 장점이 있다고 합니다. 우리나라 기업에서 세계 최초로 개발해 도입시킨 손등 혈관(정맥)인식기술은 1999년에 국방부 전산소출입통제시스템에 도입되기도 하였습니다. 혈관인식은 혈관의 특정 위치를 좌표로 인식할 뿐 아니라 전체적인 혈관 모양도 비교합니다. 이때 사용하는 광원은 도어폰에 사용되는 적외선(950nm)으로 인체에 무해합니다. 손등의 정맥패턴의 복잡도가 크고 정맥촬영시 일정치 않은 손의 위치로 인해 오인식 문제가 있어 손가락 정맥을 인식하는 기술도 개발되었습니다. 손가락은 손등에 비해 정맥패턴이 단순하고 크기가 작아 촬영시의 문제도 상대적으로 적다고 합니다.

LED조명에서 투사된 적외선은 근육이나 뼈 조직은 통과하는 반면 혈관에서는 적혈구가 적외선을 흡수하여 통과하지 못하므로 CCD카메라에 혈관 부분이 어둡게 촬영되는 특성을 이용합니다. 물론 촬영시스템에서 촬영시마다 달라질 수 있는 손가락크기를 일정크기로 정규화하고 불필요한 이미지를 제거하는 전처리 과정을 거칩니다. 촬영된 손가락 정맥은 정맥의 분기점, 분기점에서의 분기각도, 분기점의 개수 등의 특징 등을 추출하여 패턴화함으로써 기존 입력된 손가락 정맥과 일치 여부를 판단하게 됩니다. 손등의 정맥과 유사한 것으로, 얼굴의 혈관에서 발생하는 열상을 열적외선 카메라로 촬영하여 디지털 정보로 저장하는 방법도 있습니다.

 

열적외선활용인식기술

 열적외선카메라는 물체에서 원적외선이 방사되는 특성을 이용합니다. 온도가 높을수록 많은 양의 원적외선이 나오며 온도가 낮을수록 적은 양의 원적외선이 나옵니다(그림 3 참조). 온도에 따른 이런 특성 때문에 열선이라고도 불리는 원적외선을 감지하는 µ-Bolometer전기소자, 반도체인 적외선 광 검출기 등의 검출기를 사용하여 빛이 거의 없는 야간에도 인체를 인식할 수 있습니다. 먼저 적외선 투과 렌즈 뒤쪽에 검출기를 배열하여 렌즈를 통과한 원적외선을 전기신호로 변환시킵니다. 그리고 여러 개의 미세한 검출기 전기출력을 증폭하고 단일 영상정보로 변환시킨 후 색상을 입히고 인체 외곽선 처리 등의 영상처리하는 단계를 거치게 됩니다.

 

얼굴인식기술

 또 다른 인체감지기술로 얼굴감지기술이 있습니다. 촬영한 영상에서 얼굴을 찾아내는 얼굴 검출기술과 검출된 얼굴이 등록된 사용자의 얼굴인지 확인하는 인증부분으로 나누어져 있습니다. 얼굴크기에 상관없이 얼굴을 검출하기 위해 촬영된 영상을 일정 비율로 먼저 축소합니다. 그리고 조명의 간섭을 최소화하기 위해 흑백 평면부조와 같은 영상으로 변환을 시켜준 후 얼굴의 구성요소를 바탕으로 얼굴을 찾게 됩니다. 얼굴 위치를 확인 후 본래 영상으로 복원을 하는 과정으로 얼굴 검출 과정을 마치게 됩니다.

검출된 얼굴을 초기 얼굴 인증기술에서는 얼굴의 기하학적 특징으로 구별하는 방법을 사용하였는데 눈, 코, 입 등의 얼굴 구성요소들을 찾고 이들 구성요소간의 지형적인 특성 차이를 이용하는 것입니다. 그러나 최근에는 얼굴의 표정, 조명, 각도 등으로 야기되는 다양한 얼굴 형상을 처리하기 위하여 복잡한 얼굴 인증기술을 사용하고 있습니다. 한 예로 얼굴의 전체 윤곽, 눈, 코, 입의 위치 정보와 해당 특징을 먼저 파악하여 얼굴인증 판단의 한 요소로 사용합니다. 그리고 얼굴의 선(edge)정보만을 추출하여 아래 그림과 같이 변환한 후 선의 밀집도 등으로도 또 다른 얼굴 특징 요소를 선정함으로써 이들 복합적인 요소들를 사용하여 영상에 추출된 얼굴과 기존에 시스템에 등록된 사용자 얼굴을 비교하여 얼굴을 인식하게 됩니다.

그럼 얼굴을 정면에서 촬영한 사진 또는 동영상을 이용하면 얼굴감지기술을 통과할 수도 있지 않을까요? 맞습니다. 예전에 미국의 한 해킹 업체에서 얼굴감지기술의 적용된 시스템에 이 방법을 사용하여 해킹을 할 수 있었다고 합니다. 최근에는 이런 단점을 보완하기 위하여 눈 깜박임 등 눈의 움직임 활용, 열적외선 투사에 따른 눈동자의 반사 영상정보를 복합적으로 활용하는 방법 등으로 이런 단점을 제거하고 있다고 합니다.

아울러 3차원 인식 카메라가 Mesa Imaging, PMD Technologies, PrimeSense, Omek Interactive 등의 회사에 의해 개발되어 영상의 Depth 인식 및 처리도 가능해져 위의 단점을 제거할 수 있으며 얼굴의 3차원 안면 인식이 게임 및 영화 제작 등에도 활용되고 있습니다. 마이크로소프트 연구소가 텍사스 A&M대학과 공동발표한 논문(Huang, 2011)에 의하면 <그림 8> 그림의 실제 배우얼굴에 붙여진 바와 같이 반사점 표시(Reflective dots)와 적외선 스캔 방식을 결합해 2011년 8월경에 3차원 안면인식 기술을 개발하였고 이는 아바타 키넥트(Avatar Kinect) 게임에 적용되어 가상현실에서 실제 얼굴의 움직임을 모사한 아바타로 다른 이용자들과 소통하는 서비스를 구현하였다고 합니다. 3차원 인식 카메라는 동작인식에서 활용 되었는데 이에 대한 내용은 아래의 동작인식코너에서 기술하였습니다. 안면을 캡처하기 위해 배우 얼굴에 <그림 8>처럼 100여개의 반사점을 부착하고 동작인식기술을 통해 실제 배우의 감정에 따른 표정연기를 인식하여 감정상태별 안면 변화에 대한 기초데이터를 먼저 확보합니다. 이들 기초 데이터들을 바탕으로 적정한 안면을 가상으로 표현하는데 필요한 최소의 스캔 횟수를 결정합니다. 레이저 스캔방식을 통해 얻어진 안면 데이터를 반사점 표시 방식을 통해 얻어진 데이터와 상응하는 부분끼리 연결하여 하나의 가상표정을 만드는 것입니다(Huang, 2011). 이런 얼굴인식 기술은 2011년 5월 출시된 Rockstar의 신작게임 ‘LA Noire’에 적용되어 350개의 캐릭터 얼굴을 표현하는데 사용되었다고 합니다.

 

홍채인식기술

 이번에는 마음의 창이라고 불리는 눈동자의 홍채인식기술을 소개할까 합니다. 눈동자에 있는 홍채는 유아기에 빗살무늬 형태의 홍채 패턴이 형성되며 유전정보와 무관하여 일란성 쌍둥이도 패턴이 다르고 심지어 같은 사람이라도 두 눈의 홍채가 모양이 다르며 약 10억명당 2명정도가 유사할 정도로 고유합니다(유일성). 또한 일생동안 거의 변하지 않는(불변성) 장점이 있다고 하며 현 기술로는 거의 위조가 불가능하고 오인식률이 낮은 점(안정성)이 있다고 합니다. 아울러 최근 눈을 카메라에 접촉하지 않아도 되는 비접촉식 홍채인식시스템의 개발로 2~3m거리까지에서도 홍채 인식이 가능하다고 합니다. 현존하는 인체감지기술 중 가장 뛰어나며 높은 성장가능성과 시장잠재력이 있는 기술로 알려지고 있습니다.

이 기술 또한 홍채 영상 검출부분과 검출된 홍채영상을 사용자의 홍채인지를 검증하는 인증부분으로 나누어집니다. 홍채 영상 검출부분에서는 원 모양의 홍채를 눈에서 가장 진한 색상을 가진 원 모양의 동공을 중심으로 색 명암 등의 변화가 심한 동공과 홍채의 경계를 찾아 검출합니다. 또한 홍채 외부를 둘러싼 공막과의 경계도 마찬가지로 검출하여 홍채 영역을 분리합니다. 동공의 경계부터 공막과의 경계까지를 좌표화 한 후 홍채무늬를 0과 1로 표현되는 숫자로 이진화합니다. 이 이진화된 코드열을 가지고 기존에 입력된 사용자 홍채 코드열과 비교하여 영상촬영된 홍채의 진위여부를 가립니다. 미국의 안과의사 Leonard Flom과 Aran Safir에 의해 홍채의 유일성이 1980년대 중반에 발견되었고 이들 두사람과 홍채패턴코드화알고 리즘을 개발한 영국캠브리지대학의 John G. Daugman교수가 1995년에 상용 홍채시스템을 최초로 개발하였습니다. 그 후 얼굴과 눈동자 인식부터 홍채패턴 코드화의 알고리즘, 홍채 추출 알고리즘 등 홍채인식기술의 효율성/효용성을 개선시켜 저가로 보급시키고자 하는 노력이 계속되고 있다고 합니다.

지금까지 영상을 이용한 인체를 구별하거나 특정인을 인식하는 인체인지기술을 알아보았는데요, 여기에 빠진 것이 있다면 인체의 동작 인지기술일 것입니다. 사람의 동작을 컴퓨터가 인식할 수 있다면 컴퓨터와 사람과의 대화가 보다 용이해지지 않을까요? 마우스, 키보드, 음성 등을 이용할 필요없이 손동작으로 컴퓨터에게 지시를 내릴 수 있으니까요. 어느새 이 동작인식기술을 이용하여 게임 등 문화산업에서 부가가치를 창출하고 있습니다. 대표적으로 마이크로소프트사의 키넥트입니다. 현재 동작인식기술을 개발하는데 보다 경제적이고 손쉽게 이용가능하여 많은 개발현장에서 키넥트를 이용하고 있으므로 동작인식기술을 소개하기 위해 이 키넥트를 활용하여 설명하고자 합니다. 동작을 인식하는 게임기로 소니의 플레이스테이션 Move, 닌텐도의 Wii가 있었지만 센서가 내장된 컨트롤러를 손에 쥐고 있어야 해서 사람 눈처럼 순수하게 영상정보만으로 동작을 인식하지는 못했습니다. 또한 소니의 EyeToy 컨트롤러는 카메라만으로 동작을 인식하였지만 시간에 따른 영상차이 여부만을 추적하는 방법을 사용하여 범용화에 한계를 가지고 있었습니다. 2차원영상에서의 인체인식기술로 몸체 영상분리방법, 특징추출에 의한 영상처리방법, 패턴매칭방법 등을 활용하였는데 영상분리방법은 기본 배경영상과 사람이 들어온 이후의 영상에서 픽셀값의 차이를 구해 인체 영역을 추정하여 뼈대구조를 추출하고 관절각의 특성에 따라 기하형상을 비교하여 동작을 구분짓는 방법입니다(Ali, 2001). 또 다른 한 방법으로 영상을 구성하는 픽셀집합을 템플릿으로 하여 시간에 따른 템플릿 매칭 결과를 추적하여 통계적, 확률적으로 기존의 학습된 모델과 비교함으로써 동작을 인식하는 방법이 있습니다(Bobick, 2001). 이러한 2차원 영상에서의 영상인식기술에 더해 광파와 음파를 이용하는 3차원 영상인식기술은 Time-of-Flight와 Triangulation 등으로 구분하고 있습니다(인간지능생활지원지능로봇기술개발사업단, 2006). Time-of-Flight는 적외선 혹은 음파 등이 대상물체에 반사되어 돌아오는 시간과 그 물체까지의 거리가 비례하는 성질을 이용하는 것이며 Triangulation은 고전적인 삼각측량의 원리에 기초하며 CCD 혹은 CMOS 방식의 영상센서를 활용하고 있습니다. 현재의 ToF센서와 비슷하게 적외선을 이용하여 3차원인식을 하고 있는 키넥트는 마이크로소프트사의 게임콘솔인 Xbox 등에 연결하는 동작인식컨트롤러로 현재 이 컨트롤러를 게임뿐만 아니라 장애인 동작인식 등 다양한 사회분야에 적용하려는 노력이 이루어지고 있습니다. 이 키넥트는 이스라엘의 PrimeSense사에게 개발하였으며 이 컨트롤러를 이용하기 위해서 OpenNI(Natural Interation) 라이브러리와 PrimeSense 드라이버가 필요합니다.

A의 적외선발신부와 카메라(화면상 우측 하단, 적외선 센서)는 피사체(인체)의 각 부분과의 거리를 측정하여 피사체의 3차원 이미지 형성을 도와주는 역할을 합니다. 적외선발신부에서 송출된 적외선이 피사체의 각 부분으로부터 적외선수신카메라로 반사되어 돌아오는 거리를 측정하여 피사체의 Depth(3차원거리)를 측정합니다. 320×240해상도의 16bit 데이터를 초당 30프레임으로 전송합니다. 그림 10은 적외선 감지 필터를 부착한 카메라로 찍은 적외선이 방사되고 있는 적외선발신부이며 그림 11은 방사된 적외선의 점들이 소파에 표시된 장면입니다. 그림 12는 피사체의 Depth를 인식한 장면을 보여주고 있습니다.

그림 9의 B는 화상카메라(웹캠)로 일반적인 인체의 화상 정보를 받아들이며 사용자의 위치를 인지합니다. 640×480해상도의 32bit 데이터를 초당 30프레임으로 전송합니다. C의 키넥트 회로부는 3개의 보드로 구분되며 각각은 음성입력처리부를 가진 보드, 키넥트의 움직임을 감지하는 가속도센싱 보드, 이미지처리보드입니다.

그림 9의 D는 모터부이며 인체를 가장 잘 인식할 수 있도록 웹캠과 적외선 센싱카메라의 위치를 제어하며 E는 음성처리부로 4개의 마이크로폰으로 음성명령어를 인지합니다. 인지된 소리와 사용자의 위치를 비교하어 소리가 사용자로부터 온 건지 텔레비전 소리인지, 다른 사람의 소리인지를 판단할 수 있습니다. 그 후에 잡음제거 등이 이루어져 음성을 정확하게 인식하게 됩니다.

그림 13은 OpenNI라이브러리에서 제공하는 Human Skeletonization을 이용하여 인체의 관절 정보를 추적하는 이미지입니다. 동작인식기술로써 키넥트의 기술에 대해 소개한 이유는 이 동작인식기술을 이용하여 로봇제어, 미디어제어, 미디어아트 등 다양한 분야에 연구도구로도 쉽게 활용할 수 있음을 알리고자 하는 것입니다.

키넥트는 미세한 적외선 점을 사물에 투사해 점과 점이 반사되는 원리로 피사체의 Depth(3차원)을 인식합니다. 그러므로 점과 점 사이 빈 공간의 Depth는 파악할 수 없다는 단점과 적외선 발신부와 수신부가 서로 떨어져 있어 인체를 인식할 때 틈이 생겨 이를 소프트웨어적으로 보정해야 한다는 점도 보완해야 한다고 합니다. 삼성에서도 S5K32D QVGA 1/3″ ToF센서를 개발하여 유투브에 공개하는 등 우리기업에서도 동작인식기술을 확보하기 위해 노력을 하고 있습니다.

이처럼 인체인식기술에 대한 원천기술을 확보하는 노력은 지속되어야 하며 아울러 마이크로소프트사의 Xbox처럼 원천기술을 구매하고 이 기술을 활용한 새로운 문화서비스를 개발하여 보다 큰 부가가치를 창출하고 있는 것도 21세기 지식정보화사회에서 가치있는 한 연구개발 방향을 제시하고 있다고 봅니다.

 

권효순 / 교육과학기술부 국립과천과학관 연구관, 교육학 박사

작성자: khugnews

이글 공유

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다