인공지능(AI) 발전에 긍정적인 면모만 있는 것은 아니다. '딥페이크'가 대표적인 예로, 이를 활용한 범죄가 만연한 가운데 그 피해를 막는 우리 연구진의 성과도 있다.
정수환 숭실대 전자정보공학부 교수팀이 과학기술정보통신부·정보통신기획평가원(IITP)의 '대학ICT연구센터육성지원사업' 등 지원에 힘입어 세계 최고 수준의 딥페이크 음성 탐지 기술을 내놓았다. 연구진의 역량과 기술의 우수성, 시의성 등을 고루 인정받아 지난해 국가 연구개발(R&D) 우수성과 100선에 이름을 올렸다.
정수환 교수는 개발한 딥페이크 음성 탐지 기술이 '세계 최고' 수준이라고 강조했다. 무엇보다 딥페이크 생성 수단을 가리지 않고 탐지가 가능하다고 밝혔다.
딥페이크는 기존 음성 분석 방식으로는 탐지가 어려울 만큼 실제와 유사하다. 이에 연구진은 딥페이크 생성 시 발생하는 딥러닝 네트워크의 특징, 즉 'AI 아티팩트'를 찾는 방식을 택해 정확도를 끌어올렸다.
정 교수는 “지난해 'ASVspoof5' 대회 데이터셋에서는 오류가 5% 수준에 불과했고, 우리 연구팀이 수집한 유튜브, SNS 등 실환경 조건을 포함한 자체 데이터셋을 대상으로도 정확도가 90%를 상회했다”라며 “딥러닝 네트워크 사용 시 나올 수밖에 없는 특징을 판별하기에 어떤 생성 방식이든 대응이 가능하다”고 단언했다.
그러면서 “다양한 학습 기법에 최적화된 모델 구조와 체계적인 데이터 업데이트 방식을 통해, 새로운 생성기가 등장하더라도 소량의 샘플만으로 탐지 성능을 유지할 수 있다”고 덧붙였다.
더욱이 연구팀은 모바일 애플리케이션(앱)으로 구현한 이 기술을 2024년 시연하기도 했다. 그래픽 처리장치(GPU)가 없는 스마트폰으로 고성능 딥페이크 음성 탐지 기술을 선보인 것, 탐지 시간이 0.5~1초의 '실시간 탐지' 수준이라는 것에 세계 이목이 쏠렸다. 세계 최초의 유의미한 성과였다.
정 교수는 “모바일에 기술을 담기 위해 네트워크 사이즈를 줄이면 성능이 줄어들 수 밖에 없는 것이 현실”이라며 “다만 우리는 사이즈는 7분의 1로 줄이면서 '지식 증류 기법'을 활용해 성능 하락을 최소화했다”고 설명했다.
이 기술은 활용성이 유망하다. 유튜브를 비롯한 미디어 플랫폼에 등재된 영상, 음성 파일의 딥페이크 파악이 가능한 것은 물론이고, 이 기술을 활용해 '화자 인증'과 '딥페이크 탐지'가 동시에 되는 시스템도 개발했다. 사전에 등록된 음성 특징과의 비교를 통해 본인 여부를 확인하는 동시에, 딥페이크 음성을 이용한 인증 우회 시도까지 차단할 수 있는 통합형 보안 인증 구조로, 각종 서비스의 본인확인 절차를 간소화하는 것은 물론, 신종 음성 사기 범죄에도 효과적으로 대응할 수 있다.
이에 연구진은 딥페이크 음성을 탐지하는 'CatchAI', 화자인증까지 가능한 '스피키(SPEEKEY)'를 개발했다.
앞으로의 목표는 기술 사업화다. 이미 관련 기술로 26개 특허를 출원 및 등록했다. 지난해 12월에는 'AISRC'를 창업해 행보에 박차를 가하고 있다. 또 음성 내 잡음이 섞이거나, 발화 길이가 짧은 경우도 정확도를 높이는 등의 고도화 기술 개발에도 추가로 힘쓰고 있다.
정 교수는 “근래에도 'ICASSP 2026' 중 와일드스푸프(WildSpoof) 대회에서 2위를 차지하는 등 세계에서 최상위권 기술력을 보유하고 있어 세계가 우리를 주목하고 있다”라며 “미국 시장을 비롯한 해외에서 기술을 전개해 우리나라 기술 위상을 더 높이고 싶다”고 피력했다.
그러면서 “이런 생각을 가질 수 있었던 것은 지난 2020년부터 과기정통부와 IITP의 오랜 지원으로 기술에 대한 세계의 인정을 받을 수 있었기 때문”이라고 덧붙였다.