디지털타임스
[단독④] 성원용 교수 “尹 ‘이 OO’ 발언, 입속 혼잣말 가능성…‘바이든’은 틀린 자막”
“입속 혼잣말, 매우 작은 소리 증폭하려면 높은 주파수 없애는 잡음 제거 같이 해야”
“잡음 제거를 하면 소리 뭉개져…물론 尹이 이 말을 하지 않았을 가능성도 있어”
권준영 기자 입력: 2022-10-03 09:04
윤석열 대통령(왼쪽)과 성원용 서울대학교 전기·정보공학부 명예교수. <디지털타임스 DB, 연합뉴스>
'음성인식 전문가' 성원용 서울대학교 전기·정보공학부 명예교수가 3일 디지털타임스와 단독 인터뷰에서 윤석열 대통령의 미국 순방 과정에서 불거진 사적발언 논란과 관련해 '입속 혼잣말'일 가능성이 있다고 자신의 견해를 밝혔다.
성원용 명예교수는 이날 본지와의 인터뷰에서 "MBC의 원래 방송에서는 '국회에서 이 OO들이' 한 부분은 찾기 어렵다"며 "그런데 잡음을 제거하고 여러 가지 처리를 한 동영상에서는 이 부분이 '국회에서 이 OO들이' 비슷하게 들리는데 매우 뭉개져서 들린다"고 분석했다.
성 명예교수는 "뒤의 '승인 안 해주고 날리면 O팔려서 어떻게' 소리가 선명한 것과는 매우 다르다. 그리고 이 앞부분을 말할 때 윤석열 대통령의 입은 거의 열리지 않았다"며 "제가 판단했을 때 이 앞부분의 소리는 윤석열 대통령이 아마도 입속으로 한 말일 가능성은 있다"고 주장했다.
이어 "입속 혼잣말이라 매우 작은 소리인데, 작은 소리를 엄청 증폭하려면 높은 주파수를 없애는 잡음 제거를 같이 해야 한다"면서 "이렇게 잡음 제거를 하면 소리가 뭉개진다. 물론 윤 대통령이 이 말을 하지 않았을 가능성도 있는데 지금 생각하는 또 다른 가능성은 입속 혼잣말"이라고 했다.
그러면서 "입속 혼잣말을 방송사가 마이크로 잡아서 어마어마하게 증폭하고 잡음 제거를 한 후에, 그래도 거의 알아들을 수 없는 소리에 자막을 입혀서 시비를 거는 것이 과연 방송사의 역할인가 생각은 한다"고 MBC 보도의 문제성을 지적했다.
성 명예교수는 또 "그리고 뒤의 '바이든'은 틀린 자막이 확실하다. 야당이 자막 '바이든이 O팔려서'를 근거로 외교참사이니 장관을 해임하라 주장하는데, 그렇다면 미국 의회 의원들이 막말에 사과하라 하면 모를까, 야당이 화낼 이유가 없다"며 "이를 '외교참사'로 연결하는 것은 대단한 오류이고, 그리고 듣기 힘든 혼잣말을 사과하라 하는 것도 이해할 수 없다"고 했다.
그는 자신이 이같은 견해를 밝힌 이유를 예시로 들기도 했다. 성 명예교수는 "비유를 들자면, 어떤 고등학교 수업시간에 선생님이 오늘은 시험을 본다 하고 들어왔다"며 "갑자기 예고 없는 시험이라 학생 몇 명이 툴툴댄다"고 상황을 전제했다.
이어 "어떤 학생이 입속으로, 뭐라 하였다. 선생님이 고성능 마이크로 녹음한 것을 어마어마하게 증폭 처리하니, 'OO 오늘 망했다' 비슷하게 들린다"면서 "이 불분명한 소리에 자막을 'OO 오늘 망했다'를 입혀서 교무실에 가져가니, 이 동영상을 본 선생님들이 '야, 저 O 욕했다'고 하는 꼴이다. 학생에게 잘못했으니 자술서를 쓰라 하니 학생은 그런 말 안했다 하고 대치하는 꼴이다. 확실한 것은 저 반은 올해 입시 성적이 안 좋을 것"이라고 덧붙였다.
윤석열 대통령.
이날 MBC 소수 노조인 MBC 노동조합(제3노조)도 'MBC 뉴스 자막 생성 시스템도 '식별불가' 판정'이라는 입장문을 내고 "MBC는 지난 2018년 뉴스영상서버 시스템인 마이다스(MIDAS)를 구축하면서 서버에 등재된 뉴스용 촬영 영상의 음성을 자동으로 문자로 생성해주는 자막 생성 기능을 도입하여 기자들의 기사 작성을 도와주고 있다"고 운을 뗐다.
MBC 제3노조는 "이를 STT 즉 'Sound To Text' 기능이라 하는데, 마이다스 시스템은 지난 9월 22일 뉴욕 글로벌 재정 펀드 행사를 촬영한 '58분 송출본'에 이 기능을 작동시켰던 것으로 확인됐다"면서 "문제의 대통령 발언이 녹화되었던 '00시 20분 27초'~'00시 20분 32초'까지 약 5초간의 음성에 대해 STT 기능을 작동시켰더니 '어떠한 정보도 없다'는 결과가 나왔다"고 현 상황을 짚었다.
이들은 "반면 글로벌 재정펀드 회의의 윤 대통령 공식연설이 담긴 동영상 부분에는 대통령의 연설 내용이 77%에서 98%의 정확도로 자막이 정확하게 생성되어 서비스되었다"며 "이 STT 기능의 정확성은 상당히 높은 수준이라, 당시 이 동영상을 촬영했던 카메라 기자가 동영상을 송출하는 과정에서 혼잣말로 발언했던 '저 매트릭스 조명이 어떤 여자 치마를 다 찢어버리고…(00시 20분 56초~00시 21분 01초)'라는 음성은 73%의 정확도로 결과가 표시되어 있다. 이 내용을 다시 들어보았더니 '저 매트릭스 조명이 어떤 여자 치마를 다 찢어버릴 뻔했어'로 들렸다"고 주장했다. 이어 "MBC가 구축한 자막 자동 생성 프로그램조차 당시 윤석열 대통령 발언 녹음에 대해 인간의 언어로서 유의미한 음성이 아니라고 판단한 것"이라며 "이러한 결과는 이상규 전 국립국어원장이 윤 대통령의 '비속어 논란'을 보도한 언론사들을 비판하면서 MBC의 자막 처리가 잘못됐다고 주장한 사실과 일맥상통한다"고 했다.
<연합뉴스>
그러면서 이상규 전 국립국어원장의 발언을 인용했다. 제3노조는 이상규 전 원장이 "음성인식은 기계적 인식, 사람의 청취 인식, '네이버 클로바노트'와 같은 기계가 자동 인식하는 세 가지 방식이 있다"면서 "'노이즈가 많은 음성에 대한 인식은 사람마다 달라질 수 있다'고 지적한 바 있다"고 설명했다.
이어 "이 전 원장은 '(소리가) 아주 분명하지 않았을 때 자막을 달아 (인식을 수월하게) 하는데 제가 MBC에서 초대 우리말위원회 위원장을 지내며 당시 자막처리 기술을 향상하기 위한 연구 노력을 많이 했다'고 밝히고, '이 OO'라는 단어는 경음 'ㄲ'이 들어가 청취음성의 변별성이 매우 높을 뿐만 아니라 음성 파형 분석에서도 식별력이 매우 높다'면서 '서울대학교 성원용 명예교수는 음성파형 분석 권위자로 그 낱말이 들어 있지 않다고 분명히 밝혔고, 본인은 '방언 청취 전문가'로 트랜스크라이브로 음성 파형을 확대해서 구간 반복으로 청취해 봐도 성원용 교수의 의견과 동일하다'고 설명한 바 있다"고 전했다.
끝으로 제3노조는 "과학적으로 분별성이 없는 음성을 자막보도에 의해 오염된 선입견을 따라 언론사들이 앞 다퉈 보도한 것이 이번 사태의 원인이라는 주장이 설득력을 얻고 있는 것"이라고 주장했다.
권준영기자 kjykjy@dt.co.kr