1966년 ‘일라이자’, 1972년 ‘패리’ 등 일부 성과
‘생각하는 피조물’을 만들려는 인간의 노력인 ‘인공지능’(artificial intelligence) 분야에서 핵심적 판단 기준으로 꼽히는 것이 ‘튜링 테스트’다.이는 “과연 기계가 생각할 줄 아는가?”라는 철학적 질문에 대해 과학적이고 구체적인 답을 제시하는 판별 기준이라고 할 수 있다.
◇ 튜링 테스트, 인공지능 ‘가늠자’
튜링 테스트의 개념을 제시한 사람은 ‘인공지능 연구의 아버지’로 꼽히는 영국 전산학자 앨런 튜링(1912∼1954)이었다.
그의 기준을 요약해 정리하면 “만약 사람이 컴퓨터와 대화를 나누는데 대화 상대가 컴퓨터인지 인간인지 구별할 수 없다면, 이런 컴퓨터는 생각할 수 있는 것으로 보아야 한다”는 것이다.
현대의 인공지능 연구 중 ‘튜링 테스트 통과’를 직접 목표로 삼고 있는 것은 극히 일부지만, 역사적 이정표라는 점에서 이 테스트가 지니는 의미는 매우 크다.
◇ 정신과 의사 흉내 낸 ‘일라이자’
튜링 테스트에 도전해 어느 정도 성과를 거둔 사례는 1966년 나온 ‘일라이자’(ELIZA)가 처음이었다.
독일에서 태어나 미국으로 이주한 요제프 와이젠바움(1923∼2008)이 매사추세츠공과대(MIT)에 재직하면서 개발한 프로그램이다.
조지 버나스 쇼의 희곡 ‘피그말리온’에 나오는 여성 등장 인물의 이름을 딴 이 프로그램은 사용자가 입력하는 말을 분석해 키워드를 찾아낸 후 이를 바탕으로 컴퓨터의 반응을 생성하는 식으로 작동했다.
예를 들어 ‘어머니’라는 말이 나오면 “당신 가족에 대해 좀 더 얘기를 해 보세요”라는 식으로 ‘키워드를 맞받아서 언급하는’ 대화 기법이다.
만약 키워드를 찾을 수 없으면 일반적인 맥락에서 널리 사용될만한 말을 던지거나(”정말 그렇게 생각하시나요?”), 전에 나왔던 대화 내용을 끄집어 내서 다시 언급하는 식으로 반응했다.
와이젠바움은 일라이자가 마치 특정한 진단·치료 방향을 정하지 않은 상태에서 환자를 처음 상담하는 정신과 의사와 같은 반응을 보이도록 하는 ‘닥터’라는 스크립트를 짜서 사람들과 대화를 나누도록 했다.
그 결과 일부 사람들은 ‘일리아자가 진짜 사람이라고 생각했다’는 반응을 보이기도 했다.
말하자면 ‘환자의 말을 듣는 데 주력하며 상담하는 정신과 의사’를 가정한 극히 제한된 맥락에서이긴 하지만 튜링 테스트에서 성과를 낸 것이다.
다만 반응 유형이 단조롭기 때문에 실제 사람이 아니라는 점을 알아차리기가 까다롭지는 않았다.
후대에 나온 프로그램들도 대부분 근본적으로 똑같은 약점을 지니고 있다.
◇정신과 환자 모방한 ‘패리’
이어 1972년에는 ‘패리’(PARRY)라는 프로그램이 나왔다.
정신과 의사 출신인 스탠퍼드대 인공지능연구소의 케네스 콜비 교수가 개발한 이 프로그램은 편집성 정신분열증 환자의 반응을 흉내 내도록 설계됐다.
콜비 교수는 정신과 전문의들이 패리와 상담하도록 한 후, 이 대화 내용을 실제 인간 환자와 정신과 전문의 사이의 상담과 함께 33명의 정신과 의사들에게 보여 줬다.
그 결과 패리의 상담 사례인지 인간 환자의 상담 사례인지 정신과 의사들이 정확히 알아맞힌 경우는 48%에 불과했다.
다시 말해 완전히 짐작에만 의존한 경우(50%)와 마찬가지이거나 그보다 오히려 더 낮았다는 얘기다.
’편집성 정신분열증 환자’를 흉내 내기로 한다는 매우 제한된 조건에서 튜링 테스트를 통과한 것이라고 할 수 있다.
’정신과 의사’ 일라이자와 ‘정신과 환자’ 패리가 대화를 나누도록 한 실험도 있었는데, 이 경우는 대화가 제대로 진척되지 않았다.
양쪽 다 기계여서 상대편의 말꼬리를 붙잡고 늘어진 탓이다.
◇채터봇 전성시대…범죄에도 악용
이후 컴퓨터 기술이 발전하면서 이런 ‘채팅 기계’(채터봇)들 역시 진화를 거듭했다.
인공지능 연구 중 ‘자연언어 처리’라고 불리는 기술을 개발하며 나온 부산물인 경우가 많았다.
1990년대 초에는 ‘PC 치료사’(PC Therapist), 1990년대 중반에는 ‘줄리아’(Julia), 1990년대 말과 2000년대 초에는 ‘앨리스’(A.L.I.C.E.) 등이 주목을 받았으나, 제한을 걸지 않은 일반적 튜링 테스트를 통과하는 데는 한참 못 미쳤다.
1990년에는 발명가 휴 로브너가 튜링 테스트를 통과하는 프로그램을 개발하는 프로그래머에게 상금 10만 달러와 함께 전체가 18K 금으로 된 금메달을 주겠다며 ‘로브너 상’을 제정했다.
아직 금메달 수상작은 안 나왔지만, 매년 상대평가로 뽑는 은메달과 동메달 수상작은 몇 차례 나왔다.
최근 채터봇은 악성 코드를 퍼뜨리거나 개인정보를 불법으로 입수하는 수단으로 악용되는 사례가 많다.
마치 이성이 대화를 하려고 하는 것 같은 착각을 불러 일으켜 이를 악용하는 수법이다.
우리나라에서도 2002년 이즈메이커(현 심심이㈜)가 MSN 메신저 버디 형태로 ‘심심이’를 만들어 한때 인기를 끈 바 있다.
◇’튜링 테스트 첫 통과’ 공식 판정된 ‘유진’
영국 레딩대가 7일(현지시간) ‘튜링 테스트 통과의 첫 사례’라고 선언한 ‘유진’ 은 미리 내용을 제한하지 않고 ‘일반적인 대화’를 하는 데 성공했다는 점에서 의미가 크다.
전산학과 인공지능의 역사에 큰 이정표가 우뚝 선 셈이다.
이번 ‘튜링 테스트 첫 통과’ 판단 기준은 튜링이 1950년 철학 학술지 ‘마인드’에 실은 논문에서 예로 제시했던 정도의 수준이었다.
튜링은 당시 ‘5분간 심문을 해서 컴퓨터를 인간이라고 착각하는 경우가 30%를 넘는다’는 정도의 ‘검증 수준’을 예로 들었으며, 대화 내용에 대한 별도 제한은 두지 않았다.
다만, 이는 ‘진짜로 생각하는 능력을 지닌 컴퓨터’를 만들었다는 주장과는 다르다.
’유진’ 개발자들조차 그렇게 주장하지는 않는다.
문장을 생성할 수 있는 능력, 사람의 입력에 적절히 반응할 수 있는 알고리즘과 데이터베이스를 갖춘 것은 사실이지만, 이것이 ‘기계가 생각한다’는 것과 똑같다고 볼 수는 없기 때문이다.
유진 개발자들 역시 이 프로그램이 ‘우크라이나에 사는 13세 소년’을 가정하고 만든 것이라고 설명했다.
이 프로그램의 첫 버전이 2001년에 나왔음을 감안하면, 이 정도로 다듬는데만 13년이 걸린 셈이다.
이런 의미에서 ‘첫 튜링 테스트 통과’는 이정표로서의 의미는 매우 크지만, 이것으로 인공지능을 만들겠다는 목표가 달성된 것은 전혀 아니다.
오히려 이 분야에 그간 상당한 발전이 있었으며, 앞으로도 연구할 거리가 엄청나게 많이 남았음을 보여 주는 사건이라고 할 수 있다.
연합뉴스
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지