[열린세상] 호기심을 장착한 인공지능, 스스로 학습이 가능하다/조현욱 과학과 소통 대표

[열린세상] 호기심을 장착한 인공지능, 스스로 학습이 가능하다/조현욱 과학과 소통 대표

입력 2018-12-27 17:28
수정 2018-12-28 01:55
  • 기사 읽어주기
    다시듣기
  • 글씨 크기 조절
  • 댓글
    14
인공지능(AI)은 번역, 페이스북 사진의 얼굴 인식, 내비게이션 앱에서 최적의 길 찾기 등에 두루 쓰인다. 이들이 작동하기 위해서는 우선 인간이 지식을 제공해야 한다. 한 문장이 다른 언어의 어떤 문장과 같은 뜻인지, 한 사람이 각기 다른 사진에서 어떻게 보이는지, 자동차가 가야 할 최선의 코스를 어떻게 계획할지를 가르쳐줘야 한다.
이미지 확대
조현욱 과학과 소통 대표
조현욱 과학과 소통 대표
오늘날의 ‘기계학습’은 대개 두 종류다. 첫째는 빅데이터를 살펴본 뒤 유사한 문제에 적용할 수 있는 패턴을 찾아내는 것이다. 두 번째는 환경에 투입한 뒤 목표를 달성하면 보상하는 강화학습이다. 이들 접근법은 특정 임무를 수행하는 데 효과적이다. 다만 훈련 데이터마다 인식표를 붙이거나 가상 환경에서 보상 함수를 설계해야 한다. 어느 쪽이나 고급 인력의 품이 많이 들어간다는 문제가 있다.

그렇다면 AI가 스스로 학습할 수 있게 만들 수도 있을까. 가능하다. 호기심을 갖도록 하면 된다. 테슬라의 창립자 일론 머스크 등이 공동설립한 비영리 인공지능연구소인 ‘OpenAI’가 지난 8월 발표한 연구 결과를 보자. AI에 호기심을 부여하자 인간이 따로 제공하는 정보가 전혀 없이 아타리사의 비디오 게임 중 50개 이상을 수행할 수 있게 됐다고 한다. ‘슈퍼 마리오’나 탁구 게임 ‘퐁’의 경우가 그런 예다. 목표가 주어지지 않은 프로그램이 기술을 개발하고 학습할 수 있었던 것이다. 호기심 기반의 AI는 스스로 규칙 세트들을 만들어낸다. 새로운 경험을 하도록 동기를 가지는 것이다.

도대체 AI에게 호기심이란 무엇인가. OpenAI 연구팀이 사용한 정의는 단순하다. 우선, 다음 장면에 어떤 환경이 전개될까를 예측하게 만든다. 이것이 실제와 다를수록 보상을 많이 주는 것이다. 새로운 것을 찾을수록 보상이 크다는 말이다.

연구팀의 목표는 이렇다. ‘인간이 코드로 짜 넣은 보상을 장착하지 않은 기계가 환경을 탐색하도록 할 수 있다면 우리는 진정으로 자율적인 기계에 근접하게 될 것이다. 이것은 사고 현장에서 인명을 구출하는 로봇을 개발하거나 우주를 탐사하는 과업에 엄청난 시사점을 가질 수 있다.

이들 연구팀은 지난 10월 좀 더 진전된 연구를 발표했다. 호기심을 발전시킨 AI가 1984년 아타리사가 발표한 비디오 게임 ‘몬테주마의 복수’ 에서 뛰어난 성적을 올렸다는 것이다. 이 게임은 AI의 대표적 미해결 문제로 꼽힌다. 구글의 자회사 딥마인드가 2015년 발표한 기념비적인 논문을 보자. 심층 강화학습을 이용해 수많은 아타리 게임을 정복했지만 몬테주마만큼은 0점을 기록했던 것이다.

이 게임이 어려운 것은 신뢰할 만한 보상 신호가 드물기 때문이다. 주인공은 괴물과 함정으로 가득 찬 세상을 탐색해 나간다. 하지만 게임을 진행시키려는 많은 행동이 득점으로 이어질 때까지는 아주 오랜 시간이 걸린다. 통상적인 강화학습 알고리즘은 몬테주마의 첫 방에서조차 나오지 못하는 것이 보통이다. 실제로 0점을 기록하는 것이다.

OpenAI의 새 프로그램은 AI가 미래를 예측하는 방식에 변화를 주었다. 정확한 방법론(Random Network Distillation · 무작위 연결망 추출)은 복잡하다. 하지만 연구팀은 이를 게임의 모든 화면에 프로그램이 찾아야 할 비밀을 숨겨놓는 것에 비유한다. 예컨대 “화면 왼쪽 꼭대기는 무슨 색인가?”같은 것이다. AI에게 ‘TV 노이즈 화면 덫’에 취약하지 않으면서도 탐색을 계속하게 만들어준다. 이 덫은 새로운 경험을 추구하도록 프로그램된 AI가 무작위 패턴에 중독되는 현상을 말한다. 다음 장면을 예측하기가 불가능하기 때문이다.

이번의 개선된 프로그램은 이런 인간보다 나은 성적을 보였다. 9차례의 시도에서 평균 1만점을 기록했다. 사람의 평균 점수는 4000점이다. 한 번은 게임의 1단계를 단번에 돌파했다.

OpenAI 연구팀은 말한다. 이런 유형의 호기심 기반 학습 시스템은 현실서 작동하는 로봇을 만드는 데 훨씬 유망하다. 실제 세계는 즉각 보상이 주어지는 경우는 드물기 때문이다. 우리는 오랜 기간 일하고 배우고 탐색한 다음에야 보상으로 얻는다. 호기심은 우리를 계속 앞으로 나아가게 만든다. AI를 장착한 로봇에도 도움을 줄 수 있을 것이다.
2018-12-28 30면
close button
많이 본 뉴스
1 / 3
11월 5일로 다가온 미국 대선이 미국 국민은 물론 전세계의 초미의 관심사가 되고 있습니다. 민주당 후보인 카멀라 해리스 부통령과 공화당 후보인 도널드 트럼프 전 대통령의 각종 여론조사 격차는 불과 1~2%p에 불과한 박빙 양상인데요. 당신이 예측하는 당선자는?
카멀라 해리스
도널드 트럼프
광고삭제
광고삭제
위로