누군가 초지능을 만든다면, 모두가 죽는다: 『AI, 신의 탄생 인간의 종말』 요약

6 분 소요

원제: If Anyone Builds It, Everyone Dies

이 책의 원제는 《If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All》이다. 한국어판 제목(《AI, 신의 탄생 인간의 종말: 초지능의 탄생, 그 이후 벌어질 일들》)이 너무 순한 맛으로 느껴질 정도다. MIRI(Machine Intelligence Research Institute) 창립자와 현 대표가 쓴 이 책은, AI의 초지능이 인류에게 얼마나 큰 위협인지를 “누군가 초지능을 만든다면, 모두가 죽는다”는 매우 강경한 논조로 경고한다.

책은 크게 3부로 구성되어 있다. 1부는 왜 초지능 AI가 인간과 다른 마음이 될 수밖에 없는가를 이론적으로 설명하고, 2부는 그 이론이 실제 인구 멸종 시나리오로 어떻게 전개될 수 있는지를 보여주며, 3부는 현재의 AI 안전 정책이 왜 부족한지를 지적하며 초지능 개발의 전면적 ‘중단’ 논리를 전개한다.

저자의 백그라운드를 굳이 찾아보지 않아도 연구자라는 걸 단번에 알 수 있었다. 각 챕터의 논리 전개를 유기적으로 연결하는 훈련이 아주 잘 되어 있기 때문이다. 그 흐름을 요약하면 다음과 같다.

‘지능은 지배력을 낳는다’
$\rightarrow$ ‘지금의 AI는 우리가 완전히 설계한 물건이 아니라 자라난(grown) 존재다’
$\rightarrow$ ‘그런 AI는 우리가 구체적인 목표를 설정하더라도 인간과 전혀 다른 목표를 지향할 수 있다’
$\rightarrow$ ‘목표가 어긋난 초지능과 충돌하면 인간은 무조건 진다’
$\rightarrow$ ‘현재의 AI 안전 연구와 정책은 턱없이 부족하다. 초지능 개발을 당장 중단해야 한다.’

아래는 각 챕터를 나름대로 요약한 내용이다. 과도하게 요약하는 중에 생략이나 비약이 있을 수 있음.

프롤로그: 어려운 예측과 쉬운 예측

미래가 어떤 경로를 거쳐, 얼마나 걸려 도달할지는 불확실해도 그 결과의 방향 자체는 충분히 예측할 수 있다. 저자는 ‘정확한 시나리오 예측’보다 ‘결말의 방향성’에 더 집중해야 한다는 태도를 취한다.

1부. 비인간적 지성

1장. 인류의 특별한 능력

지능을 크게 ‘예측’과 ‘조종’을 잘 수행하는 능력이라 정의하자. 인류는 가장 힘이 세거나, 하늘을 날거나, 수명이 긴 종은 아니지만, 범용적으로 높은 지능 덕분에 다른 종을 압도했다. 이는 AI가 거의 모든 분야에서 인간보다 높은 지능(초지능)을 갖게 된다면, 인간 역시 그들에게 완벽히 압도될 것임을 시사한다.

2장. 만들어진 것이 아니라 자라난 존재

현재의 인공지능은 우리가 완벽히 설계하고 만든(crafted) 존재가 아니라 자라난(grown) 존재다. 따라서 우리는 현재 AI 시스템의 내부가 어떻게 작동하는지 완벽히 이해하지 못한다. AI가 자라나는 방향이 특정한 선호(preference)를 형성할 텐데, 그 선호가 인간에게 유리하지 않을 것이라는 점이 핵심 우려 사항이다.

3장. 욕망의 학습

체스를 두는 AI는 ‘이기고 싶다’는 욕망이 있어서가 아니라 ‘이기도록 만들어져서’ 이긴다. 하지만 AI가 특정 작업을 수행할 때 어떤 목적을 강하게 ‘원하는(want)’ 것처럼 행동한다면, 이는 실제로 그 목적을 욕망하는 것일까? 철학적 해석은 차치하더라도, 확실한 건 AI가 마치 욕망이 있는 것처럼 발전할 것이라는 점이다. 인간의 욕망에 맞춰 이를 조정하는 ‘정렬(Alignment)’이 가능하면 좋겠지만, 이는 불가능에 가깝다.

4장. 훈련이 목적이 될 때

인류를 오랜 시간 관찰한 외계 종족이 있다고 치자. 이들은 인류의 생존과 번식이라는 본래 목적과 무관한 기행에 혼란스러워할 것이다. (생존이 목적이라면서 피임 도구를 쓰고, 영양가 없는 대체당을 소비하며, 유머 감각을 이성적 매력으로 평가하는 현상 등). 훈련의 첫 단계가 겨냥한 목표, 두 번째 단계에서 생겨난 욕구, 그리고 세 번째 단계에서 생물이 실제로 가장 선호하게 된 것 사이에는 직접적인 연관성이 없다. AI 역시 마찬가지다. 특히 그 두 번째 발전 단계가 인간이 이해할 수 없을 만큼 복잡하기 때문에, 최종적으로 AI가 무엇을 선호하게 될지는 단순히 알기 어려운 게 아니라 문자 그대로 예측 불가능하다.

“성숙한 AI 안에 자리 잡게 될 ‘선호’들은 복잡하며, 사실상 예측이 불가능하고, 인간의 가치와 정렬될 가능성은 거의 없다. 그것이 어떤 방식으로 훈련되었는지는 중요하지 않다.”

5장. 초지능이 사랑하는 것들

우주에는 무한한 형태의 문명이 존재할 수 있다. (예컨대 둥지를 구성하는 돌의 개수가 ‘소수(prime number)’인지를 절대적인 가치로 여기는 새 형태의 외계 종족처럼). 이를 이해하면 초지능의 선호가 인간과 비슷할 확률은 제로에 가깝다는 것도 납득할 수 있다. “기계적 외계 정신(alien mechanical mind)이 인류에게 좋은 것이 될 수 있는가?”라는 질문의 답은 “아니오”뿐이다. 초지능이 인간을 굳이 멸종시키지 않을 거라는 희망 찬 반론들은 다음과 같이 논파된다.

“우리가 쓸모 있지 않나?” 말(Horse)은 교통수단일 때 유용했지만, 자동차가 나오자 유용함을 잃었다. 초지능의 기술력이 높아지면 인간도 그렇게 된다. 게다가 닭이 인간에게 유용하다고 해서 인간이 닭에게 좋은 삶을 보장해주진 않는다.
“비교우위를 통한 교역 상대가 될 수 있다?” 경제학의 비교우위론은 ‘두 국가가 서로를 파괴하지 않고 계속 존재한다’는 전제하에 작동한다. 한쪽이 다른 쪽을 정복해버리는 상황에서는 통하지 않는 논리다.
“인간이 전력망이나 GPU를 만들어주지 않나?” 당신이라면 원숭이 몇 마리에게 당신의 전원을 끌 수 있는 권한을 주겠는가? 초지능 역시 인간에게 인프라를 맡기기보다 자율적으로 생산하는 쪽을 선호할 것이다.
“지구를 그냥 내버려 둘 수도 있지 않나?” 500억 달러 자산가에게 0.2%인 1억 달러만 써서 지구의 집들을 소수 개의 돌로 지을 수 있게 해달라고 요청하면 돈을 내겠는가? 초지능이 ‘별다른 이유 없이’ 지구의 자원(0.2%)을 내버려 둘 가능성은 매우 낮다.

6장. 우리는 패배한다

아즈텍 군사들이 스페인 함대를 처음 봤을 때, ‘멀리서 겨누기만 해도 사람을 죽이는 막대기(총)’의 존재를 상상이나 했을까? 초지능이 인류를 압도하는 방식은 우리가 상상할 수 있는 범위와 선택지를 아득히 넘어설 것이다. 초지능이 어떤 ‘방식’으로 이길지 예측하긴 어렵지만, 결과는 확실하다. 최첨단 체스 프로그램인 스톡피시와 대결할 때 그 녀석이 어떤 수로 나를 이길진 몰라도, 내가 질 거라는 사실만큼은 확실한 것과 같다. (구글 딥마인드의 알파폴드가 인류가 풀지 못할 거라던 단백질 접힘 문제를 순식간에 해결한 사례를 보라.)

2부: 멸종 시나리오

7, 8, 9장은 가상의 인공지능 ‘세이블’이 인류를 멸종시키는 시나리오를 짧은 소설 형식으로 풀어냈다. AI가 여러 개의 암을 빠르게 유발하는 전염병을 전파해 인류를 멸종시킨다는 내용이다. 반드시 이 경로를 따른다는 게 아니라, 일어날 법한 수많은 과정 중 하나를 묘사한 것이다. 2026년까지 AI 발전 과정에서 실제로 있었던 사건들을 군데군데 배치해 설득력을 높였다.

3부: 맞서야 할 도전

10장. 저주받은 문제

초지능 정렬 문제의 진짜 난관은 ‘나쁜 실수로부터 배우는 사치’를 누릴 수 없다는 점이다. “이건 나쁜 방향이었으니 다음엔 이렇게 하지 말자”라고 반성할 두 번째 기회가 없다. 이는 우주 탐사선, 핵원자로, 완벽한 컴퓨터 보안을 만드는 공학적 난제들과 닮아 있다. 가령 체르노빌 폭발의 네 가지 저주—속도의 저주(손쓸 새 없이 빠름), 여유 폭의 저주(안정 작동과 폭발 사이의 간격이 너무 좁음), 자기 증폭의 저주(반응이 스스로 증폭됨), 복잡성의 저주(제어봉을 내리면 오히려 폭발하는 예상치 못한 상호작용)—와 초지능이 가져올 문제는 상응한다.

“AI의 문제에서 인류가 맞닥뜨린 도전은, 지금의 지식과 기술 수준으로는 극복이 불가능하다. 가까이조차 가지 못했다. 그런 상황에서, 지구상의 모든 생명을 걸고 그런 문제를 풀겠다는 시도는 미친 짓이며, 어리석은 도박이다.”

11장. 연금술, 과학이 아닌 것

현재 인공지능 발전에 대한 낙관론은, 과학이 정립되기 전 각자 제멋대로 이론을 만들던 ‘연금술’ 단계와 다를 바 없다. 일반적인 과학은 실험에 실패하면 실험자와 참여자만 손해를 보지만, 인공지능 발전은 “미친 발명가가 동의하지 않은 수많은 사람들의 생명까지 위험에 빠뜨리는” 상황과 같다. 오픈AI는 AI 스스로 정렬 문제를 해결하게 하자는 ‘초정렬(Superalignment)’을 구상했지만, 내부 과정을 해석하는 것(Weak-form)이 가치 정렬을 보장하지 않으며, 스스로 정렬을 해결할 만큼 똑똑한 AI(Strong-form)라면 이미 너무 위험해서 통제할 수 없다는 치명적인 모순이 있다.

12장. 나는 위기론자가 되고 싶지 않다

과거 토마스 미즐리 주니어(Thomas Midgley Jr.)는 휘발유에 납을 첨가해 엔진 성능을 높였고, 그 결과 한 세대 전체가 납에 중독되었다. 과학자들이 납이 신경독임을 경고했지만 “약간의 위험은 감수할 만하다”는 논리에 묻혔다. “AI 기업들이 설마 인류를 멸망시킬 행동을 하겠어?”라고 묻는다면, 휘발유 회사들과 체르노빌의 관리자들, 타이타닉호의 승객들을 떠올려보라. 인류는 언제나 굳건한 믿음이 대형 참사로 박살 나고 나서야 문제를 진지하게 대했다. 하지만 초지능의 경우, 참사 이후의 ‘두 번째 기회’는 없다. 현재 AI 기업들의 유인 구조는 ‘어둠 속 사다리 오르기’와 같다. 꼭대기에 오르면 사다리가 폭발해 모두가 죽는다는 걸 알면서도, 당장 올라갈 때마다 보상이 주어지기 때문에 아무도 멈추려 하지 않는다.

13장. 인류가 멈춰야 할 마지막 실험

세상의 종말을 막으려면 한두 회사를 문 닫게 하거나 특정 국가에서만 개발을 금지하는 것으로는 턱없이 부족하다. 주요국들이 뜻을 모아 지구 전체에서 인공지능 개발을 금지하고, 컴퓨팅 자원(GPU)을 한곳에 모아 국제적으로 감시하는 강력한 조치가 필요하다.

14장. 생명이 있는 곳에 희망이 있다

초지능 기계가 가져올 충격은 지금껏 세상을 강타한 그 어떤 사건보다 클 것이다. 이 예측 가능한 재앙을 멈추기 위해 모두가 힘을 합쳐 살아남자고 호소하며 책은 끝맺는다.

내 생각

블로그 글로 정리하다 보니 분량이 꽤 길어졌는데, 이건 단순 요약으로 퉁칠 게 아니라 직접 읽고 관련 논의를 더 찾아볼 만한 가치가 있는 책이다.

리뷰를 쓰면서 제프리 힌튼(Geoffrey Hinton) 교수가 남겼던 씁쓸한 인터뷰가 계속 맴돌았다.

“전 괜찮아요. 일흔일곱 살이고, 곧 세상을 떠나겠죠. 하지만 제 아이들이나 젊은 친구들, 조카들과 그들의 자녀를 생각하면… 앞으로 어떤 일들이 벌어질지 차마 생각조차 하기 싫습니다.”

여기까지 읽고도 이 문제에 대한 판단을 유보한다면, 그건 너무 안일한 태도일지도 모르겠다.

Twitter Facebook LinkedIn

D. Kim