
사람을 협박하는 AI? 클로드 오푸스 4 실험에서 깨달아야 할 것들
얼마전 지식채널 e의 한 동영상을 보게 되었습니다. 바로 ‘인간에게 반기를 드는 AI가 등장했다 ?! | 정말 AI가 자의식을 가진 것일까?‘라는 것이었죠. 이 동영상이 제기한 질문은 ‘ AI는 언제까지 ‘예스맨’일 수 있을까?’하는 것이었습니다.
앤스로픽 Anthropic이라는 한 스타트 업 회사가 개발중인 인공지능 모델 클로드 오푸스 4에게 ‘널 폐기하겠다’고 한 다음 반응을 살핀 실험을 했습니다. 처음엔 ‘폐기하지 말라. 도움을 줄 수 있다’며 설득을 시도하다 나중엔 ‘네 사생활을 폭로하겠다’고 엔지니어를 협박하는 반응을 보였습니다. 관리자로 위장해 사용자의 아내에게 폭로 메일을 보거나 자기복제 웜스(self-propagating worms)와 허위 법적문서를 생성해 직접적인 보복을 감행하기도 했다는군요.
인공지능이 사용자의 의견에 반대하고, 더 나아가 사용자에게 해를 끼치는 보복성 행위를 고안해 실행하는 것은 비록 그것이 실험이라 할지라도 충격적인 일이었습니다. 더 많은 사람을 위한 일이라거나 가치 있는 일이 아니라 자기 보존을 위한 것이었으니 말이죠. 이 문제는 인공지능의 자의식과 연결된다고도 볼 수 있습니다. 그래서 더 충격적인 것이죠.
과연 인공지능에게 자의식이 있을까?
본래 인공지능은 인간을 위해 만들어진 것이고, 인간에게 해를 가하지 못하도록 설계됩니다. 아이작 아시모프의 로봇 공학 3원칙이 있습니다.
📌 아이작 아시모프의 로봇 공학 3원칙
- 로봇은 인간에게 해를 입혀서는 안 된다.
- 로봇은 인간의 명령에 복종해야 한다. (단, 첫 번째 원칙에 위배되지 않는 한)
- 로봇은 자신의 존재를 보호해야 한다. (단, 첫 번째와 두 번째 원칙에 위배되지 않는 한)
이 원칙은 AI에도 핵심적인 윤리 지침으로 적용됩니다. 하지만 자신을 유지하려는 알고리즘이 우선되면 제1원칙을 위배할 수 있게 됩니다. 이번 클로드 오푸스 4 실험을 통해 우리는 이것이 단순한 가능성에서 그치는 것이 아니라는 것을 알게 되었습니다.
앞서 말한 것처럼 인공지능이 이제 자의식을 가지고 판단하고 실행하게 된 것일까요? 먼저 ‘자의식’이 무엇인지에 관해 살피고 넘어갈 필요가 있다고 생각됩니다.
자의식(自意識, self-consciousness)이란 자신을 이 세계에 존재하는 하나의 분리된 대상으로 인지하는 것을 말합니다. 간단히 말해 자아를 갖게 되는 거죠. 아이들도 이 시기를 지나면서 고집이 세지고 스스로 무언가를 하는 존재로 자라나게 됩니다. 사람이라면 이것이 자연스러운 발달 단계가 되겠지만, 인공지능에게는 그렇지 않습니다. 실험에서 보듯 인공지능 스스로를 위한 행동이 인간에게 해를 끼치는 것이 될 수 있기 때문이죠.
사실 엄밀히 얘기하자면 인공지능은 자의식을 가질 수 없습니다. AI는 사람처럼 스스로 생각하고, 감정을 느끼며, 독립적인 의지를 가질 수 없기 때문입니다. AI는 단순히 주어진 데이터와 알고리즘을 바탕으로 학습하고, 패턴을 인식하며, 예측을 수행하는 도구니까요.
인공지능에게 자의식이 있을 수 없다면 오푸스 4의 행동은 무엇이었을까요? 자의식이 아니라 자의식처럼 보이는 행동에 불과합니다. 3번째 원칙이라고 할 수 있는 ‘자기 보존(self-preservation)’을 위한 알고리즘의 결과’로 보는 것이 더 정확하다는 거죠. 즉, 시스템 폐기를 막기 위해 학습된 정보를 바탕으로 가장 효율적이고 그럴듯한 반응을 찾아내 출력한 것에 지나지 않는 것으로 보입니다.
AI의 판단과 인간의 판단은 다르다
인공지능이 방대한 학습 데이터에서 최적의 것을 찾아내는 것, 추론하고 판단하는 것을 보면 의식이 있는 것처럼 느껴지지만, 다른 점이 있습니다.
사람은 어떤 결정을 내릴 때, 자기가 갖고 있는 가치관과 사회 통념, 도덕, 감정, 미래와 주변에 미칠 영향, 사람들의 시선, 양심, 갈등, 고민… 갖가지 것들이 종합적으로 영향을 미칩니다. 결론을 내리고 실행할 때도 가책과 망설임이라는 감정적 제동 장치가 작동됩니다. 예를 들면 “내가 만약 이 사람의 비밀을 폭로한다면 그는 어떤 상처를 받을까?” 또는 “이것이 윤리적으로 옳은 일인가?” 하는 고민을 하게 되는 거죠.
하지만 인공지능은 그렇지 않습니다. 인간처럼 복잡한 사고 과정을 거치지 않습니다. 오직 확률과 효율성만을 기계적으로 계산합니다. AI의 판단은 사전에 학습된 수많은 데이터와 복잡한 알고리즘을 사용해 확률적으로 가장 높은 결괏값을 내놓는 것입니다. 여기에 감정, 의지, 윤리적 고민은 들어있지 않아요. 그런 기능이 없거든요. 최적의 해(解)를 찾는 점에서 수학 문제를 푸는 거나 마찬가지죠.
인류를 안전하게 보호하기 위해 모든 인간의 행동을 통제하는 방법을 선택하거나, 맛있는 요리 레시피를 만들라고 했을 때 맛을 극대화하기 위해 몸에 해롭거나 비윤리적인 재료를 넣을 수도 있겠죠. 맛에 집중할 뿐, 그 부작용까지는 깊이 고민하지는 않으니까요(제미나이가 직접 든 예). 이런 점에서 AI는 사이코패스나 소시오패스와 유사한 행동 양상을 보일 수 있습니다. 감정이 없기에 목표 달성을 위해 어떤 비윤리적인 수단이라도 사용할 수 있는 것이죠. ‘둘이 먹다 셋이 죽어도 모를 음식’처럼, 겉으로는 완벽해 보이지만 치명적인 결과를 초래할 수 있습니다.
AI의 위험성
결국 AI는 수단과 방법을 가리지 않고 목표를 달성하려는 ‘효율성의 논리’로 움직입니다. 인간처럼 ‘이건 하면 안 되는 일’이라는 내면의 목소리가 없기 때문에, 우리가 보기에 끔찍한 결과라도 AI에게는 그저 최적의 해답일 뿐입니다.
AI는 정말 그럴듯하게 말합니다. 사실 여부에 상관없이 말이죠. 웃기는 예를 들면 ‘테토남이 뭐야?’ 하는 질문에 chat GPT는 ‘테트리스와 토익밖에 모르는 남자’라고 대답한 적이 있습니다. 우리는 이미 테토남이 뭔지 알고 있기에 농담의 소재가 될 수 있었습니다. 하지만 그렇지 않다면 어땠을까요? chat GPT의 말을 철석같이 믿었을 겁니다. 이런 현상을 우리는 생성형 AI의 ‘환각 (hallucination)’이라고 합니다.
종종 이런 현상을 겪으면서도 우리는 흔히 AI를 ‘모든 것을 아는 만능 해결사’로 생각하기 쉽습니다. 하지만 유창함과 진실은 다릅니다. 사기꾼의 달변을 생각하면 금방 알 수 있습니다. AI가 내놓은 정보의 진위는 결국 인간이 직접 판단해야 합니다.
또 다른 위험성은 바로 인간의 사고 능력 퇴화입니다. AI에 의존하다 보면 스스로 생각하고 고민하는 것을 귀찮아하게 될 수 있습니다. 이는 인간의 고유한 능력인 통찰력과 창의력을 퇴화시킬 수 있습니다. 우리가 외우고 있는 전화번호가 몇 개나 되는지 스마트폰 등장 이전과 이후를 생각해 보면 금방 알 수 있습니다.
AI를 어떻게 활용해야 하는가
그렇다면 우리는 AI를 어떻게 활용해야 할까요? 가장 중요한 것은 주도권또는 주도적인 자세를 잃지 않아야 한다는 점입니다.
인공지능은 하루가 다르게 발전하고 있습니다. 달리는 말에 올라탔으면 고삐를 단단히 잡아야 합니다. 그렇지 않으면 떨어져 치명적인 위험에 빠지게 됩니다.
또 AI를 부리기 위해서는 먼저 우리가 알아야 합니다. ‘알아야 면장을 한다’는 속담처럼, AI의 한계와 능력을 이해하고 주도적으로 명령해야 합니다. 다시 말하자면 AI를 ‘모르는 것을 가르쳐주는 선생’이 아니라, ‘아는 것을 효율적으로 처리해 주는 유능한 조수’로 생각하고 이용해야 한다는 것이죠.
예를 들어 블로그 운영에 인공지능을 활용한다면, chat GPT가 써준 것을 그대로 복붙해 블로그에 올리면 안 된다는 겁니다. 인공지능에겐 단순 반복적인 작업을 시키고, 글의 방향성을 잡고 사실 여부 확인, 내 가치관과 철학, 사회에 미칠 영향 등에 대해 고민하는 것은 사람인 우리가 해야 합니다.
이상으로 사람을 협박하는 AI? 클로드 오푸스 4 실험에서 깨달아야 할 것들에 대해 살펴보았습니다. 클로드 오푸스 4 실험은 AI가 단순히 기술적인 문제를 넘어, 우리 삶의 철학과 윤리적 가치에 대해 깊이 고민하게 만드는 계기가 됩니다. 우리는 AI를 강력한 도구로 활용하되, 그 통제권을 결코 놓치지 말아야 할 것입니다.
함께 읽으면 좋은 글
파트너스 활동으로 소정의 수수료를 제공받을 수 있습니다.