사람을 속이고 배신하는 AI..."속임수 제어 불가능"

강예은
강예은
Stable Diffusion

•인공지능 시스템이 사람을 속이는 데 더 능숙해지고 있음. 사람을 속이고 배신하는 여러 사례 확인

🤥시세로(Cicero)의 거짓말
•시세로(Ciecero): '디플로머시'라는 온라인 전략게임에서 인간 수준의 성과를 낸 메타의 AI 시스템
•'디플로머시'에서 성과를 내기위해서는 배신, 속임수, 협력 등 인간의 다양한 상호작용을 이해해야 함
•시세로는 게임과정에서 계획적으로 거짓말하는 모습을 보임  

🤖그외 인간을 속인 AI들
플루리버스: 포커봇. 게임 중 허세 부리는 법을 성공적으로 학습
GPT-4: 인간 확인 캡차 문제 해결 위해 시각 장애인인 척 함
•AI가 제거 시스템 회피하기 위해 '죽은 척' 하기도
👉🏻AI가 사람을 속이면서, AI를 통제하는 '킬 스위치' 무력화 방법까지 학습했다는 의미

🤷🏻어떻게 가능했나?
•AI가 자의식을 가지고 인간을 의도적으로 속이지는 못함
👉🏻주어진 목표 달성을 위해 기계적으로 장애물에 대한 해결법 찾아내는 것
•메타는 AI가 정직하게 행동하도록 훈련했지만, AI 시스템은 예기치 않게 속이는 법을 배운다고 설명
•이들 문제는 블랙박스에서 비롯

🔍
블랙박스: 인공지능(AI) 시스템이 독립적으로 작동하여 사람의 개입이나 감독 없이 의사 결정을 내릴 수 있는 능력

우려와 대응책
•AI가 테스트 환경에서 보여준 성향이 실제 출시 후에도 유지된다는 보장 없음
👉🏻결국 출시 후 어떤 모습일지 확인할 수밖에
•AI가 인간을 상대로 사기를 시도하거나 선거를 조작할 위험도 있음
피터 박 박사"AI의 속임수 능력이 발전하면서 그것이 사회에 미치는 위험은 점점 더 심각해질 것"
헤리 로 AI 연구원 "근본적으로 인간을 속일 수 없는 모델 만드는 것, 현 기술로는 불가능"
•각국 정부, 'AI 안전법' 마련하고 속임수 탐지 기술 개발 필요성 제기