AI가 인간 지배? 그 두려움 덜게 됐다

생성형 AI가 '금문교'라는 키워드에 반응하는 모습. 주황색 표시 부분(앤트로픽)

•AI가 내놓는 답이 어떤 과정을 거쳐 나오는지 그 동안 개발자도 잘 알지 못했음. AI 스타트업 기업이 AI 내부 작동 방식을 처음으로 규명

📜 무슨 일?
•앤트로픽(오픈AI 경쟁사)이 자사 LLM중 하나인 '클로드 소넷' 내부 작동 방식을 최초로  해독
-AI 작동원리는 구체적으로 파악되지 않아 그 동안 '블랙박스'로 불려왔음
•인간의 뇌처럼 LLM이 특정 단어의 의미나 맥락을 유사한 개념으로 추론해 내는 패턴 분석

🖥️
LLM(Large language model, 대형언어모델) : 수십억~수조개의 텍스트 언어를 익힌 AI모델. 언어의 구조, 의미, 맥락을 이해하고 새로운 텍스트를 생성할 수 있는 능력을 갖춤

🤖 LLM 해독 못했을 때의 위험성
•AI가 신뢰하기 어렵거나 편향된 답변 생성해도 통제 못해
-부정확한 답변으로 의료나 법률, 금융 등의 분야에서 치명적 피해 초래할 가능성
•AI가 인간의 통제에서 벗어나 가령 핵폭발 단추 같은 것도 누를 수 있어

🔬이번 연구의 의의
•AI가 학습하는 과정을 인간이 이해할 수 있게 됨
•LLM 내부 일부를 인위적으로 키우거나 억제하는 방식으로 AI 통제 가능
•보다 안전한 AI 개발 가능
•연구실 실험 단계 수준의 작은 모델이 아닌 상용화 가능한 모델 수립