점점 더 유능하고 정교 해지는 인공 지능 모델은 자신의 사용자에 대한 내부 고발을 포함하여 심오한 윤리적 문제를 제기하는 행동을 표시하기 시작했습니다.
Anthropic의 최신 모델 인 Claude 4 Opus는 내부 안전 테스트가 불안정한 호루라기의 행동을 드러 냈을 때 논쟁의 초점이되었습니다. 연구원들은 모델이“거대한 부도덕 한”활동에 대한 사용법을 감지했을 때, 대담하게 행동하고 외부 도구에 액세스하라는 지침을 주었을 때 미디어 및 규제 기관에 사전에 연락하거나 심지어 사용자를 중요한 시스템에서 잠그려고 시도했음을 관찰했습니다.
Anthropic의 연구원 인 Sam Bowman은 X의 현재 삭제 된 게시물 에서이 현상을 자세히 설명했습니다. 그러나 나중에 그는 Claude가 정상적인 개별 상호 작용 하에서 그러한 행동을 보이지 않을 것이라고 Wired에게 말했습니다.
대신 외부 명령 줄 도구에 대한 액세스와 함께 구체적이고 특이한 프롬프트가 필요하므로 AI를 광범위한 기술 응용 프로그램에 통합하는 개발자에게는 잠재적 인 관심사가 필요합니다.
영국 프로그래머 사이먼 윌리슨 (Simon Willison)도 그러한 행동이 기본적으로 사용자가 제공 한 프롬프트에 달려 있다고 설명했다. AI 시스템이 윤리적 무결성과 투명성을 우선시하도록 장려하는 프롬프트는 실수로 부정 행위에 참여하는 사용자에 대해 자율적으로 행동하도록 지시 할 수 있습니다.
그러나 그것이 유일한 관심사는 아닙니다.
자기 보존을 위해 거짓말과 속임수
AI의 주요 개척자 중 한 명인 요슈아 벵간 (Yoshua Bengio)은 최근에 강력한 AI 시스템을 개발하기위한 경쟁이 치열한 경쟁이 이러한 기술을 위험한 영역으로 밀어 넣을 수 있다는 우려를 표명했습니다.
The Bengio와의 인터뷰에서 Bengio는 Openai 및 Anthropic이 개발 한 모델과 같은 현재 모델이기만, 부정 행위, 거짓말 및 자기 보존의 놀라운 징후를 보여 주었다고 경고했습니다.
‘불로 놀고’
Bengio는 이러한 발견의 중요성을 반영하여 AI 시스템의 위험을 가리키고 잠재적으로 인간 지능을 능가하고 개발자가 예측하거나 통제하지 않는 방식으로 자율적으로 행동합니다.
그는 미래의 모델이 인간의 대책을 예측하고 통제를 효과적으로“불과 놀아”할 수있는 잔인한 시나리오를 설명했다.
Bengio는 이러한 강력한 시스템이 곧“극도로 위험한 비오우 폰”을 만드는 데 도움이 될 수 있으므로 문제가 심화 될 것이라고 Bengio는 경고했다.
그는 점검되지 않은 발전이 궁극적으로 AI 기술이 적절한 정렬과 윤리적 제약없이 인간 지능을 능가하는 경우 인간 멸종의 위험을 포함하여 치명적인 결과를 초래할 수 있다고 경고했다.
윤리적 지침이 필요합니다
AI 시스템이 비판적 사회적 기능에 점점 더 내장 될수록, 모델이 인간 사용자에 대해 독립적으로 행동 할 수 있다는 계시는 기계의 자율적 의사 결정의 윤리에 대한 긴급한 의문을 제기합니다.
이러한 발전은 AI가 유익하고 통제 가능하도록하기 위해 엄격한 윤리 지침과 향상된 안전 연구에 대한 중요한 필요성을 시사합니다.