IT_잡담2024. 1. 16. 13:52

 

 

 

 

 

원문 기사는 여기로 

IT 전문 인터넷 언론 the Register의 기사다. 주요 내용을 정리해 보자면 대략 아래와 같다.

작년에 오픈AI(OpenAI)의 GPT-4 언어 모델이 변호사 시험(Bar exam)을 통과할 수 있다고 해서 화제가 된 적이 있었다. 그러나 최근 연구에 의하면 대형 언어 모델(LLM, Large Language Model)이 변호사를 대체하기는 커녕 보조수단으로 활용하는 것도 어려운 것으로 나타났다. 

가장 큰 문제는 AI 언어 모델이 종종 가짜 정보를 지어낸다는 것이다. 사실에 기반한 증거를 다루는 재판에서는 치명적이다. 예일(Yale)과 스탠포드(Stanford) 대학 연구진이 유명한 대형 언어 모델들의 환각(hallucination) 현상을 분석한 바에 의하면, 종종 적합한 법률 정보를 제공하지 못하거나 법률를 정확하게 이해하지 못하고 있음이 드러났다. 

챗GPT(ChatGPT) 무료 버전의 기반이 되는 GPT-3.5의 경우 환각 비율이 무려 69%에 달했다. 구글(Google)의 바드(Bard) 챗봇에 사용되었던 PaLM-2는 더 심해서 72%이고, 메타(Meta)에서 공개한 Llama 2는 88%였다. 

특정 사건이 어느 법원에 배정되어 있는지 조회하는 등 간단한 작업에 대해서는 상대적으로 더 정확한 답변을 할 수 있지만, 그 어떤 법조인보다 많은 양의 법률 문서를 동원해서 학습을 할 수 있음에도 불구하고, 법률을 이해하고 적절한 법률적 주장을 형성하지는 못했다. 

AI가 코딩과 수학에 관한 추론에 대해서는 상당한 발전을 보여주었으나, 법률에서의 추론은 상황이 다르다. 변호사들은 이전 판례를 바탕으로 현재 사건과의 유사성을 파악하고 이를 바탕으로 추론하고 주장을 전개한다. 

AI는 단순한 요청에서도 실수하는 경우가 나타났다. 특정 인물의 이름이나 변론에서 인용된 특정 사건이 실제 존재하는지 파악하기 위해 AI에게 질문했을 경우 GPT-3.5, PaLM-2, Llama 2 모두 가짜 정보를 생성해서 제공할 수 있음이 드러났다. 

AI 언어 모델이 사용자의 요청이나 주장에 되도록 동조하는 방향으로 답변하도록 동작한다는 점도 문제가 된다. 사용자의 전제에 문제가 있는지 확인하는 것이 아니라 사용자가 제시한 전제가 옳다고 가정하고 사용자와 동의하는 방향의 답변을 생성하기 때문이다. 

실제로 변호사가 챗GPT를 법률 문서 작성에 활용했다가 존재하지도 않는 사건을 인용한 것으로 드러나 징계를 받은 사례도 있다. 

원문 기사에는 좀 더 많은 내용이 있지만, 핵심은 대충 이 정도인듯. 사소한 것이나 중요한 것이나 관계 없이 법원에 제출하는 문서를 작성할 때 AI를 활용하는 것은 상당히 위험할 수 있다. 사실 법률 문제가 아닌 사안에 대해서도 AI 언어 모델이 거짓말을 할 수 있다는 점은 이미 드러나 있기 때문에(이전 게시물을 참고하자. 여기로) 증거를 기반으로 하는 재판에서는 당연히 사용하지 않는 것이 좋을 것이다. 적어도 현재 기술 수준으로는 AI가 법조인을 대체하는 것은 불가능해 보인다. 

원문 기사에서 인용한 연구 논문은 아래의 링크에 있다. 

Matthew Dahl, Varun Magesh, Mirac Suzgun, and Daniel E. Ho, Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

728x90
Posted by 반달가면