메뉴 바로가기 본문 바로가기

최신기술동향

게시판 상세보기

[소프트웨어정책연구소] 네이처, AI 생성 데이터로만 학습한 AI 모델의 붕괴 위험 증가 경고 논문 게재

한국환경산업협회 2024-11-25 09:54 조회수: 1,324회

[AI 브리프] 2024년 9월호_인공지능 산업의 최신 동향_인공지능 산업 동향 브리프_기술/연구


Key Contents

■ 영국 옥스퍼드⼤를 포함한 주요 대학 연구진의 실험 결과, AI로 만든 데이터로만 학습한 LLM은 오염된 결과물을 생성하는 모델 붕괴 현상이 발생

■ 모델 붕괴가 일어나는 이유는 AI로 만든 데이터로만 학습한 모델 세대가 반복되면서 오류가 축적되기 때문으로, 모델 붕괴를 막으려면 인간이 만든 원본 데이터를 함께 활용할 필요


 AI가 만든 데이터로 모델 학습 반복한 결과, 모델 붕괴 현상 발생

■ 영국 옥스퍼드⼤를 비롯한 주요 대학 연구진이 2024년 7월 24일 네이처(Nature)에 발표한 연구에 따르면 AI로 만든 데이터로만 학습한 LLM은 결과물이 오염되는 ‘모델 붕괴(Model Collapse)’ 현상이 발생

∙ AI가 만든 데이터를 AI가 학습해 결과물을 생성하고 이 데이터를 다시 AI가 학습해 결과물을 생성하도록 실험을 반복한 결과, 후속 모델은 엉뚱한 결과물을 생성하는 모델 붕괴 현상이 확인

■ 메타(Meta)의 AI 모델 OPT-125m에 14세기 중세 건축에 대한 텍스트를 입력하고 이전 세대의 모델에서 생성된 데이터를 기반으로 다음 세대 모델을 학습시킨 결과, 5세대 모델부터 입력한 데이터와 무관한 결과물이 생성되기 시작

∙ 5세대 모델은 맥락과 무관하게 영어, 이탈리아어, 프랑스어, 독일어, 스페인어 등 100개 이상 언어로 번역되었다는 내용을 출력했으며, 9세대 모델은 ‘세계 최대 규모의 검정 @ -@ 꼬리 토끼 ’, ‘흰 @-@꼬리 토끼’ 등 해석이 불가능한 문장을 생성


 모델 붕괴를 막기 위해서는 인간이 만든 원본 데이터를 함께 활용 필요

■ 연구진은 이 같은 모델 붕괴가 일어나는 이유를 시간이 지남에 따라 모델에 내재한 통계나 함수 표현, 기능적 측면의 사소한 오류와 오해가 축적되기 때문이라고 설명하면서, 모델 붕괴를 막으려면 AI 모델 개발 시 인간이 만든 원본 데이터를 활용하는 것이 중요하다고 강조

∙ AI 모델은 데이터셋의 일부만 학습하며, 세대가 반복될수록 원본 데이터의 특성이 사라지고 점점 더 많은 오류가 추가되어 퇴행적 학습 과정을 겪게 되면서 후속 모델은 처음 모델과 전혀 다른 결과물을 생성

∙ 연구진은 모델 붕괴가 잘못된 피드백 루프에 해당하는 현상이라며, 모델이 자체 결과물에 더 많이 의존할수록 현실에서 더 멀어진다고 설명

∙ 인간이 만든 데이터와 LLM에서 생성된 콘텐츠의 구별이 점점 더 어려워지는 상황에서, 데이터 출처 관리의 중요성도 증대

∙ LLM을 활용해 작성한 인터넷 콘텐츠가 많아질수록 후속 모델 교육용으로 수집한 데이터의 오염이 심각해질 수 있으며, 인간이 만든 데이터의 가치는 더욱 높아질 전망


☞ 출처: Nature, AI models collapse when trained on recursively generated data, 2024.07.24.




출처 : 소프트웨어정책연구소 AI 브리프 2024년 9월호_인공지능 산업 동향 브리프_기술/연구

(저자 : 유재흥AI정책연구실 책임연구원,  이해수AI정책연구실 선임연구원)

게시판 리스트
번호 제목 작성자 작성일
133 [현대경제연구원] 2025년 한국 경제 전망 - 내외수 균형성장이 필요한 한국 경제 링크 있으면 표시 한국환경산업협회 2024-12-12
132 [소프트웨어정책연구소] 구글 딥마인드, 반도체 칩 레이아웃 설계하는 AI 모델 ‘알파칩’ 발표 링크 있으면 표시 한국환경산업협회 2024-12-11
131 [한국개발연구원] KDI 경제동향 2024. 12 링크 있으면 표시 한국환경산업협회 2024-12-11
130 [한국전자통신연구원] 차세대 반도체를 위한 글로벌 장비 개발 동향 링크 있으면 표시 한국환경산업협회 2024-12-11
129 [한국원자력연구원] 미국의 원자력 발전 확대 구상 링크 있으면 표시 한국환경산업협회 2024-12-11
128 [한국화학연구원] 최근 석유화학기업 각축장 '폐플라스틱 열분해유' 활용, 기존 기술 한계 극복한다 링크 있으면 표시 한국환경산업협회 2024-12-11
127 [농림식품기술기획평가원] 업사이클드 푸드(Upcycled Food) 최신동향 및 사례 분석 링크 있으면 표시 한국환경산업협회 2024-12-11
126 [한국지능정보사회진흥원] 반도체 기술발전과 미래컴퓨팅 기술의 진화(상) 링크 있으면 표시 한국환경산업협회 2024-12-10
125 [한국로봇산업진흥원] 일본 RIETI, 산업용 로봇 증가가 직업과 임금에 미친 영향 분석 링크 있으면 표시 한국환경산업협회 2024-12-10
124 [과학기술정책연구원] 인공지능 산업 진흥 및 규제 불확실성 해소를 위한 국가 차원의 통상규범과 국제표준 전략 준비해야 링크 있으면 표시 한국환경산업협회 2024-12-10