상단영역
최신기술동향
게시판 상세보기
[소프트웨어정책연구소] 네이처, AI 생성 데이터로만 학습한 AI 모델의 붕괴 위험 증가 경고 논문 게재
[AI 브리프] 2024년 9월호_인공지능 산업의 최신 동향_인공지능 산업 동향 브리프_기술/연구
Key Contents
■ 영국 옥스퍼드⼤를 포함한 주요 대학 연구진의 실험 결과, AI로 만든 데이터로만 학습한 LLM은 오염된 결과물을 생성하는 모델 붕괴 현상이 발생
■ 모델 붕괴가 일어나는 이유는 AI로 만든 데이터로만 학습한 모델 세대가 반복되면서 오류가 축적되기 때문으로, 모델 붕괴를 막으려면 인간이 만든 원본 데이터를 함께 활용할 필요
○ AI가 만든 데이터로 모델 학습 반복한 결과, 모델 붕괴 현상 발생
■ 영국 옥스퍼드⼤를 비롯한 주요 대학 연구진이 2024년 7월 24일 네이처(Nature)에 발표한 연구에 따르면 AI로 만든 데이터로만 학습한 LLM은 결과물이 오염되는 ‘모델 붕괴(Model Collapse)’ 현상이 발생
∙ AI가 만든 데이터를 AI가 학습해 결과물을 생성하고 이 데이터를 다시 AI가 학습해 결과물을 생성하도록 실험을 반복한 결과, 후속 모델은 엉뚱한 결과물을 생성하는 모델 붕괴 현상이 확인
■ 메타(Meta)의 AI 모델 OPT-125m에 14세기 중세 건축에 대한 텍스트를 입력하고 이전 세대의 모델에서 생성된 데이터를 기반으로 다음 세대 모델을 학습시킨 결과, 5세대 모델부터 입력한 데이터와 무관한 결과물이 생성되기 시작
∙ 5세대 모델은 맥락과 무관하게 영어, 이탈리아어, 프랑스어, 독일어, 스페인어 등 100개 이상 언어로 번역되었다는 내용을 출력했으며, 9세대 모델은 ‘세계 최대 규모의 검정 @ -@ 꼬리 토끼 ’, ‘흰 @-@꼬리 토끼’ 등 해석이 불가능한 문장을 생성
○ 모델 붕괴를 막기 위해서는 인간이 만든 원본 데이터를 함께 활용 필요
■ 연구진은 이 같은 모델 붕괴가 일어나는 이유를 시간이 지남에 따라 모델에 내재한 통계나 함수 표현, 기능적 측면의 사소한 오류와 오해가 축적되기 때문이라고 설명하면서, 모델 붕괴를 막으려면 AI 모델 개발 시 인간이 만든 원본 데이터를 활용하는 것이 중요하다고 강조
∙ AI 모델은 데이터셋의 일부만 학습하며, 세대가 반복될수록 원본 데이터의 특성이 사라지고 점점 더 많은 오류가 추가되어 퇴행적 학습 과정을 겪게 되면서 후속 모델은 처음 모델과 전혀 다른 결과물을 생성
∙ 연구진은 모델 붕괴가 잘못된 피드백 루프에 해당하는 현상이라며, 모델이 자체 결과물에 더 많이 의존할수록 현실에서 더 멀어진다고 설명
∙ 인간이 만든 데이터와 LLM에서 생성된 콘텐츠의 구별이 점점 더 어려워지는 상황에서, 데이터 출처 관리의 중요성도 증대
∙ LLM을 활용해 작성한 인터넷 콘텐츠가 많아질수록 후속 모델 교육용으로 수집한 데이터의 오염이 심각해질 수 있으며, 인간이 만든 데이터의 가치는 더욱 높아질 전망
☞ 출처: Nature, AI models collapse when trained on recursively generated data, 2024.07.24.
출처 : 소프트웨어정책연구소 AI 브리프 2024년 9월호_인공지능 산업 동향 브리프_기술/연구
번호 | 제목 | 작성자 | 작성일 |
---|---|---|---|
133 | [현대경제연구원] 2025년 한국 경제 전망 - 내외수 균형성장이 필요한 한국 경제 링크 있으면 표시 | 한국환경산업협회 | 2024-12-12 |
132 | [소프트웨어정책연구소] 구글 딥마인드, 반도체 칩 레이아웃 설계하는 AI 모델 ‘알파칩’ 발표 링크 있으면 표시 | 한국환경산업협회 | 2024-12-11 |
131 | [한국개발연구원] KDI 경제동향 2024. 12 링크 있으면 표시 | 한국환경산업협회 | 2024-12-11 |
130 | [한국전자통신연구원] 차세대 반도체를 위한 글로벌 장비 개발 동향 링크 있으면 표시 | 한국환경산업협회 | 2024-12-11 |
129 | [한국원자력연구원] 미국의 원자력 발전 확대 구상 링크 있으면 표시 | 한국환경산업협회 | 2024-12-11 |
128 | [한국화학연구원] 최근 석유화학기업 각축장 '폐플라스틱 열분해유' 활용, 기존 기술 한계 극복한다 링크 있으면 표시 | 한국환경산업협회 | 2024-12-11 |
127 | [농림식품기술기획평가원] 업사이클드 푸드(Upcycled Food) 최신동향 및 사례 분석 링크 있으면 표시 | 한국환경산업협회 | 2024-12-11 |
126 | [한국지능정보사회진흥원] 반도체 기술발전과 미래컴퓨팅 기술의 진화(상) 링크 있으면 표시 | 한국환경산업협회 | 2024-12-10 |
125 | [한국로봇산업진흥원] 일본 RIETI, 산업용 로봇 증가가 직업과 임금에 미친 영향 분석 링크 있으면 표시 | 한국환경산업협회 | 2024-12-10 |
124 | [과학기술정책연구원] 인공지능 산업 진흥 및 규제 불확실성 해소를 위한 국가 차원의 통상규범과 국제표준 전략 준비해야 링크 있으면 표시 | 한국환경산업협회 | 2024-12-10 |