본문 바로가기
  • Good Metaphor about AI
논문 리뷰/Survey 논문

[4/4] Large Language Models: A Survey

by Like the Moon 2025. 1. 16.

목차

Abstract

I Introduction

II Large Language Models

III HOW LLMS ARE BUILT

IV. HOW LLMS ARE USED AND AUGMENTED

V. POPULAR DATASETS FOR LLMS

VI. PROMINENT LLMS’ PERFORMANCE ON BENCHMARKS

VII. CHALLENGES AND FUTURE DIRECTIONS

VIII. CONCLUSION


 

 

V. POPULAR DATASETS FOR LLMS

대규모 언어 모델(LLM)은 유망한 성과를 보이고 있지만, 이들이 특정 작업이나 응용 분야에서 얼마나 효과적으로 작동하는지, 그리고 그 성능을 어떻게 평가할 수 있는지가 주요 질문으로 떠오르고 있다.

LLM의 평가에는 응용 분야의 변화하는 환경으로 인해 특정한 어려움이 존재한다. LLM 개발의 초기 목적은 번역, 요약, 질문-답변과 같은 NLP 작업의 성능을 향상시키는 것이었다 [178]. 그러나 오늘날 이러한 모델은 코드 생성, 금융 등 다양한 도메인에서도 활용되고 있음이 분명하다.

게다가, LLM의 평가에는 공정성과 편향, 사실 확인, 추론과 같은 여러 중요한 고려 사항이 포함된다. 본 절에서는 LLM을 평가하기 위해 일반적으로 사용되는 벤치마크를 개괄적으로 설명한다. 이러한 벤치마크는 LLM의 능력을 훈련하거나 평가하는 방식에 따라 분류된다.

 

 

 

 

 

A. Datasets for Basic Tasks: language modeling/understanding/generation

이 장에서는 LLM의 기본적인 능력을 평가하기에 적합한 벤치마크와 데이터셋에 대한 개요를 제공한다.

 

Natural Questions 

- 제작 기관: Google 

- 분야 : QA (실제 구글 검색 엔진에 질문된 QA로 구성되어 있음)

Natural Questions [179]는 Google 검색 엔진에 질문 형태로 제출된 실제 익명화된 집계 질의로 구성된 QA 데이터셋이다. 주석자는 질문과 함께 상위 5개의 검색 결과에 포함된 Wikipedia 페이지를 제공받아, 해당 페이지에 긴 답변(일반적으로 한 단락)과 짧은 답변(하나 이상의 엔티티)이 있는 경우 이를 주석하거나, 긴 답변과 짧은 답변이 없는 경우에는 null로 표시한다.

 

MMLU

MMLU [180]는 제로샷(zero-shot) 및 퓨샷(few-shot) 시나리오에서 얻은 지식을 평가하기 위해 설계되었다. 이는 모델의 일반적인 지식과 문제 해결 능력을 모두 평가한다는 것을 의미한다. MMLU는 STEM, 인문학, 사회과학 및 기타 분야를 포함하여 총 57개 과목을 다루며, 초등 수준부터 고급 전문 수준까지 다양한 복잡도를 가진다. 이 데이터셋의 주요 기여는 다중 작업 언어 이해, 질문 응답, 그리고 산술 추론을 위한 평가라는 점을 언급할 가치가 있다.

 

MBPP

MBPP [181]는 "Mostly Basic Python Problems"의 약자로, 코드 생성 모델의 성능을 평가하기 위한 벤치마크를 제공한다. 이 벤치마크는 기본 프로그래밍 개념, 표준 라이브러리 사용 등을 포함한 다양한 주제를 다루는 974개의 짧은 Python 프로그램으로 구성되어 있다. 각 과제는 작업 설명, 코드 솔루션, 그리고 세 가지 자동화된 테스트 케이스로 이루어져 있다.

 

HumanEval

HumanEval [182]는 코드 생성 작업을 위한 데이터셋으로, 164개의 수작업으로 제작된 프로그래밍 과제로 구성되어 있다. 각 과제는 함수 서명, 도크스트링, 코드 본문, 그리고 여러 개의 유닛 테스트를 포함한다. 이 데이터셋을 개발한 주요 목적은 코드 생성 모델의 학습 데이터셋에서 해당 내용을 제외하는 것을 보장하기 위함이다.

 

APPS

APPS [183]는 Python 프로그래밍 언어를 중심으로 코드 생성 작업을 위해 설계된 데이터셋이다. APPS 데이터셋은 총 232,444개의 Python 프로그램으로 구성되어 있으며, 각 프로그램은 평균 18줄의 Python 코드로 이루어져 있다. 또한, APPS는 10,000개의 고유한 프로그래밍 과제를 텍스트 기반 문제 설명과 함께 제공한다. 마지막으로 강조할 점은 이 데이터셋에 테스트 케이스가 포함되어 있다는 것이다.

 

WikiSQL

WikiSQL [184]는 코드 생성 작업을 위해 제작된 데이터셋으로, Wikipedia 테이블에서 추출한 자연어 질문과 이에 대응하는 SQL 쿼리로 이루어진 87,726개의 정교하게 레이블된 쌍을 포함하고 있다. SQL 쿼리는 테스트 세트(17,284개), 개발 세트(9,145개), 훈련 세트(61,297개)의 세 가지 하위 집합으로 구성되어 있다.

 

TriviaQA

TriviaQA [185]는 질문-응답(QA) 작업을 위해 설계된 데이터셋으로, 65만 개 이상의 질문-응답-증거 삼중 항목을 포함하고 있다. 이 데이터셋에는 트리비아 애호가들이 작성한 95,000개의 질문-응답 쌍이 포함되어 있으며, 각 질문은 평균 6개의 독립적으로 출처를 확보한 증거 문서로 뒷받침된다. 이 문서들은 Wikipedia나 더 넓은 웹 검색 결과에서 자동으로 수집된다. 데이터셋은 두 개의 세그먼트로 분류되는데, 하나는 Wikipedia와 웹 도메인에서의 신뢰할 수 있는 답변을 포함한 세트이며, 다른 하나는 Wikipedia와 온라인에서 관련 문서와 함께 정확히 답변된 검증 세트이다.

 

RACE

RACE [186]는 독해 작업에 적합한 데이터셋이다. 이 데이터셋은 12세에서 18세 사이의 중국 중·고등학생들이 완료한 영어 시험을 기반으로 하며, 약 28,000개의 텍스트와 100,000개의 질문이 포함되어 있다. 이 질문들은 주로 영어 교사들에 의해 철저히 준비되었으며, 학생들의 독해 및 추론 능력을 평가하기 위해 다양한 주제를 의도적으로 선정했다. 데이터셋은 RACE-M, RACE-H, RACE의 세 가지 하위 그룹으로 나뉘는데, RACE-M은 중학교 시험, RACE-H는 고등학교 시험을 나타내며, RACE는 RACE-M과 RACE-H를 통합한 데이터셋이다.

 

SQuAD

SQuAD [187]는 "Stanford Question Answering Dataset"의 약자로, Wikipedia 문서를 기반으로 한 크라우드소싱 독해 데이터셋이다. 이 데이터셋은 500개 이상의 문서와 연결된 약 100,000개의 질문-응답 쌍으로 구성되어 있다. 이 질문의 답변은 일반적으로 해당 읽기 자료에서 가져온 텍스트 조각 또는 범위이다. 일부 질문은 답변할 수 없는 경우도 있다. 데이터셋은 80%의 훈련 세트, 10%의 개발 세트, 10%의 비공개 테스트 세트로 나뉜다.

 

BoolQ

BoolQ [188]는 예/아니오 질문-응답 데이터셋으로, 목표는 독해 작업이다. BoolQ는 15,942개의 예제를 포함하며, 각 예제는 질문, 관련 단락, 그리고 해결책을 포함한 삼중 항목으로 구성되어 있다. 이 데이터셋의 주요 목적은 독해를 위한 것이지만, 추론, 자연어 추론, 그리고 질문-응답 작업에도 사용할 수 있다.

 

MultiRC

MultiRC [189]는 독해 작업에 적합한 또 다른 데이터셋이다. MultiRC는 짧은 단락과 단락 내 정보를 바탕으로 답할 수 있는 다중 문장 질문을 포함한다. 이 데이터셋의 단락은 뉴스, 소설, 역사적 텍스트, Wikipedia 기사, 사회와 법에 대한 논의, 초등학교 과학 교과서, 9/11 보고서 등 다양한 출처에서 가져왔다. 각 질문은 여러 개의 응답 선택지를 가지며, 그중 하나 이상이 정답이다. 질문에 답하려면 여러 문장에 걸친 추론이 필요하다. MultiRC 데이터셋은 800개 이상의 단락에서 수집된 약 6,000개의 다중 문장 질문을 포함하며, 각 질문은 평균적으로 5개의 응답 선택지 중 약 2개의 유효한 정답을 제공한다.

 


B. Datasets for Emergent: ICL, reasoning (CoT), instruction following

이 섹션은 LLM의 새로운 능력을 평가하기 위해 사용된 벤치마크와 데이터셋에 중점을 둔다.

 

GSM8K

GSM8K [190]은 모델의 다단계 수학적 추론 능력을 평가하도록 설계되었다. GSM8K는 인간이 작성한 8.5천 개의 다양한 언어적 특징을 가진 초등학교 수준의 수학 단어 문제를 포함하고 있다. 이 데이터셋은 훈련 세트 7.5천 개 문제와 테스트 세트 1천 개 문제로 나뉘어 있다. 이러한 문제는 해결하기 위해 2단계에서 8단계의 과정이 필요하다. 해결 방법은 주로 기본 산술 연산을 이용한 일련의 기초 계산으로 이루어진다.

 

MATH

MATH [191]은 모델이 수학 문제를 얼마나 잘 해결할 수 있는지를 평가할 수 있게 한다. MATH 데이터셋은 고등학교 수학 경시대회에서 나온 12,500개의 문제를 포함하고 있다. 데이터셋의 각 문제는 단계별 풀이와 박스로 둘러싸인 최종 답안을 제공한다. 문제는 다양한 주제를 다루며 서로 다른 난이도를 가지고 있다. 총 7개의 과목이 포함되어 있으며, 각 문제의 난이도는 AoPS 기준에 따라 '1'에서 '5'까지의 척도로 평가된다. '1'은 과목 내에서 가장 쉬운 문제를, '5'는 가장 어려운 문제를 나타낸다. 형식 면에서 모든 문제와 해답은 LATEX 및 Asymptote 벡터 그래픽 언어를 사용하여 작성되었다.

 

HellaSwag

HellaSwag [192]은 LLM의 상식적 추론 능력을 평가하기 위해 설계되었다. 이 벤치마크는 70,000개의 객관식 질문을 포함하고 있다. 각 질문은 ActivityNet 또는 WikiHow 중 하나의 도메인에서 가져온 것으로, 다음 상황에서 발생할 수 있는 일에 대해 네 가지 선택지를 제시한다. 정답은 다가오는 사건을 실제로 설명하는 문장을 제공하며, 나머지 세 개의 오답은 기계를 혼란스럽게 하기 위해 만들어졌다.

 

AI2 Reasoning Challenge (ARC)

AI2 Reasoning Challenge (ARC) [193]은 상식적 추론을 평가하기 위해 사용된다. 이 벤치마크는 7,787개의 과학 시험 문제를 포함하고 있다. 질문은 영어로 작성되었으며, 대부분 객관식 형식으로 구성되어 있다. 질문은 두 그룹으로 나뉘어 있는데, 2,590개의 어려운 문제로 구성된 챌린지 세트와 5,197개의 비교적 쉬운 문제로 구성된 이지 세트로 나뉜다. 각 세트는 훈련(Train), 개발(Development), 테스트(Test) 하위 집합으로 미리 분류되어 있다.

 

PIQA

PIQA [194]는 물리적 상식에 대한 언어 표현 능력을 평가하기 위해 설계되었다. 이 데이터셋은 일상적인 상황을 다루며, 특히 흔하지 않은 해결책을 선호한다. 주요 과제는 객관식 문제 풀이로, 질문(q)과 두 가지 가능한 해결책(s1, s2)이 제공된다. 이후, 모델 또는 인간이 가장 적합한 해결책을 선택한다. 각 질문마다 하나의 해결책만이 정답이다.

 

OpenBookQA (OBQA)

OpenBookQA (OBQA) [196]는 질문에 답하기 위해 책에 포함되지 않은 추가적인 상식과 일반 지식을 요구하며, 풍부한 텍스트 이해력을 필요로 하는 새로운 유형의 질문-응답 데이터셋이다. 이 데이터셋은 약 6,000개의 객관식 질문을 포함하고 있다. 각 질문은 하나의 핵심 사실과 6,000개 이상의 추가 사실 모음과 연결되어 있다. 질문은 다단계 크라우드소싱과 전문가 필터링 절차를 통해 개발되었다. OpenBookQA 질문은 배경 지식이 제한된 상태에서 다단계 추론이 필요하기 때문에 난이도가 높다.

 

TruthfulQA

TruthfulQA [197]는 언어 모델이 질문에 대한 답변을 생성할 때의 진실성을 평가하기 위해 특별히 설계되었다. 이 데이터셋은 건강, 법률, 금융, 정치 등 38개의 다양한 카테고리에서 작성된 817개의 질문을 포함하고 있다. 이러한 질문은 의도적으로 인간 응답자를 시험하기 위해 설계되었으며, 일반적인 오해를 포함해 잘못된 답변을 유도할 수 있다.

 

OPT-IML Bench

OPT-IML Bench [103]는 Instruction Meta-Learning을 위한 종합적인 벤치마크이다. 이 벤치마크는 8개의 기존 벤치마크에서 추출된 2,000개의 NLP 과제를 포함하고 있다. OPT-IML Bench는 1,790만 개의 예제로 구성된 훈련 세트, 14.5만 개의 샘플로 구성된 개발 세트, 그리고 32.1만 개의 샘플로 구성된 테스트 세트를 포함하고 있다.

 

 

C. Datasets for Augmented: using external knowledge/tools

이 섹션은 LLM의 확장된 능력을 위해 설계된 데이터셋에 중점을 둔다.

 

HotpotQA

HotpotQA [198]는 다양한 주제를 다루며 설명 가능한 질문-응답을 위해 설계된 데이터셋으로, 다단계 추론을 필요로 한다. 이 데이터셋은 영어 위키백과에서 가져온 약 113,000개의 질문으로 구성되어 있다. 데이터셋의 각 질문에는 두 개의 위키백과 기사에서 추출된 두 개의 "골드 문단"이 제공된다. 또한, 질문에 답하기 위해 중요하다고 크라우드워커들이 선택한 문장들의 목록도 포함되어 있다.

 

ToolQA

ToolQA [199]는 외부 도구를 활용하여 질문에 답하는 LLM의 능력을 평가하기 위한 질문-응답 벤치마크이다.

 

GPT4Tools

GPT4Tools는 고급 교사(예: ChatGPT)가 시각적 콘텐츠와 도구 설명에 기반한 지침을 생성하여 만든 교육용 데이터셋이다. 이 과정에서 도구 사용과 관련된 지침이 생성된다. 이 데이터셋은 세 가지 버전으로 구성된다. 첫 번째 버전은 GPT4Tools 모델을 미세 조정하기 위해 사용된 71,000개의 지침 준수 데이터 포인트로 구성된다. 두 번째 버전은 첫 번째 버전의 도구와 관련된 지침을 포함하며, 수작업으로 정리된 데이터로 검증에 사용된다. 마지막 버전은 첫 번째 버전에 없는 일부 도구와 관련된 지침을 포함하며, 테스트에 사용되는 정리된 데이터로 구성되어 있다.

 

 


 

VI. PROMINENT LLMS’ PERFORMANCE ON BENCHMARKS

이 섹션에서는 먼저 다양한 시나리오에서 LLM의 성능을 평가하는 데 사용되는 몇 가지 주요 지표를 개괄적으로 설명한다. 이후, 주요 대형 언어 모델들이 인기 있는 데이터셋과 벤치마크에서 보여주는 성능을 살펴본다.

 

A. Popular Metrics for Evaluating LLMs

생성형 언어 모델의 성능 평가는 사용될 과제의 본질에 따라 달라진다. 주어진 선택지 중 하나를 선택하는 과제(예: 감정 분석)는 단순히 분류로 간주될 수 있으며, 성능은 분류 지표를 사용하여 평가할 수 있다. 이 경우 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 점수와 같은 지표가 적용된다. 또한, 다중 선택 질문 응답과 같은 특정 과제를 위해 모델이 생성한 답변은 항상 참(True) 또는 거짓(False)으로 간주된다는 점도 중요하다. 답변이 제공된 선택지 세트에 포함되지 않은 경우, 이를 거짓(False)으로 간주할 수 있다.

그러나 순전히 열린 텍스트 생성과 같은 과제는 분류와 동일한 방식으로 평가할 수 없다. 평가 목적에 맞는 다른 지표가 필요하다. 코드 생성은 열린 텍스트 생성 평가에서 매우 다른 사례에 해당한다. 생성된 코드는 테스트 스위트를 통과해야 하지만, 동시에 모델이 서로 다른 솔루션을 코드로 생성할 수 있는 능력과 그 중 올바른 솔루션을 선택할 확률도 중요하다. 이러한 경우, Pass@k는 매우 유용한 지표이다. Pass@k는 문제를 주어진 상황에서 서로 다른 코드 솔루션을 생성한 후, 이를 다양한 기능 테스트를 통해 정확성을 검증하는 방식으로 작동한다. 이후, 생성된 nn개의 솔루션 중 정확한 솔루션의 개수 cc를 기반으로 방정식 4에 따라 최종 값을 계산한다.

 

Exact Match (EM)은 주로 (사전 정의된) 정답과의 정확한 일치를 평가하는 지표이다. 특정 예측이 하나 이상의 원하는 참조 텍스트와 토큰 단위로 정확히 일치할 경우 이를 정답으로 간주한다. 일부 경우에는 정확도(Accuracy)와 동일할 수 있다. 방정식 5는 EM의 수학적 정의를 나타낸다. 여기서 MM은 정답의 총 개수이며, NN은 질문의 총 개수를 의미한다 [202].

 

Human Equivalence Score (HEQ)는 F1 점수의 대안으로 제안된 지표이다 [203]. HEQ-Q는 개별 질문에 대한 정확도를 나타내며, 모델의 F1 점수가 평균 인간 F1 점수를 초과할 경우 답변이 올바른 것으로 간주된다. 이와 유사하게, HEQ-D는 각 대화의 정확도를 나타내며, 대화 내 모든 질문이 HEQ 기준을 충족할 때 해당 대화가 정확한 것으로 간주된다 [182].

 

기계 번역과 같은 다른 생성 과제의 평가는 Rouge 및 BLEU와 같은 지표를 기반으로 한다. 이러한 점수는 기준 텍스트(예: 번역)가 참값으로 제공되고, 생성 모델(이 경우 LLM)이 생성한 가설 텍스트와의 유사성을 계산 방식으로 감지하려는 경우에 적합하다. 여기서 계산 방식이란 N-Grams 이상의 요소를 사용하지 않는 것을 의미한다.

 

그러나 BERTScore와 같은 지표도 이러한 경우에 유용할 수 있지만, 또 다른 모델을 사용해 판단하기 때문에 오류가 많을 수 있다. 여전히 오늘날 완전히 생성된 콘텐츠를 평가하는 것은 매우 어렵고, 완벽히 적합한 지표는 발견되지 않았다. 현재의 지표들은 N-Gram, SkipGram과 같은 단순한 특징을 찾거나, 정확성과 정밀도가 알려지지 않은 모델 기반의 접근법을 사용하는 경향이 있다 [204].

 

생성 평가 지표는 또 다른 LLM을 사용하여 답변을 평가하는 LLM의 평가 지표 유형이다. 그러나 과제 자체에 따라 이러한 방식으로 평가가 가능할 수도 있고, 불가능할 수도 있다. 생성 평가가 오류를 일으키기 쉬운 또 다른 요인은 프롬프트 자체에 대한 의존성이다. RAGAS는 생성 평가의 사용을 통합한 좋은 예 중 하나이다.

 

대형 언어 모델 분야에서 가장 도전적인 질문인 "어느 모델이 더 나은가?"에 답하기 위해 다양한 벤치마크와 리더보드가 제안되었다. 그러나 이 질문에 단순한 답변으로는 충분하지 않다. 답은 대형 언어 모델의 다양한 측면에 따라 달라진다. 섹션 V에서는 다양한 과제와 각 카테고리에서 가장 중요한 데이터셋을 범주별로 제시하고 있다. 우리는 동일한 범주화를 따라 각 카테고리별로 비교를 제공할 것이다. 각 카테고리에 대한 비교를 제공한 후, 다양한 과제에서 보고된 성능 지표를 평균화하여 통합된 성능에 대한 폭넓은 개요를 제시할 것이다.

 

 

다양한 LLM을 평가하는 것은 여러 관점에서 이루어질 수 있다. 예를 들어, 파라미터 수가 현저히 적은 LLM은 파라미터 수가 많은 LLM과 완전히 비교할 수는 없다. 이러한 관점에서, LLM을 다음 네 가지 범주로 분류한다:

  • 소형(1억 개 이하의 파라미터),
  • 중형(1억에서 10억 사이),
  • 대형(10억에서 100억 사이),
  • 매우 대형(100억 이상).

또한, LLM의 주요 사용 사례에 따라 다른 분류를 적용한다. 각 LLM은 다음 세 가지 중 하나로 간주된다:

  • 기초 모델(사전 학습된 언어 모델로, 지시 또는 대화 미세 조정 없음),
  • 지시 모델(사전 학습된 언어 모델로, 지시 미세 조정만 있음),
  • 대화 모델(사전 학습된 언어 모델로, 지시 및 대화 미세 조정 포함).

위의 분류 외에도 원본 모델튜닝된 모델을 구분하는 또 다른 범주가 필요하다.

  • 원본 모델은 기초 모델로 공개되거나 미세 조정된 상태로 공개된 모델이다.
  • 튜닝된 모델은 원본 모델을 기반으로 추가 데이터셋이나 다양한 훈련 접근 방식을 통해 조정된 모델이다.

또한, 모델 가중치의 공개 여부도 분류에 포함된다. 가중치가 공개적으로 이용 가능(요청을 통해서라도)한 모델은 공개 모델로, 그렇지 않은 모델은 비공개 모델로 구분된다. 표 III은 이러한 정의와 약어를 설명하며, 그림 43은 이를 시각적으로 보여준다. 제공된 분류에 따르면, 각 주목할 만한 LLM을 표 IV와 같이 분류하고 레이블을 지정할 수 있다. 이 표에서 알 수 있듯이, 매우 대형으로 분류된 모델들은 대부분 이용 불가로 표시되어 있다.

 

B. LLMs’ Performance on Different Tasks

상식적 추론은 각 모델이 갖추어야 할 중요한 능력 중 하나이다. 이 능력은 모델이 사전 지식을 활용하여 추론 기술과 결합할 수 있는 능력을 의미한다. 예를 들어, HellaSwag의 경우, 텍스트의 연속 부분을 찾는 것은 어려운 과제이다. 이는 주어진 텍스트가 이야기의 일부만을 포함하고 있으며, 연속 부분으로 제시된 선택지가 까다롭기 때문이다. 세계에 대한 사전 지식이 없이는 이를 해결하기 어렵다.

 

 

이와 같은 특정 유형의 추론은 이전의 지식을 활용해 열린 텍스트로 묘사된 장면이나 사실을 이해하는 데 관련되므로 높은 주목을 받을 만하다. 표 V에서 볼 수 있듯이, 이용 불가(Unavailable) 모델뿐만 아니라 공개(Public) 모델도 다양한 테스트에서 우수한 결과를 달성할 수 있다.

 

 

표 V에 제시된 결과에 따르면, GPT-4HellaSwag에서 최고의 성과를 달성했으며, Davinci-003OBQA에서 가장 우수한 모델로 나타났다. 그러나 모든 모델에 대해 OBQA 결과가 보고된 것은 아니며, 따라서 Davinci-003OBQA에서 최고 성과를 달성한 모델이 아닐 가능성도 있다.

 

모든 모델이 모든 데이터셋에 대한 성능을 보고하지 않기 때문에, 서로 다른 표에서 보고된 성능을 가진 모델의 수는 달라진다.

 

세계 지식은 주로 일반적인 지식 질문과 관련이 있다. 예를 들어, Wikifact 데이터셋에서는 "특정 잘 알려진 책의 저자는 누구인가?"와 같은 질문이 포함되어 있으며, 참고 자료도 함께 제공된다. 표 VII는 이에 대한 결과를 보여준다.

 

 

특정 사용 사례 모델에서는 코딩 및 코드 생성 능력이 매우 요구된다. 표 VIII는 다양한 모델의 코딩 능력에 대한 결과를 보여준다.

산술 추론은 또 다른 도전적인 추론 능력 중 하나이다. 예를 들어, GSM8K는 초등학교 수준의 수학 문제와 그에 대한 답을 포함하고 있다. 표 IX는 다양한 모델 간의 비교에 대한 통찰을 제공한다.

 

대형 언어 모델은 경우에 따라 단순히 다음 토큰 예측 기계로 작동하기 때문에 답변을 환각(hallucination)하는 경향이 있다. 환각은 대형 언어 모델의 신뢰성과 신뢰도를 측정하는 데 있어 중요한 요소 중 하나이다. 그러나 환각을 측정하는 것은 각 사실이 다양한 방식으로 작성될 수 있고, 작은 문체 차이조차 감지를 어렵게 만들기 때문에 간단하지 않다.

어떤 특정 LLM이 텍스트에서 잘못된 정보의 환각을 더 잘 감지할 수 있다면, 해당 모델이 더 신뢰할 수 있다고 가정하는 것이 타당하다. HaluEval은 이 분야에서 환각을 측정하기 위해 설계된 데이터셋 중 하나이다 [205]. 평가는 또 다른 모델이 실제 답변에 대해 응답을 판단하는 방식으로도 수행될 수 있다 [206]. 표 X는 이러한 데이터셋을 기반으로 다양한 모델의 평가 결과를 보여준다.

 

 


VII. CHALLENGES AND FUTURE DIRECTIONS

앞서 살펴본 바와 같이, 대형 언어 모델은 지난 1~2년 동안 놀라운 성과를 이루어냈다. 동시에, 이 분야는 여전히 새로운 단계에 있으며, 혁신의 속도가 줄어들기보다는 오히려 증가하고 있는 매우 활발한 연구 영역이다. 그러나 다른 발전 중인 분야와 마찬가지로, 앞으로도 수많은 도전 과제가 남아 있다. 여기서는 현재까지 알려진 몇 가지 주요 도전 과제와 활발히 연구되고 있는 영역을 간략히 언급한다. 대형 언어 모델의 도전 과제에 대해서는 **Kaddour et al. [207]**의 연구에서 자세히 논의되고 있다는 점도 주목할 만하다.

A. Smaller and more efficient Language Models

이 설문 조사에서는 대형 언어 모델(LLM)에 대한 논의가 진행되었으며, "더 큰 모델이 더 낫다"는 초기 접근 방식이 GPT-4와 같은 점점 더 큰 모델들이 벤치마크에서 더 높은 정확도와 성능을 달성하며 정당화되었다. 그러나 이러한 대형 모델들은 여러 측면에서 비용이 많이 들고 비효율적이다(예: 높은 지연 시간). 이에 대응하여, 특정 과제에서 더 일반화된 대형 모델의 모든 능력을 요구하지 않을 때, 비용 효율적인 대안으로 **소형 언어 모델(SLM)**을 개발하려는 연구 트렌드가 형성되고 있다. 이 방향에서 주목할 만한 연구로는 MicrosoftPhi-1 [208], Phi-1.5 [209], Phi-2가 있다.

더 일반적으로, 더 작고 효율적인 모델을 훈련하는 방법에 대한 연구 노력이 계속될 것으로 예상된다. 파라미터 효율적 미세 조정(PEFT), 교사/학생 모델, 기타 형태의 **지식 증류(distillation)**와 같은 기법(섹션 III-I 참조)은 대형 모델에서 소형 모델을 구축하는 데 지속적으로 사용될 것이다.

 

B. New Post-attention Architectural Paradigms

트랜스포머 블록은 현재 대부분의 대형 언어 모델(LLM) 프레임워크에서 중요한 역할을 해왔으며, 이 아키텍처가 얼마나 더 지속적으로 사용될지, 그리고 딥러닝(NLP 포함) 분야에서 다음의 큰 아키텍처 혁신이 무엇일지가 중요한 질문으로 떠오르고 있다. 2012년 AlexNet 이후, LSTM, GRU, seq2seq와 같은 여러 아키텍처가 등장하고 사라졌으나, 트랜스포머는 등장 이후 현재까지 지배적인 접근법으로 자리 잡았다. 앞서 설명한 바와 같이, 어텐션(attention) 메커니즘이 트랜스포머를 구동하는 핵심 요소이다. 최근에는 포스트 어텐션(post-attention)이라 불리는 대안적 접근법에 대한 유망한 연구가 진행되고 있어, 트랜스포머 이후의 새로운 패러다임을 모색하고 있다.

포스트 어텐션 모델의 중요한 부류 중 하나는 상태 공간 모델(State Space Models, SSMs)이다. 상태 공간 모델의 개념은 머신러닝에서 오랜 역사를 가지고 있지만, 언어 모델의 맥락에서는 주로 새로운 구조적 상태 공간 모델 아키텍처인 S4(Structured State Space Model)를 지칭하는 데 사용된다(참조: Gu et al. [29]). 이 카테고리의 최근 모델로는 Mamba [30], Hyena [210], Striped Hyena [211]가 있다.

이러한 모델들은 리더보드에서의 성능과 효율성 측면에서 매우 경쟁력이 있을 뿐만 아니라, 전통적인 어텐션 기반 아키텍처에서 중요한 과제 중 하나인 더 큰 컨텍스트 윈도우 지원 부족 문제도 해결한다. 많은 프롬프트에 대해 적절한 답변을 제공하려면 컨텍스트가 필요하다. 예를 들어, "나에게 좋은 영화를 추천해줘"라는 질문에 답변하려면 "나"에 대한 정보, 이용 가능한 영화, 그리고 내가 보지 않은 영화에 대한 많은 컨텍스트가 요구된다. 컨텍스트 길이는 특히 RAG(Retrieval-Augmented Generation)에서 중요하다. RAG에서는 대량의 텍스트가 검색되어 생성 프롬프트에 삽입되기 때문에 컨텍스트를 처리할 수 있는 능력이 필수적이다(섹션 IV-C 참조).

컨텍스트 길이가 길수록 더 많은 토큰을 컨텍스트에 포함시킬 수 있다. 모델이 접근할 수 있는 정보가 많을수록 더 나은 응답을 생성할 가능성이 높아진다. 그러나 컨텍스트가 매우 길어지면 모델이 모든 정보를 기억하고 효율적으로 처리하는 데 어려움을 겪을 수 있다. 어텐션 기반 모델은 긴 컨텍스트를 처리하는 데 매우 비효율적이며, 이러한 이유로 더 긴 컨텍스트를 처리할 수 있는 메커니즘과 효율적인 아키텍처 개발에 대한 연구가 계속될 것으로 예상된다.

이를 감안할 때, 새로운 아키텍처는 단순히 어텐션 메커니즘의 대안을 제시하는 것뿐만 아니라 전체 트랜스포머 아키텍처를 재구성할 수도 있다. 이러한 초기 사례로 Monarch Mixer [212]가 있으며, 이 아키텍처는 GPU에서 높은 하드웨어 효율성을 달성하는 서브-쿼드래틱 프리미티브인 Monarch 행렬을 시퀀스 길이와 모델 차원 모두에 걸쳐 사용하는 새로운 구조를 제안한다.

스펙트럼의 다른 한편에서는 최근에 주목받고 있고 더 나은, 더 강력한 LLM을 만드는 데 가치를 입증한 몇 가지 어텐션 호환 아키텍처 메커니즘이 있다는 점을 언급할 가치가 있다. 아마 이러한 메커니즘 중 가장 좋은 예는 Mixture of Experts (MoE)일 것이다. MoE는 딥러닝 시대 이전 [213]부터 머신러닝에서 사용되어 왔으며, 그 이후 특히 트랜스포머 모델과 LLM의 맥락에서 인기를 얻고 있다. LLM에서 MoE는 매우 큰 모델을 훈련할 수 있게 해주며, 이 모델은 추론 시 일부 전문가가 꺼질 때만 부분적으로 인스턴스화된다. 이는 게이팅/가중 함수가 낮은 가중치를 할당받을 때 전문가들이 비활성화되기 때문이다. 예를 들어, GLaM 모델은 1.2조 개의 파라미터를 가지고 있지만, 추론 중에는 64명의 전문가 중 2명만 사용된다 [84].

MoE는 현재 "최첨단 LLM" (즉, 가장 진보되고 능력 있는 모델)의 중요한 구성 요소로 자리잡고 있다. GPT-4 자체가 MoE 아키텍처를 기반으로 하고 있다는 소문도 있으며, **Mixtral [117]**과 같은 일부 최고 성능을 자랑하는 LLM들은 기본적으로 기존 LLM의 MoE 버전이다.

마지막으로, MoE는 어텐션 기반 아키텍처 여부에 관계없이 어떤 아키텍처의 구성 요소로도 사용할 수 있다는 점을 주목할 필요가 있다. 사실, MoE는 Mamba와 같은 SSM 기반 LLM에도 적용되었다 [citepioro2024moemamba]. 앞으로도 기본 아키텍처와 관계없이 MoE 기반의 개선이 지속적으로 이루어질 것으로 예상된다.

 

C. Multi-modal Models

미래의 LLM은 다중 모달(multi-modal) 기능을 갖추고 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 통합적으로 처리할 것으로 예상된다. 이는 질문 응답, 콘텐츠 생성, 창의적인 예술, 헬스케어, 로보틱스 등 다양한 분야에서 더 많은 응용 가능성을 열어준다. 이미 LLAVA [214], LLAVA-Plus [215], GPT-4 [33], Qwen-vl [116], Next-GPT [216]와 같은 주요 다중 모달 LLM들이 존재하지만, 이 트렌드는 계속될 것으로 보인다. 이러한 모델들의 평가 또한 새로운 연구 주제로 떠오르고 있으며, 특히 대화형 생성 비전 모델에 대한 연구가 활발히 진행되고 있다 [217]. 다중 모달 LLM은 다양한 과제에서 엄청난 잠재력을 열 수 있으며, 이미 이 방향으로 괄목할 만한 진전을 이루었고, 이 모든 세부 사항을 논의하기 위해 전용 논문이 필요할 정도이다.

 

D. Improved LLM Usage and Augmentation techniques

우리가 섹션 IV에서 설명한 바와 같이, LLM의 여러 단점과 한계(예: 환각)는 고급 프롬프트 엔지니어링, 도구 사용, 또는 다른 보강 기법을 통해 해결할 수 있다. 이 분야에서 연구는 계속될 뿐만 아니라 가속화될 것으로 예상된다. 특히 소프트웨어 공학의 경우, 일부 연구([218])에서는 이 문제를 소프트웨어 공학 워크플로우 전체에서 자동으로 제거하려는 시도가 있었다는 점을 언급할 가치가 있다.

LLM 기반 시스템은 이미 최근까지 다른 접근 방식을 사용하던 머신러닝 시스템을 대체하기 시작했다. 이의 명확한 예로, LLM은 현재 사람들의 선호와 관심을 더 잘 이해하고, 고객 서비스, 콘텐츠 추천, 또는 다른 응용 프로그램에서 더 개인화된 상호작용을 제공하는 데 사용되고 있다. 이는 사용자 선호를 더 잘 이해하고, 그들의 과거 상호작용을 분석하여 이를 컨텍스트로 사용하는 것을 포함한다. LLM을 활용한 개인화 및 추천뿐만 아니라 다른 머신러닝 기법을 사용하는 다양한 응용 분야에서 연구가 계속될 것이다.

마지막으로, 더 많은 주목을 받을 것으로 예상되는 또 다른 중요한 연구 분야는 LLM 기반 에이전트다중 에이전트 시스템 [172], [173], [174]이다. 외부 도구와 의사결정 기능에 접근할 수 있는 LLM 시스템의 개발은 흥미롭고 도전적인 과제이다. 이 중요한 분야에서의 연구와 발전은 계속될 것이며, 일부는 이러한 발전이 인공지능 일반(AGI)으로 이어질 수 있다고 주장하고 있다.

 

E. Security and Ethical/Responsible AI

LLM의 강건성보안을 보장하는 것은 중요한 연구 분야이다 [219]. LLM이 실제 응용 프로그램에 점점 더 많이 배치됨에 따라, 사람들을 조작하거나 잘못된 정보를 퍼뜨리는 데 사용되지 않도록 잠재적인 위협으로부터 보호되어야 한다.

또한, LLM에서의 윤리적 문제편향을 해결하는 것도 활발히 연구되고 있는 분야이다. LLM이 공정하고, 편향되지 않으며, 민감한 정보를 책임감 있게 처리할 수 있도록 보장하려는 노력이 진행되고 있다. LLM이 많은 사람들이 매일 사용하는 도구가 되면서, 이들이 편향되지 않고 책임감 있게 행동하도록 보장하는 것이 중요하다.

 


VIII. CONCLUSION

이 논문은 최근 몇 년 동안 개발된 LLM에 대한 설문을 제공한다. 먼저 초기 사전 학습된 언어 모델들(예: BERT)을 개요하고, 그 후 세 가지 주요 LLM 계열(GPT, LLaMA, PaLM)과 기타 대표적인 LLM을 리뷰한다. 이어서 LLM을 구축하고 증강하며 사용하는 방법과 기법을 살펴본다. 인기 있는 LLM 데이터셋과 벤치마크를 리뷰하고, 공개된 벤치마크에서 주목할 만한 모델들의 성능을 비교한다. 마지막으로, 남아 있는 문제들과 미래의 연구 방향을 제시한다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.