2024. 10. 7. 16:41ㆍPaper Review/Large Language Model (LLM)
Chanjun Park, Hyeonwoo Kim, Dahyun Kim, SeongHwan Cho, Sanghoon Kim, Sukyung Lee, Yungi Kim, and Hwalsuk Lee. 2024. Open Ko-LLM Leaderboard: Evaluating Large Language Models in Korean with Ko-H5 Benchmark. In Proceedings of the 62nd Annual Meeting of the Association for Computational Liguistics (Volume 1: Long Papers), pages 3220-3234, Bangkok, Thailand. Association for Computational Linguistics (ACL).
https://aclanthology.org/2024.acl-long.177/
Open Ko-LLM Leaderboard: Evaluating Large Language Models in Korean with Ko-H5 Benchmark
Chanjun Park, Hyeonwoo Kim, Dahyun Kim, SeongHwan Cho, Sanghoon Kim, Sukyung Lee, Yungi Kim, Hwalsuk Lee. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.
aclanthology.org
한국어 LLM 모델 개발에 앞서, '내가 만약 모델을 만들었다면, 내 모델의 quality 어떻게 평가할 수 있을까?' 하면서 읽게 된 논문입니다. Upstage에서 한국어 Open Ko-LLM Leaderboard를 열었다는 것을 알고 있었는데, 이런 방식의 평가 기준이 있는지 이 논문을 통해 알게되었습니다.
Abstract
Open Ko-LLM Leaderboard (https://huggingface.co/spaces/upstage/open-ko-llm-leaderboard)와 Ko-H5 Benchmark를 소개하는 논문.
1 Introduction
LLM의 개발은 LLM 모델에 대한 강건한 평가 방법의 필요성으로 이어짐. 여러 LLM benchmark가 소개되었지만, 대부분 영어에 국한됨. 영어 중심의 LLM benchmark를 한국어와 같은 다른 언어로 확장하기 위해 본 논문에서는 "Open Ko-LLM Leaderboard"와 "Ko-H5 Benchmark"를 소개함. Open Ko-LLM Leaderboard는 아래 두 가지 원칙을 따름. 1) alignment with the English Open LLM Leaderboard 2) private test sets. 영어 leaderboard와 직접적 비교를 통해 한국어 leaderboard가 얼마나 잘 구축되었는지 평가할 수 있음. 또한, private test set을 구축함으로써 data에 대한 오염을 방지함. 본 논문의 주 contribution은 아래와 같음.
- 한국어 LLM의 대한 강건한 평가를 위한 "Open Ko-LLM Leaderboard 및 Ko-H5 Benchmark" 소개
- Private test set을 통한 투명한 평가
- 모델 사이즈, 타입, 각 task에 따른 복합적인 평가 제공
- Benchmark 확장
2 Related Work and Background
2.1 LLM Leaderboard
LLM 모델의 개발은 다양한 관점에서 LLM 평가를 더욱 중요하게 함. LLM의 성능을 평가하기 위한 다양한 benchmark가 개발됨. 그 중 가장 유명한 leaderboard는 Hugging Face에서 운영하는 Open LLM Leaderboard임. 다양한 회사 혹은 연구 기관에서 발표한 LLM에 대한 benchmark를 제공함. 해당 benchmark는 모델을 6가지 task에 대해서 평가함.
① AI2 Reasoning Challenge (ARC) - 과학적 질문
② HellaSwag - commonsense inference 일반 상식 유추
③ Massive Multitask Language Understanding (MMLU) - 언어 이해 능력
④ TruthfulQA - 신뢰도
⑤ Winogrande - commonsense reasonig 일반 상식 추론
⑥ GSM8k - 수학적 문제
이 외에도 AlpacaEval Leaderboard, HELM Leaderboard, Hallucination Leaderboard 등이 있음. AlpacaEval Leaderboard의 경우, 모델이 다양한 언어 task에서 얼마나 지시를 잘 따르는지를 평가함. HELM의 경우, 다양한 시나리오에서 LLM이 어떻게 작동하는지를 평가함. Hallucination Leaderboard는 TruthfulQA나 HaluEvals를 활용해 LLM 답변의 hallucination (거짓 정보)을 집중적으로 평가함. 추가적으로 모델의 code 생성 능력을 평가하는 Big Code Models Leaderboard, 음성 인식률을 평가하는 Open ASR Leaderboard 등이 있음.
2.2 Korean LLM Leaderboard
대부분의 benchmark와 leaderboard는 보통 영어 중심으로 개발됨. 그렇다보니 다른 언어적 특성을 가진 언어에서는 올바른 평가가 이루어지지 않음. 따라서, Open Ko-LLM Leaderboard는 한국어 LLM을 다각도로 평가하기 위한 첫번째 시도임.
3 Ko-H5 and Open Ko-LLM Leaderboard
3.1 Motivation
보통 benchmark들이 영어 중심으로 개발되었기 때문에 영어 외 다른 언어에서는 개발이 상당히 뒤쳐진 상황. 하지만, benchmark를 만드는 것은 해당 언어에 대한 깊은 이해를 동반해야 하기 때문에 쉽지 않음. 한국어 benchmark를 만들기 위해 위해서 언급했던 두 가지 원칙을 지킴 (alignment with the English Open LLM Leaderboard, private test sets).
3.2 Ko-H5
Curation process. Ko-H5는 여러개의 dataset으로 구성됨. Open LLM Leaderboaed에서 활용하는 6개의 데이터셋 중 위 4개를 활용함. 번역 리뷰 작업을 위해 35명의 전문가를 고용하였으며, ①, ③, ④ 데이터셋에 대하여 80,000 USD (한화로 약 1억원) 사용. ② 데이터셋은 많은 양의 데이터로 인해 과도한 요금이 발생할 것으로 예상되어 별도의 번역 리뷰 과정을 진행하지 않음. 과정은 Figure 1 참조.
Korean CommonGen v2는 이전의 4개의 데이터셋과 다르게 처음부터 제작한 데이터셋. 일반 상식을 생성하는 task에 특화된 데이터셋. 해당 데이터셋을 통해서 영어와는 다르게 다양한 한국어 benchmark 구성이 가능함.
- Ko-H5 Datasets 구성
[Ko-H5 Datasets]
① AI2 Reasoning Challenge (ARC) - 과학적 질문
② HellaSwag - commonsense inference 일반 상식 유추
③ Massive Multitask Language Understanding (MMLU) - 언어 이해 능력
④ TruthfulQA - 신뢰도
⑤ Winogrande - commonsense reasonig 일반 상식 추론
⑥ GSM8k - 수학적 문제
⑤ Korean commonGen v2 - 일반 상식 생성
Dataset sizes.
Ko-ARC, Ko-TruthfulQA, Ko-CommonGen v2와 같이 비교적 도메인 특화된 지식이 포함된 데이터셋인 경우, 데이터셋의 크기보다는 질이 중요하기 때문에 적은 규모로 구축됨.
4 Empirical Analysis
4.1 Private Test Set Overlap with Popular Training Datasets
Benchmark 데이터셋을 private하게 관리함으로써 data 누수 (▼궁금하다면 아래글 참조)를 최소로하면서 동시에 LLM의 공정한 평가를 가능하게 함. 중복 데이터는 제거함. Table 2에 따르면, 중복이 가장 많았던 데이터셋도 1% 미만임. 따라서, Ko-H5의 데이터 누수는 거의 없다고 할 수 있음.
Q. Data leakage (데이터 누수)?
A. 데이터 누수를 google에 검색하면 굉장히 어려운 말들로 설명하고 있지만, 결국 내 모델이 cheating을 했는지, 안했는지에 대한 확인이라고 할 수 있다. 즉, 내 모델은 한 번도 학습해보지 못한 test 데이터셋에서 좋은 성능을 내야 좋은 모델이라고 할 수 있는데, 이때 사용한 test 셋이 알고보니 미리 학습한 데이터셋이었다면 우리는 이것을 "데이터 누수가 생겼다!" 즉, 모델이 먼저 알고있었다. 이렇게 본다는 의미이다. 따라서, 모델을 학습할 때, 사전에 데이터셋을 잘 분리해두는 것이 중요하다.
4.2 Correlation Within the Ko-H5 Benchmark
Ko-H5 benchmark에 대한 상관관계를 알아봄. 본 논문에서 새롭게 구축한 데이터셋이 Ko-CommonGen v2이기 때문에 해당 데이터셋을 위주로 알아봄. 결과, Ko-ARC, Ko-HellaSwag, Ko-MMLU간 상관관계는 높게 나타났으나, Ko-TruthfulQA와 앞서 언급된 데이터셋간 상관관계는 낮았음. Ko-CommonGen v2의 경우, 앞서 언급된 3개의 데이터셋간 중간 정도의 상관 정도를 보였으나, Ko-TruthfulQA와는 낮은 상관관계를 보임. 즉, Ko-CommonGen v2은 이전에 구축된 데이터셋들과 구별되는 새로운 데이터셋임을 의미함. 또 한가지 재밌는 사실은 모델의 사이즈에 따라 이 상관관계가 달라지는 것임. 모델이 작을 때 (0~30억 매개변수/3B)는 Ko-TruthfulQA, Ko-CommonGen v2와 Ko-ARC, Ko-HellaSwag, Ko-MMLU와의 음의 상관관계를 보임. 즉, 특정 task에 대해서는 모델이 잘 학습하지 못하는 것을 의미함. 반면, 모델이 크기가 커지면 (30억/3B ~ 140억/14B 매개변수) 두 집단의 데이터셋에 대해 양의 상관관계를 보이는데, 이는 모델이 커질수록 여러 task에 골고루 성능을 보이는 것을 의미함.
4.3 Temporal Analysis of the Ko-H5 Benchmark
By model size. 0~3B / 3B ~ 7B / 7B ~ 14B의 모델별 사이즈에 따른 성능을 비교한 결과, 작은 모델의 경우 성능 향상이 이뤄지지 않음.
By model type. Leaderboard에 올라와 있는 모델을 세개로 분류함. Pretrained / Instruction-tuned / RL-tuned. 사전 학습 모델 (pretrained)의 성능이 좋을 경우, instruction-tuned 모델의 성능도 올라감.
By task socre. 일반 상식에 대한 task가 더 높은 점수를 보임. 기본적인 추론 능력이나 유추 능력에 비해 일반적인 상식이 더 쉽게 학습됨을 의미함.
5 Discussion
5.1 When to Expand Beyond the Benchmarks
Ko-H5 benchmark와 Open Ko-LLM Leaderboard는 한국어 LLM 개발에 있어서 중요한 역할을 함. 하지만, 보다 다양한 benchmark 개발이 필요함. 시간이 지남에 따라 결국 모든 모델들이 해당 benchmark에서 우수한 성능을 보이기 때문에 차이가 거의 사라짐.
5.2 Call for Community Effort in Leaderboard Improvement
Open Ko-LLM Leaderboard가 보다 효율적으로 운용되기 위해서는 몇 가지 사항이 준수되어야 함. Table 4에 주요 문제점들이 나타나있음.
5.3 Evolving Benchmark Landscape
해당 논문의 Ko-H5 benmark 2024년 2월까지의 내용을 정리한 것. Benchmark dataset의 계속해서 update되고 있음 (Ko-GSM8K, Ko-Winogrande, Ko-EQ Bench, Ko-GPQA)
중간 중간 빠진 Section이 있다면 이전 Section과 중복되는 내용이 많아 굳이 언급하지 않은 부분입니다.
사실 논문을 읽기 전에는 가장 성능이 좋았던 LLM과 그 학습 방식 혹은 특징에 대해서도 알 수 있으려나하는 기대가 있었는데
Leaderboard 결과 보다는 Leaderboard의 모델을 평가하는 Benchmark 소개에 집중한 논문이었습니다.
General한 domain에 대해서는 이런 일반적인 dataset으로 평가가 가능하지만,
만약 내 domain에 특화된 모델을 구웠다면 그땐 어떤 지표를 통해 모델을 다각도로 평가할 수 있을지 궁금해지네요.
