A Proposal of Evaluation of Large Language Models Built Based on Research Data

Han Na-eun; 한나은; Seo Sujeong; 서수정; Um Jung-ho; 엄정호

doi:10.3743/KOSIM.2023.40.3.077

ACOMS+ 및 학술지 리포지터리 설명회

한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
2024년 07월 03일(수) 13:30

사전등록 바로가기

오늘 하루 그만보기

P-ISSN1013-0799
E-ISSN2586-2073
KCI

홈으로

OA 정책

ISSN : 1013-0799

논문 상세

이전 다음

논문 투고

Vol.40 No.3

Citation Share

연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언

A Proposal of Evaluation of Large Language Models Built Based on Research Data

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073

2023, v.40 no.3, pp.77-98

https://doi.org/10.3743/KOSIM.2023.40.3.077

한나은 (한국과학기술정보연구원)
서수정 (한국과학기술정보연구원)
엄정호 (한국과학기술정보연구원)

한나은, 서수정, & 엄정호. (2023). 연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언. 정보관리학회지, 40(3), 77-98, https://doi.org/10.3743/KOSIM.2023.40.3.077

복사

초록

본 연구는 지금까지 제안된 거대언어모델 가운데 LLaMA 및 LLaMA 기반 모델과 같이 연구데이터를 주요 사전학습데이터로 활용한 모델의 데이터 품질에 중점을 두어 현재의 평가 기준을 분석하고 연구데이터의 관점에서 품질 평가 기준을 제안하였다. 이를 위해 데이터 품질 평가 요인 중 유효성, 기능성, 신뢰성을 중심으로 품질 평가를 논의하였으며, 거대언어모델의 특성 및 한계점을 이해하기 위해 LLaMA, Alpaca, Vicuna, ChatGPT 모델을 비교하였다. 현재 광범위하게 활용되는 거대언어모델의 평가 기준을 분석하기 위해 Holistic Evaluation for Language Models를 중심으로 평가 기준을 살펴본 후 한계점을 논의하였다. 이를 바탕으로 본 연구는 연구데이터를 주요 사전학습데이터로 활용한 거대언어모델을 대상으로 한 품질 평가 기준을 제시하고 추후 개발 방향을 논의하였으며, 이는 거대언어모델의 발전 방향을 위한 지식 기반을 제공하는데 의의를 갖는다.

keywords: 거대언어모델, 품질평가, 연구데이터, 데이터품질관리, 품질평가기준

Abstract

Large Language Models (LLMs) are becoming the major trend in the natural language processing field. These models were built based on research data, but information such as types, limitations, and risks of using research data are unknown. This research would present how to analyze and evaluate the LLMs that were built with research data: LLaMA or LLaMA base models such as Alpaca of Stanford, Vicuna of the large model systems organization, and ChatGPT from OpenAI from the perspective of research data. This quality evaluation focuses on the validity, functionality, and reliability of Data Quality Management (DQM). Furthermore, we adopted the Holistic Evaluation of Language Models (HELM) to understand its evaluation criteria and then discussed its limitations. This study presents quality evaluation criteria for LLMs using research data and future development directions.

keywords: Large Language Model (LLM), Quality Evaluation for LLM, Research Data Quality Management (DQM), evaluation criteria for LLM

투고일Submission Date: 2023-08-16

수정일Revised Date: 2023-09-04

게재확정일Accepted Date: 2023-09-18

바로가기메뉴

논문 상세

Vol.40 No.3

연구데이터 관점에서 본 거대언어모델 품질 평가 기준 제언

A Proposal of Evaluation of Large Language Models Built Based on Research Data

초록

Abstract

정보관리학회지