바로가기메뉴

본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30
 

logo

잠재프로파일 분석에서 결측값 처리를 위한 최근접이웃 대체법의 활용

Using k-Nearest Neighbor Imputation as a Method to Handle Missing Values in Latent Profile Analysis

한국심리학회지: 건강 / The Korean Journal of Health Psychology, (P)1229-070X; (E)2713-9581
2022, v.27 no.3, pp.513-532
https://doi.org/10.17315/kjhp.2022.27.3.005
김수민 (부산대학교)
조승빈 (부산대학교)

초록

잠재프로파일분석(latent profile analysis: LPA)은 모집단에 존재하는 비슷한 특성을 공유하는 개인들로 구성된 하위집단을 확인하기 위해 심리학의 여러 분야에서 흔히 사용되는 모형이다. 결측값이 존재하는 자료에 잠재프로파일분석을 적용하기 위해 가장 권장되는 방법은 완전정보최대우도법(full information maximum likelihood: FIML)이다. 본 연구에서는 비교적 간단한 알고리즘으로 이루어진 k-최근접이웃(k-nearest neighbor: kNN) 대체법을 LPA에서 결측값을 처리하기 위한 효율적인 대안으로 제안하고 시뮬레이션 자료를 통해 kNN 대체법의 활용 가능성을 검증하였다. 결측값 생성 메커니즘, 결측률, 하위집단 간 거리, 표본 크기를 변화시켜 자료를 생성하고 생성된 자료에 kNN 대체법 적용하고 LPA를 수행한 결과와 FIML을 통한 결과를 추정한 하위집단 수, 하위집단 평균 프로파일의 정확도, 분류의 품질을 기준으로 비교하였다. 분석 결과, 하위집단 수의 추정은 대부분의 조건에서 kNN 대체법이 FIML과 비슷한 정확도를 보였으며 하위집단 간 거리가 가깝고 표본크기가 작은 조건에서는 더 우수한 결과를 보였다. 하위집단 프로파일의 정확도는 두 방법 간에 일관성 있는 차이를 발견할 수 없었다. 분류의 품질은 거의 모든 조건에서 kNN 대체법을 적용한 결과가 완전자료에서 얻어진 결과에 가까웠다. 본 연구는 LPA를 위한 kNN 대체법의 활용 가능성을 확인한 최초의 연구로서 의의를 가진다. 본 연구의 결과를 통해 FIML을 통한 분석이 어려운 조건에서 결측값 처리를 위한 대안으로서 kNN 대체법의 활용 뿐만 아니라 kNN 대체법과 FIML의 결과를 비교함으로써 LPA 결과의 신뢰도를 확인하는 방식으로 사용할 것을 제안한다.

keywords
latent profile analysis, k-nearest neighbor imputation, missing values, simulation, 잠재프로파일분석, k-최근접이웃대체법, 결측값, 시뮬레이션

Abstract

Latent profile analysis (LPA) is a method commonly used in psychology to identify subgroups of individuals who share common characteristics. To apply LPA on data with missing values, full information maximum likelihood (FIML) and multiple imputation (MI) are commonly recommended. In this study, we propose k-nearest neighbor (kNN) imputation, as an efficient alternative to handle missing data in LPA and examined its potential using simulated datasets. Datasets were generated with varying conditions: missing value generation mechanisms, missing rates, distances between subgroups, and sample sizes. Complete data were generated by kNN imputation from the simulated datasets and were used in LPA. Results were compared to the results from FIML in terms of the number of estimated subgroups, the accuracy of mean profiles, and the quality of classification. The accuracy of the number of subgroups from kNN imputation was comparable to the results from FIML in most conditions, and kNN imputation performed better in some conditions Neither method consistently performed better in terms of the accuracy of mean profiles. The quality of classification from kNN imputation was better in all conditions, and was closer to the results from complete data analyses. From the results, we suggest kNN imputation as an alternative to FIML to handle missing data in LPA, especially in conditions wherein FIML often fails. We also suggest using kNN imputation as well as FIML to compare results to check the stability of parameter estimates.

keywords
latent profile analysis, k-nearest neighbor imputation, missing values, simulation, 잠재프로파일분석, k-최근접이웃대체법, 결측값, 시뮬레이션

한국심리학회지: 건강