
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


텍스트 마이닝을 활용한 국외 데이터 큐레이션 연구 동향 분석

Analysis of Research Trends in Data Curation Using Text Mining Techniques

정보관리학회지 / Journal of the Korean Society for Information Management, (P)1013-0799; (E)2586-2073
2024, v.41 no.3, pp.85-107
최재은 (이화여자대학교 문헌정보학과 박사과정)


본 연구의 목적은 국외 데이터 큐레이션 연구 동향을 분석하는 것이다. 이를 위해 Scopus와 WoS에서 1,849건의 학술 정보를 추출하였으며 중복 제거 등을 통해 최종 1,797건의 논문, 학술대회 발표자료 등의 표제, 키워드, 초록을 분석 대상으로 하였다. 전처리를 거친 키워드를 빈도분석 하였으며, LDA 토픽 모델링 분석을 통해 주요 주제를 도출하고 토픽의 키워드를 대상으로 네트워크 분석을 통해 중심성을 도출하였다. 키워드 빈도 분석 결과, ‘research’, ‘information’ 등이 자주 등장했으며, 이는 데이터 큐레이션이 의학 연구, 생의학 연구 및 연구데이터 관리, 연구 인프라 등 다양한 측면에서 이루어지고 있음을 보여준다. LDA 토픽 모델링을 통해서는 ‘임상 의료 데이터의 품질 제고와 분석’, ‘빅데이터 관리와 처리 시스템의 효율성 향상’, ‘과학 데이터의 관리와 디지털 리포지터리’, ‘의료 및 생물학적 데이터의 주석과 모델링’, ‘유전자 및 단백질 데이터베이스 연구’ 5가지 토픽을 도출하였다. 키워드 네트워크 분석 결과, ‘analysis’는 전역 중심성에서 높은 수치를 나타내 데이터 활용 측면에서 분석 방법이나 분석 시스템 등으로 폭넓게 논의되고 있음을 알 수 있었고, 지역 중심성에서는 ‘research’, ‘gene’, ‘system’ 등이 상위에 위치한 것으로 나타났다.

data curation, research trends, topic modeling, LDA, network analysis


This study analyzes trends in data curation research. A total of 1,849 scholarly records were extracted from Scopus and WoS, with 1,797 papers selected after removing duplicates. Titles, keywords, and abstracts were analyzed through keyword frequency analysis, LDA topic modeling, and network analysis. Frequent keywords like ‘research’ and ‘information’ suggest that data curation is widely applied in medical research, biomedical research, data management, and infrastructure. LDA modeling identified five main topics: improving medical data quality, enhancing big data management, managing scientific data and repositories, annotating and modeling medical data, and gene/protein database research. Network analysis showed that ‘analysis’ was central in global discussions, while ‘gene’ and ‘system’ were locally central. These findings highlight the importance of data curation in various research areas.

데이터 큐레이션, 연구동향, 토픽 모델링, LDA, 네트워크분석
투고일Submission Date
수정일Revised Date
게재확정일Accepted Date
