바로가기메뉴

본문 바로가기 주메뉴 바로가기

logo

국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 -

Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP

한국도서관·정보학회지 / Journal of Korean Library and Information Science Society, (P)2466-2542;
2017, v.48 no.4, pp.235-258
https://doi.org/10.16981/kliss.48.4.201712.235
박준형 (전북대학교)
오효정 (전북대학교)
  • 다운로드 수
  • 조회수

초록

본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.

keywords
기록관리학, 연구동향, 토픽모델링, LDA, HDP, Archives Management, Research Trends, Topic Modeling, LDA, HDP

Abstract

The purpose of this study is to analyze research trends of archives management in Korea by comparing LDA (Latent Semantic Allocation) topic modeling, which is the most famous method in text mining, and HDP (Hierarchical Dirichlet Process) topic modeling, which is developed LDA topic modeling. Firstly we collected 1,027 articles related to archives management from 1997 to 2016 in two journals related with archives management and four journals related with library and information science in Korea and performed several preprocessing steps. And then we conducted LDA and HDP topic modelings. For a more in-depth comparison analysis, we utilized LDAvis as a topic modeling visualization tool. At the results, LDA topic modeling was influenced by frequently keywords in all topics, whereas, HDP topic modeling showed specific keywords to easily identify the characteristics of each topic.

keywords
기록관리학, 연구동향, 토픽모델링, LDA, HDP, Archives Management, Research Trends, Topic Modeling, LDA, HDP

참고문헌

1.

김규환, 장보성, 이현정. 2009. 우리나라 기록관리학 분야의 연구영역 분석 - 논문제목의 구문 및 의미 구조를 중심으로. 한국문헌정보학회지 , 43(3): 417-439.

2.

김규환, 남영준. 2009. 국내 기록관리학 분야 학회지 논문 분석을 통한 연구동향 연구. 한국문헌정보학회지 , 43(4): 217-239.

3.

김남규, 이동훈, 최호창, William Xiu Shun Wong. 2017. 텍스트 분석 기술 및 활용 동향. 한국통신학회논문지 , 42(2): 471-492.

4.

김상겸. 2016. 토픽모델링을 이용한 국내 산업공학 연구동향 분석 . 석사학위논문, 서울과학기술대학교 일반대학원 데이터사이언스학과.

5.

김태경, 최회련, 이홍철. 2016. 토픽 모델링을 이용한 핀테크 기술 동향 분석. 한국산학기술학회논문지 , 17(11): 670-681.

6.

나상태, 안주언, 정민호, 김자희. 2017. 동적 토픽분석을 활용한 스마트그리드 연구동향 분석. 전기학회논문지 , 66(4): 613-620.

7.

남태우, 이진영. 2009. 우리나라 기록관리학 연구 동향 분석. 한국도서관·정보학회지 , 40(2):451-472.

8.

남춘호. 2016. 일기자료 연구에서 토픽모델링 기법의 활용가능성 검토. 비교문화연구 , 22(1):89-135.

9.

박주섭, 홍순구, 김종원. 2017. 토픽모델링을 활용한 과학기술동향 및 예측에 관한 연구. 한국산업정보학회논문지 , 22(4): 19-28.

10.

박자현, 송민. 2013. 토픽모델링을 활용한 국내 문헌정보학 연구동향 분석. 정보관리학회지 , 30(1): 7-32.

11.

서성훈. 2016. BM 특허 토픽 모델링을 이용한 핀테크 기술동향 분석 . 석사학위논문, 서울과학기술대학교 일반대학원 데이터사이언스학과.

12.

손혜인, 남영준. 2016. 기록관리학 분야 국내 학술지의 연구동향에 관한 연구 - 한국기록관리학회지 와 기록학연구 를 중심으로. 정보관리학회지 , 33(1): 85-110.

13.

신규식, 최회련, 이홍철. 2015. 신재생에너지 동향 파악을 위한 토픽 모형 분석. 한국산학기술학회논문지 , 16(9): 6411-6418.

14.

유소영. 2015. 자아 중심 네트워크 분석과 동적 인용 네트워크를 활용한 토픽모델링 기반 연구동향 분석에 관한 연구. 정보관리학회지 , 32(1): 153-169.

15.

이재윤, 문주영, 김희정. 2007. 텍스트 마이닝을 이용한 국내 기록관리학 분야 지적구조 분석. 한국문헌정보학회지 , 41(1): 345-372.

16.

진설아, 송민. 2016. 토픽 모델링 기반 정보학 분야 학술지의 학제성 측정 연구. 정보관리학회지 , 33(1): 7-32.

17.

최이랑. 2015. 국내 기록관리학 연구동향에 관한 연구 - 최근 10년간(2004-2013) 학술논문을 중심으로. 기록학연구 , 43: 147-177.

18.

한국기록관리학회. 2013. 기록관리론 : 증거와 기억의 과학 . 성남: 아세아문화사.

19.

Carson Sievert and Kenneth E. Shirley. 2014. LDAvis: A method for visualizing and interpreting topics. proceedings of workshop on interactive language learning, visualization, and interfaces, Baltimore, Maryland.

20.

Chong Wang, John Paisley and David M. Blei. 2011. Online Variational Inference for the Hierarchical Dirichlet Process. Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, FL.

21.

David M. Blei. 2012. Provavilistic Topic Models. Communications of the ACM, 55(4):77-84.

22.

David M. Blei, Andrew Y. Ng and Michael I. Jordan. 2003. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3: 993-1022.

23.

Gensim Home Page. <https://radimrehurek.com/gensim/> [cited 2017. 9. 15].

24.

Jason Chuang, Christopher D. Manning and Jeffrey Heer. 2012. Termite: Visualization Techniques for Assessing Textual Topic Models. Advanced Visual Interfaces, 12: 21-25.

25.

Konlpy Home Page. <http://konlpy-ko.readthedocs.io/ko/v0.4.3/> [cited 2017. 9. 15].

26.

Loet Leydesdorff and and Adina Nerghes. 2017. Co-word Maps and Topic Modeling:A Comparison Using Small and Medium-Sized Corpora (N<1,000). Journal of the Association for Information Science and Technology, 68(4): 1024-1035.

27.

Teh, Yee Whye, Michael I. Jordan, Matthew J. Beal and David M. Blei. 2007. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101(476): 1566-1581.

한국도서관·정보학회지