바로가기메뉴

본문 바로가기 주메뉴 바로가기

Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP

Journal of Korean Library and Information Science Society / Journal of Korean Library and Information Science Society, (P)2466-2542;
2017, v.48 no.4, pp.235-258
https://doi.org/10.16981/kliss.48.4.201712.235


  • Downloaded
  • Viewed

Abstract

The purpose of this study is to analyze research trends of archives management in Korea by comparing LDA (Latent Semantic Allocation) topic modeling, which is the most famous method in text mining, and HDP (Hierarchical Dirichlet Process) topic modeling, which is developed LDA topic modeling. Firstly we collected 1,027 articles related to archives management from 1997 to 2016 in two journals related with archives management and four journals related with library and information science in Korea and performed several preprocessing steps. And then we conducted LDA and HDP topic modelings. For a more in-depth comparison analysis, we utilized LDAvis as a topic modeling visualization tool. At the results, LDA topic modeling was influenced by frequently keywords in all topics, whereas, HDP topic modeling showed specific keywords to easily identify the characteristics of each topic.

keywords
기록관리학, 연구동향, 토픽모델링, LDA, HDP, Archives Management, Research Trends, Topic Modeling, LDA, HDP

Reference

1.

김규환, 장보성, 이현정. 2009. 우리나라 기록관리학 분야의 연구영역 분석 - 논문제목의 구문 및 의미 구조를 중심으로. 한국문헌정보학회지 , 43(3): 417-439.

2.

김규환, 남영준. 2009. 국내 기록관리학 분야 학회지 논문 분석을 통한 연구동향 연구. 한국문헌정보학회지 , 43(4): 217-239.

3.

김남규, 이동훈, 최호창, William Xiu Shun Wong. 2017. 텍스트 분석 기술 및 활용 동향. 한국통신학회논문지 , 42(2): 471-492.

4.

김상겸. 2016. 토픽모델링을 이용한 국내 산업공학 연구동향 분석 . 석사학위논문, 서울과학기술대학교 일반대학원 데이터사이언스학과.

5.

김태경, 최회련, 이홍철. 2016. 토픽 모델링을 이용한 핀테크 기술 동향 분석. 한국산학기술학회논문지 , 17(11): 670-681.

6.

나상태, 안주언, 정민호, 김자희. 2017. 동적 토픽분석을 활용한 스마트그리드 연구동향 분석. 전기학회논문지 , 66(4): 613-620.

7.

남태우, 이진영. 2009. 우리나라 기록관리학 연구 동향 분석. 한국도서관·정보학회지 , 40(2):451-472.

8.

남춘호. 2016. 일기자료 연구에서 토픽모델링 기법의 활용가능성 검토. 비교문화연구 , 22(1):89-135.

9.

박주섭, 홍순구, 김종원. 2017. 토픽모델링을 활용한 과학기술동향 및 예측에 관한 연구. 한국산업정보학회논문지 , 22(4): 19-28.

10.

박자현, 송민. 2013. 토픽모델링을 활용한 국내 문헌정보학 연구동향 분석. 정보관리학회지 , 30(1): 7-32.

11.

서성훈. 2016. BM 특허 토픽 모델링을 이용한 핀테크 기술동향 분석 . 석사학위논문, 서울과학기술대학교 일반대학원 데이터사이언스학과.

12.

손혜인, 남영준. 2016. 기록관리학 분야 국내 학술지의 연구동향에 관한 연구 - 한국기록관리학회지 와 기록학연구 를 중심으로. 정보관리학회지 , 33(1): 85-110.

13.

신규식, 최회련, 이홍철. 2015. 신재생에너지 동향 파악을 위한 토픽 모형 분석. 한국산학기술학회논문지 , 16(9): 6411-6418.

14.

유소영. 2015. 자아 중심 네트워크 분석과 동적 인용 네트워크를 활용한 토픽모델링 기반 연구동향 분석에 관한 연구. 정보관리학회지 , 32(1): 153-169.

15.

이재윤, 문주영, 김희정. 2007. 텍스트 마이닝을 이용한 국내 기록관리학 분야 지적구조 분석. 한국문헌정보학회지 , 41(1): 345-372.

16.

진설아, 송민. 2016. 토픽 모델링 기반 정보학 분야 학술지의 학제성 측정 연구. 정보관리학회지 , 33(1): 7-32.

17.

최이랑. 2015. 국내 기록관리학 연구동향에 관한 연구 - 최근 10년간(2004-2013) 학술논문을 중심으로. 기록학연구 , 43: 147-177.

18.

한국기록관리학회. 2013. 기록관리론 : 증거와 기억의 과학 . 성남: 아세아문화사.

19.

Carson Sievert and Kenneth E. Shirley. 2014. LDAvis: A method for visualizing and interpreting topics. proceedings of workshop on interactive language learning, visualization, and interfaces, Baltimore, Maryland.

20.

Chong Wang, John Paisley and David M. Blei. 2011. Online Variational Inference for the Hierarchical Dirichlet Process. Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, FL.

21.

David M. Blei. 2012. Provavilistic Topic Models. Communications of the ACM, 55(4):77-84.

22.

David M. Blei, Andrew Y. Ng and Michael I. Jordan. 2003. Latent Dirichlet Allocation. Journal of Machine Learning Research, 3: 993-1022.

23.

Gensim Home Page. <https://radimrehurek.com/gensim/> [cited 2017. 9. 15].

24.

Jason Chuang, Christopher D. Manning and Jeffrey Heer. 2012. Termite: Visualization Techniques for Assessing Textual Topic Models. Advanced Visual Interfaces, 12: 21-25.

25.

Konlpy Home Page. <http://konlpy-ko.readthedocs.io/ko/v0.4.3/> [cited 2017. 9. 15].

26.

Loet Leydesdorff and and Adina Nerghes. 2017. Co-word Maps and Topic Modeling:A Comparison Using Small and Medium-Sized Corpora (N<1,000). Journal of the Association for Information Science and Technology, 68(4): 1024-1035.

27.

Teh, Yee Whye, Michael I. Jordan, Matthew J. Beal and David M. Blei. 2007. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101(476): 1566-1581.

Journal of Korean Library and Information Science Society