최근 생의학 분야의 학술 문헌이 기하급수적으로 급증함에 따라 관련 분야 연구자들은 선행 연구 및 연구 동향 파악에 어려움을 겪고 있다. 이에 효율적인 선행 연구 및 연구 동향 파악을 위한 정보 추출 기술이 요구되며, 학술 문헌의 정보 추출을 위한 개체 인식 및 개체 간의 생의학 이벤트 추출 연구가 활발히 진행되고 있다. 본 연구는 이에 심층 학습(Deep Learning)의 기법 중 하나인 컨볼루션 네트워크(Convolutional Neural Networks, CNN) 모델을 기반으로 이벤트 내의 개체 유형 정보의 적용 위치와 함께, 이벤트 식별 및 분류를 고려하여 총 8가지의 모델을 구성하여 실험하였다. 실험 결과, 본 연구에서 제안하는 모델 중 최고 성능을 보인 개체 유형 완전연결 모델이 이벤트 분류 실험에서 F-점수 72.09%의 높은 성능을 보였으나, 이벤트 추출 실험에서는 학습 컬렉션의 불균형 문제 및 이벤트 식별 모델의 성능 저조 등으로 인하여 F-점수 21.81%의 비교적 저조한 성능을 보였다.
A recent sharp increase of the biomedical literature causes researchers to struggle to grasp the current research trends and conduct creative studies based on the previous results. In order to alleviate their difficulties in keeping up with the latest scholarly trends, numerous attempts have been made to develop specialized analytic services that can provide direct, intuitive and formalized scholarly information by using various text mining technologies such as information extraction and event detection. This paper introduces and evaluates total 8 Convolutional Neural Network (CNN) models for extracting biomedical events from academic abstracts by applying various feature utilization approaches. Also, this paper conducts performance comparison evaluation for the proposed models. As a result of the comparison, we confirmed that the Entity-Type-Fully-Connected model, one of the introduced models in the paper, showed the most promising performance (72.09% in F-score) in the event classification task while it achieved a relatively low but comparable result (21.81%) in the entire event extraction process due to the imbalance problem of the training collections and event identify model's low performance.
김정균, 조혜진, 이현주. 2015. 생의학 문헌에서 질병 관련 정보를 추출하기 위한 텍스트 마이닝기법. 정보과학회지, 33(4), 13-19.
김태현 외. 2002. 정보 추출을 위한 이벤트 문장 추출. 한국정보과학회 언어공학연구회 학술발표논문집, 2002년 10월 11-12일, 청주: 충북대학교: 325-331.
이기헌, 허고은, 송민. 2015. 생의학 텍스트 마이닝: 새로운 생의학 지식 발견 방법 연구 동향. 정보과학회지, 33(4), 30-38.
Choi, S. 2016. Extraction of Protein-Protein Interactions(PPIs) from the Literature by Deep Convolutional Neural Networks with Various Feature Embeddings. Sage Journal.
Huang, C., and Lu, Z. 2016. Community Challenges in Biomedical Text Mining over 10Years: Success, Failure and the Future. Briefings in Bioinformatics, 17(1), 132-144.
Kim, J. D., Wang, Y., and Yasunori, Y. 2013. The Genia Event Extraction Shared Task, 2013 Edition-Overview. In Proceedings of the BioNLP Shared Task 2013 Workshop, 8-15.
Kim, J. D. et al. 2011. Overview of Genia Event Task in BioNLP Shared Task 2011. In Proceedings of the BioNLP Shared Task 2011 Workshop, 7-15.
Li, C., Rao, Z., and Zhang, X. 2016. LitWay, Discriminative Extraction for Different Bio-Events. In Proceedings of the 4th BioNLP Shared Task 2015 Workshop, 32-41.
Li, C. et al. 2015. Using Word Embedding for Bio-event Extraction. ACL-IJCNLP, 2015, 121-126.
Li, F. et al. 2015. Mapping Publication Trends and Identifying Hot Spots of Research on Internet Health Information Seeking Behavior: A Quantitative and Co-Word Biclustering Analysis. J Med Internet Res, 17(3).
Liu, X., Bordes, A., and Grandvalet, Y. 2015. Extracting Biomedical Events from Pairs of Text Entities. BMC Bioinformatics, 16(10), 45-49.
Panyam N. C. et al. 2016. SeeDev Binary Event Extraction using SVMs and a Rich Feature Set. In Proceedings of the 4th BioNLP Shared Task 2015 Workshop, 82-87.
Collobert, R. et al. 2011. Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research, 12, 2493-2537.
Xia, J., Fang, A. C., and Zhang, X. 2014. A Novel Feature Selection Strategy for Enhanced Biomedical Event Extraction Using the Turku System. BioMed Research International, 2014.
Stanford CS231n. 2017. Convolutional Neural Networks for Visual Recognition. Stanford University CS Class. [online] [cited 2017. 10. 9.]<http://cs231n.github.io/convolutional-networks/>
GENIA. 2017. The 4th BioNLP Shared Task 2016. The BioNLP Shared Task. [online] [cited 2017. 10. 9.] <http://2016.bionlp-st.org/>