
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


검색어: extraction, 검색결과: 94
지선영(경기대학교 일반대학원 문헌정보학과) ; 최성필(경기대학교 문헌정보학과) 2021, Vol.38, No.1, pp.221-242 https://doi.org/10.3743/KOSIM.2021.38.1.221

본 연구에서는 사전학습 된 언어 모델을 기반으로 양방향 게이트 순환 유닛 모델과 조건부 랜덤 필드 모델을 활용하여 참고문헌을 구성하는 메타데이터를 자동으로 인식하기 위한 연구를 진행하였다. 실험 집단은 2018년에 발행된 학술지 40종을 대상으로 수집한 PDF 형식의 학술문헌 53,562건을 규칙 기반으로 분석하여 추출한 참고문헌 161,315개이다. 실험 집합을 구축하기 위하여 PDF 형식의 학술 문헌에서 참고문헌을 분석하여 참고문헌의 메타데이터를 자동으로 추출하는 연구를 함께 진행하였다. 본 연구를 통하여 가장 높은 성능을 나타낸 언어 모델을 파악하였으며 해당 모델을 대상으로 추가 실험을 진행하여 학습 집합의 규모에 따른 인식 성능을 비교하고 마지막으로 메타데이터별 성능을 확인하였다.


This study applied reference metadata recognition using bidirectional GRU-CRF model based on pre-trained language model. The experimental group consists of 161,315 references extracted by 53,562 academic documents in PDF format collected from 40 journals published in 2018 based on rules. In order to construct an experiment set. This study was conducted to automatically extract the references from academic literature in PDF format. Through this study, the language model with the highest performance was identified, and additional experiments were conducted on the model to compare the recognition performance according to the size of the training set. Finally, the performance of each metadata was confirmed.


본 연구에서는 기관 레포지터리의 운영을 활성화시키기 위한 품질관리 요인들을 추출하고 그 중에서 유의미한 영향을 미치는 핵심 품질 관리 요인을 재추출하였다. 그리고 핵심 품질 관리 요인의 개선안을 반영한 운영모형을 개발하여 이용자에게 미치는 효과를 파악하였다. 개발된 기관 레포지터리 운영모형과 시스템 전반에 대한 만족도를 검증한 결과 일반 이용자보다 사서의 만족도가 더 높게 나타났다. 국내 대학은 저작자의 셀프 아카이빙 제출 방식보다는 사서의 대행 제출 방식을 선호하고 있다. 따라서 본 연구에서 개발된 운영 모형을 기반으로 국내 대학도서관의 사서를 중심으로 한 기관 레포지터리 운영 활성화가 촉진될 수 있을 것이다.


This study extracted quality control factors for invigorating Institutional Repository operations, and re-extracted key quality control factors with significant influence among them. Furthermore, this study developed an operating model reflecting an improvement scheme of these key quality control factors, and estimated how much effective the operating model was to the user. As a result of inspecting satisfaction for IR operating model and the general system, it has been found that librarians’ satisfaction for them is higher than that of the general user. Korea’s universities prefer a proxy submission mode by librarians to a self-archiving submission mode by writers. Therefore, based on the operation model developed by this study, it is suggested that Institutional Repository operation can be actively invigorated with librarians of these universities as central players.

김용광(연세대학교) ; 정영미(연세대학교) 2006, Vol.23, No.1, pp.83-98 https://doi.org/10.3743/KOSIM.2006.23.1.083

이 연구에서는 복수의 신문기사를 자동으로 요약하기 위해 문장의 의미범주를 활용한 템플리트 기반 요약 기법을 제시하였다. 먼저 학습과정에서 사건/사고 관련 신문기사의 요약문에 포함할 핵심 정보의 의미범주를 식별한 다음 템플리트를 구성하는 각 슬롯의 단서어를 선정한다. 자동요약 과정에서는 입력되는 복수의 뉴스기사들을 사건/사고 별로 범주화한 후 각 기사로부터 주요 문장을 추출하여 템플리트의 각 슬롯을 채운다. 마지막으로 문장을 단문으로 분리하여 템플리트의 내용을 수정한 후 이로부터 요약문을 작성한다. 자동 생성된 요약문을 평가한 결과 요약 정확률과 요약 재현율은 각각 0.541과 0.581로 나타났고, 요약문장 중복률은 0.116으로 나타났다.


This study proposes a template-based method of automatic summarization of multiple news articles using the semantic categories of sentences. First, the semantic categories for core information to be included in a summary are identified from training set of documents and their summaries. Then, cue words for each slot of the template are selected for later classification of news sentences into relevant slots. When a news article is input, its event/accident category is identified, and key sentences are extracted from the news article and filled in the relevant slots. The template filled with simple sentences rather than original long sentences is used to generate a summary for an event/accident. In the user evaluation of the generated summaries, the results showed the 54.1% recall ratio and the 58.1% precision ratio in essential information extraction and 11.6% redundancy ratio.


본 연구의 목적은 빅데이터 연구 논문의 주제 분야 간의 연관관계를 분석하는데 있다. 동시 인용 관계를 적용하여 분석 대상의 주제 분야를 추출하였으며, R 프로그램의 Apriori 알고리즘을 이용하여 연관관계의 규칙을 분석하고, arulesViz 패키지를 사용하여 시각화하였다. 연구 결과 22개 주제 분야가 추출되었는데, 이들 주제 분야는 3가지 군집으로 구분되었다. 주제 분야의 연관관계 유형을 분석한 결과, 연관관계의 복잡성에 따라 ‘전문형’, ‘일반형’, ‘확대형’으로 구분되었다. 전문형에는 문헌정보학, 신문방송학 등이 포함되었고, 일반형에는 정치외교학, 무역학, 관광학 등이 포함되었고, 확대형에는 기타인문학, 사회과학일반, 관광학일반 등이 포함되었다. 이 연관관계는 빅데이터 연구자가 한 주제 분야를 인용할 때 관계가 있는 다른 주제 분야를 인용하는 경향을 보여주는 것으로, 도서관에서 학술정보서비스를 위해 연관관계를 활용한 서비스를 고려해야 할 필요가 있다.


The purpose of this study is to analyze the association among the subject areas of big data research papers. The subject group of the units of analysis was extracted by applying co-citation networks, and the rules of association were analyzed using Apriori algorithm of R program, and visualized using the arulesViz package of R program. As a result of the study, 22 subject areas were extracted and these subjects were divided into three clusters. As a result of analyzing the association type of the subject, it was classified into ‘professional type’, ‘general type’, ‘expanded type’ depending on the complexity of association. The professional type included library and information science and journalism. The general type included politics & diplomacy, trade, and tourism. The expanded types included other humanities, general social sciences, and general tourism. This association networks show a tendency to cite other subject areas that are relevant when citing a subject field, and the library should consider services that use the association for academic information services.

이은지(한국과학기술정보연구원 학술정보공유센터 연구원) ; 김혜선(한국과학기술정보연구원 학술정보공유센터 센터장) ; 남은경(한국과학기술정보연구원 학술정보공유센터 연구원) ; 김완종(한국과학기술정보연구원 학술정보공유센터 책임연구원) 2020, Vol.37, No.4, pp.109-130 https://doi.org/10.3743/KOSIM.2020.37.4.109

본 연구의 목적은 논문의 투고 시점부터 출판에 이르는 과정까지 부실하게 운영되는 것으로 의심되는 학술지가 지닌 특징을 식별할 수 있는 체크리스트를 개발하는 것이다. 이에, 해외 사례조사와 전문가 의견 수렴 등을 통해 총 3개의 우선순위를 기준으로 17개의 체크리스트 문항을 개발하였다. 개발된 체크리스트의 검증을 위해 Beall’s List에 포함된 100종의 학술지를 무작위로 추출하여 분석한 결과, 96종의 학술지가 부실로 의심되는 특징을 가지고 있었고, 4종은 특이사항이 없는 학술지로 식별되었다. 향후 더욱 광범위한 연구 분야에서 발간되는 학술지에 대한 사례조사와 후속 연구를 통해 본 연구에서 개발된 17개 문항을 지속적으로 수정 보완해야 할 것이다.


This study aims to develop a checklist that could identify the characteristics of predatory journals suspected of being poorly operated from the time of submission to publication. Accordingly 17 checklist questions were developed based on 3 priorities through overseas case studies and expert opinions. To verify the developed checklist, 100 journals included in Beall’s list were randomly extracted and analyzed. As a result, 96 journals had features that were suspected to be questionable, there were not found in the 4 journals. A further case study and follow-up study of journals published in a broader field of research will require continued revision and supplementation of the 17 questions developed in this study.



This paper examines the characteristics of the JASIST (Journal of the Association for Information Science and Technology) editorial board members and their research areas through author co-citation analysis, and investigates whether the editorial board members’ research areas are related with keywords frequently appeared in the journal’s research articles. In the process, research areas of the central members and those appeared most frequently as keywords will be identified. Research areas of the 36 members on the JASIST editorial board are collected and categorized to compare with the categorization of keywords extracted from 169 research articles published in JASIST, 2013. The result shows that members with higher centrality in the co-citation network are related with research areas that are also dominant in the distribution of article keywords. The areas include information behavior and searching, information retrieval, information system design, and bibliometrics.

김선정(숙명여자대학교 문헌정보학과 석사과) ; 이지수(숙명여자대학교 문헌정보학과) 2024, Vol.41, No.2, pp.269-294 https://doi.org/10.3743/KOSIM.2024.41.2.269

본 연구는 QR코드 주제 관련 뉴스의 보도 경향 분석을 위해 한국언론진흥재단의 빅카인즈에서 2008년부터 2023년까지 16년간의 뉴스 기사 데이터 13,335건을 수집하였다. 연간 및 주제별 보도량을 통해 양적 변화 추이를 살펴보고, 단어 빈도 분석을 실시하였으며, 동시 출현 단어를 활용한 네트워크 분석을 통해 시기별 주요 보도 내용을 분석하였다. 분석 결과는 다음과 같다. QR코드 관련 언론에서의 보도는 지속적으로 증가하였으며, 2020년에 보도량이 가장 많은 것으로 나타났다. ‘IT․과학’ 주제에서 가장 많이 보도되었으며, ‘스마트폰’, ‘서비스’, ‘애플리케이션’, ‘결제’ 등이 QR코드와 함께 주요 단어로 다뤄졌다. 연구 결과, 언론을 통해 QR코드의 정보 제공 및 전달, 정보의 인식 및 식별 기능이 부각 되었다. QR코드는 정보통신기술의 발달과 모바일 기기의 보편화에 따라 그 사용이 확대되었으며, 사회의 전반에서 대중적인 정보 매체로 활용되고 있는 것으로 나타났다.


This study analyzed the news media coverage of QRcodes in Korea over a 16-year period (2008 to 2023). A total of 13,335 articles were extracted from the Korea Press Foundation’s BigKinds. A quantitative and content analysis was conducted on the news frames. The results indicated that the quantity of news coverage has increased. The greatest quantity of news coverage was observed in 2020, and the most frequently discussed topic in the news was ‘IT_Science’. The results of the keyword analysis indicated that the primary words were ‘QRcode’, ‘smartphone’, ‘service’, ‘application’, and ‘payment’. The news media primarily focused on the QRcode’s ability to provide instant access and recognition technology. This study demonstrates that advanced information and communication technologies and the increased prevalence of mobile devices have led to a rise in the utilization of QRcodes. Furthermore, QRcodes have become a significant information media in contemporary society.


본 연구는 정보추구의 과도성으로 인해 자행되는 프라이버시 침해를 살펴보고자 하는데 그 목적이 있다. 이를 위해 최근 5년간 미디어에서 볼 수 있었던 프라이버시 침해 사례를 종류별로 분석, 이 중 지나친 정보추구행동의 결과로 나타나는 침해 사례들을 분석하였다. 정보추구의 동기, 주체, 성격이라는 세 가지 기준, 다섯 가지 유형에 기반, 과도한 정보추구로 인해 발생하는 프라이버시 침해를 사례별로 소개했다. 환경변화에 따른 바람직한 정보추구 자세와 프라이버시 침해 방지를 위한 정보이용에 대한 몇 가지 고민과 제언으로 마무리하였다.


The purpose of this study was to try to describe types of invasion of privacy caused by excessive information seeking on mass media. Recent 5 years of cases were gathered and analyzed to see the types of invasion of privacy, and extracted only those cases showing the results by excessive information seeking. Three standards such as the intension, the subject, and the characteristics were selected to differentiate the types and cases. Five types of those three standards were introduced by case by case. The issues regarding ways of privacy protection and correct attitude of information seeking were explored and a few suggestions were included at the end.


본 논문은 C대학도서관의 학술정보시스템(LAS)에 구축되어 있는 장서와 대출기록 및 고객관련 데이터를 수집하여 이를 분석하고 그 결과를 고객관계관리(CRM)에 적용할 수 있는 방안을 제시하였다. 수집된 자료는 C 대학도서관에서 소장하고 있는 대출이 가능한 단행본 총 269,387책의서지데이타와고객 12,281명의 데이터, 이용자 대출기록 39,269건이었다. 대출기록 분석 데이터에서 관계변수로 이용자 신분, 대출빈도, 대출책수와 대출횟수, 출판년도를 추출하여 데이터 마이닝 기법으로 분석하고, 상관계수로 검증하였다.


The books and circulation-related data in the Library Automation System(LAS) of C-academic library were collected and analyzed, and also the method which may be applied to the Customer Relationship Management (CRM) based on the results was suggested in this paper. Collected data were 269,387 bibliographic data of books, 12,281 patron data, and 39,269 circulation records. User identity, circulation frequencies, total number of circulated books, and publication year as relation factor from the analyzed data of circulation records were extracted. They were also analyzed, and verified by correlation coefficient.

함정은(연세대학교 문헌정보학과) ; 송민(연세대학교) 2015, Vol.32, No.2, pp.87-103 https://doi.org/10.3743/KOSIM.2015.32.2.087

많은 연구들 가운데 살펴볼 가치가 있는 대상을 찾아 제시해주는 문헌기반 발견의 접근법은 연구자들에게 매우 유용할 것이다. 문헌기반 발견 연구의 대표 이론인 Swanson의 ABC 모델은 기존에 검증되지 않은 개체들의 관계를 연구할 것을 제안해 준다. 본 연구는 Swanson의 ABC 모델에 인용 정보를 고려하여 유의한 관계에 있는 개체들을 더 효율적으로 찾아내고자 하였다. 수집 논문들의 참고문헌 목록에서 인용 정보를 확인하고 논문의 표제와 초록을 대상으로 텍스트 마이닝 기법으로 중요한 단어들을 추출하였다. Swanson의 연구들 중 어유와 레이노드 질병 및 증상의 관계를 재현하였으며 기존의 접근법으로 확인되는 개체들과 어떤 차이가 있는지 분석하였다.


It is useful to find something valuable for researching through literature based discovery. Swanson’s ABC model, known as literature based discovery, suggests the relationship between entities undiscovered yet. This study tries to find the valid relationship between entities by referring to citation which connects articles on similar topic. We collect citation from references in articles, and extract important concepts in titles and abstracts through text mining techniques. We reproduce the relationship between fish oil and Raynaud’s disease, which is known as one of Swanson’s works, and compare the results with entities identified from traditional approach.
