
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


검색어: : Information Retrieval, 검색결과: 99
이승욱(고려대학교 정보통신대학원) ; 송영인(고려대학교 정보통신대학원) ; 임해창(고려대학교) 2008, Vol.25, No.4, pp.115-129 https://doi.org/10.3743/KOSIM.2008.25.4.115

최근 웹 환경이 대중화되고 개방됨에 따라 웹은 단순한 정보 획득의 공간이 아닌, 의견 표출과 교환의 장이 되어 가고 있으며, 이에 따라 웹 상에서 표출된 특정 주제에 대한 사람들의 의견을 자동으로 검색하기 위한 기술 개발의 필요성이 점차 증대되고 있다. 이러한 의견 문서 검색 문제는 사용자 질의와 문서간의 적합성만을 고려하는 일반적인 정보검색 방법으로는 해결하기 어려우며, 문서 내 의견 포함 여부 분석을 수행할 수 있는 더욱 진보된 시스템을 필요로 한다. 본 논문에서는 기존 검색 시스템의 구조 하에서, 의견 문서 검색을 효과적으로 수행할 수 있는 시스템을 제안한다. 의견 검색을 수행하기 위해 문서 내 의견 분석 방법에 대해 기존의 사전 기반 방식과 기계학습 기반 방식을 결합한 새로운 혼합 방식을 제안하고, 실험을 통하여 검색 성능을 개선하는 효과가 있음을 보였다.


Recently, as its growth and popularization, the Web is changed into the place where people express, share and debate their opinions rather than the space of information seeking. Accordingly, the needs for searching opinions expressed in the Web are also increasing. However, it is difficult to meet these needs by using a classical information retrieval system that only concerns the relevance between the user's query and documents. Instead, a more advanced system that captures subjective information through documents is required. The proposed system effectively retrieves opinionated documents by utilizing an existing information retrieval system. This paper proposes a kind of hybrid method which can utilize both a dictionary-based opinion analysis technique and a machine learning based opinion analysis technique. Experimental results show that the proposed method is effective in improving the performance.

김양우(한성대학교) 2007, Vol.24, No.2, pp.45-69 https://doi.org/10.3743/KOSIM.2007.24.2.045

본 논문은 다음과 같은 두 부분으로 구성된다. 논문의 전반부는 네 개의 정보검색 모형을 다루고 있는데 이는 전통적 정보검색 모형과 보다 최근에 나온 세 연구자의 이용자 중심 인터액티브 모형을 포함한다. 인터액티브 정보검색 모형은 Belkin, Ingwersen, 그리고 Saracevic 에 의하여 제시된 것인데, 전통적 정보검색 모형을 포함한 각 모형의 장점과 한계점이 기술된다. 논문의 후반부에서 저자는 이상과 같은 모형들의 분석을 토대로 그 자신의 인터액티브 모형, 즉 빙산모형(Iceberg Model)을 제시하고 있다. 빙산모형의 타당성으로 다음과 같은 세 가지 사항을 강조하고 있는데, 즉, 보다 구체화된 시스템 특성의 포함, 보다 명확한 인터액티브 정보검색 요소간의 상호작용, 그리고 정보매개자의 증가된 역할 등이 그것이다. 요약하면, 빙산모형은 변화하는 정보추구환경에서 진화할 수 있는 틀을 제시하고 있다.


This paper is divided into two parts. The first part elaborates on four Information Retrieval (IR) models: a traditional IR model and three more recent, user-oriented models of IR interaction presented by Belkin, Ingwersen, and Saracevic. The strengths and limitations of each model are discussed. The second part, based on an analysis of the previous models, presents the author's interactive model, namely, the Iceberg Model. The rationales that are given to explain the design of this model are associated with the following: a greater specificity of system attributes; more concrete interplays among different components of IR interaction; and, the increased role of the Human Information Intermediary (HII). In sum, the new model presents a framework that can evolve in varying information-seeking contexts.

김용(전북대학교) ; 소민호(KAIST 학술정보처) 2009, Vol.26, No.4, pp.113-128 https://doi.org/10.3743/KOSIM.2009.26.4.113

일반적으로 동영상콘텐츠에 대한 탐색과정에서 이용자는 해당 기관 또는 사이트에서 제공하는 간단하게 요약한 요약 동영상과 텍스트 정보를 이용하여 원하는 동영상을 선택한다. 이러한 이용자의 동영상콘텐츠의 탐색과정에서의 정확하고 신속한 동영상콘텐츠의 검색을 위하여 본 연구에서는 동영상을 구성하는 자막과 이미지 정보를 이용하여 동영상을 내용에 따라 여러 개의 클립으로 구분하고, 이용자의 필요에 따라 원하는 클립을 빠르게 검색하여 제공하는 시스템을 제안한다. 동영상콘텐츠 및 관련 메타데이터의 관리 및 제어를 위해서 본 연구에서는 XML 계층구조를 생성하여 저장한다. 한편, 이용자의 검색 요청시 XML을 기반으로 동영상콘텐츠의 계층구조를 반영하는 Xpath를 생성하여 질의처리를 수행함으로써 이용자가 원하는 동영상콘텐츠에 대한 검색결과를 제공한다. 제안된 방법을 기반으로 본 연구에서는 XML 계층구조를 이용한 동영상 검색 시스템을 설계하고 구현하였다.


Generally, a user uses briefly summarized video data and text information to search video contents. To provide fast and accurate search tool for video contents in the process of searching video contents, this study proposes a method to search video clips which was partitioned from video contents. To manage and control video contents and metadata, the proposed method creates structural information based on XML on a video and metadata, and saves the information into XML database. With the saved information, when a user try to search video contents, the results of user's query to retrieve video contents would be provided through creating Xpath which has class structure information. Based on the proposed method, an information retrieval system for video clips was designed and implemented.

정영미(연세대학교) ; 장지은(연세대학교) 2003, Vol.20, No.3, pp.111-127 https://doi.org/10.3743/KOSIM.2003.20.3.111

이 연구의 목적은 사건을 연구대상으로 하는 사건트래킹 기법이 과연 최신 사건 정보를 검색함에 있어 기존의 정보필터링 기법보다 성능이 우수한가를 살펴보는 데 있다. 따라서 이 연구에서는 특정 사건에 관한 최신 기사를 보다 효과적으로 검색하여 제공하는 기법을 찾아내기 위하여 kNN(k-Nearest Neighbors) 분류기를 응용한 사건트래킹 기법과 질의기반 정보필터링 기법을 사용하여 사건검색 실험을 수행한 후 두 기법의 검색 성능을 비교하였다. 사건트래킹 실험은 초기의 고정 학습문서 집합을 사용한 사건트래킹과 트래킹 과정에서 변화하는 동적 학습문서 집합을 사용한 사건트래킹의 두 가지 방법으로 수행되었다. 정보필터링 실험도 초기질의를 사용한 정보필터링과 필터링 과정에서 계속 수정되는 질의를 사용한 정보필터링의 두 가지 방법으로 수행되었다. 실험 결과 사건트래킹 기법에서는 고정 학습문서 집합을 사용한 경우가 동적 학습문서 집합을 사용한 경우보다 더 우수한 성능을 보였으며, 정보필터링 기법에서는 초기질의를 사용한 경우가 수정질의를 사용한 경우보다 더 좋은 성능을 보였다. 또한 고정 학습문서 집합을 사용한 사건트래킹과 초기질의를 사용한 정보필터링을 비교한 결과 정보필터링 기법이 사건트래킹 기법에 비해 더 좋은 사건검색 성능을 보이는 것으로 나타났다.


The purpose of this study is to ascertain whether event tracking is more effective in event retrieval than information filtering. This study examined the two techniques for event retrieval to suggest the more effective one. The event-retrieval performances of the event tracking technique based on a kNN classifier and the query-based information filtering technique were compared. Two event tracking experiments, one with the static training set and the other with the dynamic training set, were carried out. Two information filtering experiments, one with initial queries and the other with refined queries, were also carried out to evaluate the event-retrieval effectiveness. We found that the event tracking technique with the static training set performed better than one with the dynamic training set. It was also found that the information filtering technique using intial queries performed better than one using the refined queries. In conclusion, the comparison of the best cases of event tracking and information filtering revealed that the information filtering technique outperformed the event tracking technique in event retrieval.


이글은 2000년부터 2004년까지 지식정보자원관리사업으로 추진된 12개의 역사분야 인터넷 정보시스템에 설계된 기능적 사용자인터페이스를 분석하였다. 정보검색과 검색결과제시의 두 측면에서 12개의 역사분야 인터넷 정보시스템이 채택한 기능적 사용자 인터페이스의 공통점과 차이점을 기술하였다. 기능적 사용자인터페이스에 대하여 지난 5년동안 수행했던 실험결과와 사용경험을 정리한 이 논문은 앞으로 이 분야에 대한 이론적 논의의 단초를 마련코자 하였다.


This paper analyes the functional user interface of the Korean History Information System in the Knowledge Information Resource Management which was carried out from the year 2000 to the year 2004. Having two angle; information retrieval and output, this paper describes the common feature and the different feature of the functional user interface which was designed in the twelve Korean History Information System. This paper investigates the actual conditions of the functional user interface which was designed in the the twelve Korean History Information System. And this paper will develop the research on the functional user interface.


포털사이트는 검색엔진을 넘어 사이버스페이스 자체를 의미할 정도로 개념과 영역이 확대되었다. 일반인들뿐만 아니라, 필요로 하는 학술정보가 서비스되기 때문에 연구자도 포털사이트를 많이 이용한다. 그동안 포털의 검색은 얼마나 많은 정보를 검색하게 해 줄 것인가 하는 양적인 면에 관심을 두었다. 그러나 최근에는 검색의 질에 보다 관심이 많아지고 있다. 이 논문은 포털이 제공하는 학술정보검색의 문제점을 분석하고, 비교적 신뢰성을 인정받는 사전 서비스와 학술정보를 연계함으로써 학술정보검색의 질을 향상하기 위한 시범적인 시도이다. 즉, 검증되고 압축적으로 정리된 사전의 표제어와 해당 표제어를 키워드로 하는 권위 있는 연구 성과를 연계시킴으로써, 사전을 검색할 때 주제어 관련 연구 성과까지 검색할 수 있게 하는 방안을 제시하고자 한다.


Internet portals have been revolutionized not only as simple search engines but also as a new space for the Internet users. They have developed to give satisfying search results for academic information users. academic fields. However, their attention was given to the quantity rather than the quality of the results. This tendency is now changing. This study addresses the problems in the search process using the current portal sites and presents an integrated scholarly information service where users can access more organized and trustworthy information linked with online technical keyword dictionary. When a user enter a keyword on a portal site, he/she can access to high quality scholarly information resources linked with keyword. This could assure the user to get an expanded knowledge with confirmation.

이진하(University of Illinois at Urbana - Champaign) 2008, Vol.25, No.4, pp.149-164 https://doi.org/10.3743/KOSIM.2008.25.4.149


Our limited understanding of real-life music information queries is an impediment to developing music information retrieval (MIR) systems that meet the needs of real users. This study aims to contribute to developing a theorized understanding of how people seek music information by an empirical investigation of real-life queries, in particular, focusing on the accuracy of user-provided information and users' uncertainty expressions. This study found that much of users' information is inaccurate; users made various syntactic and semantic errors in providing this information. Despite these inaccuracies and uncertainties, many queries were successful in eliciting correct answers. A theory from pragmatics is suggested as a partial explanation for the unexpected success of inaccurate queries.

정영미(연세대학교) ; 이용구(계명대학교) 2005, Vol.22, No.2, pp.125-145 https://doi.org/10.3743/KOSIM.2005.22.2.125

이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음, 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 92%의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 67% 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 39.6%의 정확률을 보였고, EM 알고리즘 통합 검색이 약 36%의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 37%와 비교하면 나이브 베이즈 통합 검색은 약 7.4%의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 3%의 성능 저하율을 보였다.


This paper presents a semantic vector space retrieval model incorporating a word sense disambiguation algorithm in an attempt to improve retrieval effectiveness. Nine Korean homonyms are selected for the sense disambiguation and retrieval experiments. The total of approximately 120,000 news articles comprise the raw test collection and 18 queries including homonyms as query words are used for the retrieval experiments. A Naive Bayes classifier and EM algorithm representing supervised and unsupervised learning algorithms respectively are used for the disambiguation process. The Naive Bayes classifier achieved 92% disambiguation accuracy, while the clustering performance of the EM algorithm is 67% on the average. The retrieval effectiveness of the semantic vector space model incorporating the Naive Bayes classifier showed 39.6% precision achieving about 7.4% improvement. However, the retrieval effectiveness of the EM algorithm-based semantic retrieval is 3% lower than the baseline retrieval without disambiguation. It is worth noting that the performances of disambiguation and retrieval depend on the distribution patterns of homonyms to be disambiguated as well as the characteristics of queries.


다수의 연구에서 정보추구 과정상 불 확신성(Uncertainty) 의 중요성이 지적되었지만, 실제 정보검색시스템을 이용한 탐색과정에서 이용자들의 불 확신성에 대한 연구는 많지 않았다. 본 연구는 실제로 정보를 추구하는 이용자들의 웹 검색어 선정과정에서의 불 확신성 인식을 조사하여, 정보탐색 과정에서의 다양한 불 확신성 유형을 식별하였다. 불 확신성 유형에 입각하여 발견된 불 확신성의 주요 원인(Origins)은 정보검색시스템 및 서비스 발전을 위한 시사점을 제시하여준다.


While numerous studies have suggested the significance of uncertainty during the process of information-seeking, less research has investigated user uncertainty in the actual search process using a real system. This study investigated user perceptions of uncertainty in the process of the selection of Web search terms in the real information-seeking process. The subjects at the doctoral or post-doctoral level were limited to the discipline of science in order to understand user perceptions in this field. The findings revealed various dimensions, types, and incidents of uncertainty. The typology of uncertainty facilitated an understanding of the subjects' information-seeking context by identifying various aspects of the context that constituted the subjects’ uncertainty. The identification of two principal origins of uncertainty based on the different types of uncertainty generated implications to improve information systems and services.

이혁진(Texas Woman’s University) 2006, Vol.23, No.2, pp.97-111 https://doi.org/10.3743/KOSIM.2006.23.2.097

이 논문의 주요목적은 정보이용자들이 어떤 수준의 정확률 차이에서 유의미하게 차이를 인지하는지를 알아보고자 하는 것이다. 그에 관련한 몇 가지 흥미 있는 결과가 도출되었다. 그 외에 적합성 판정은 이용자의 판정시간과 관계가 없는 것으로 나타났다. 그리고 주제에 대한 이용자의 배경지식과 적합성 판정의 관계가 두드러졌다. 또한, 적합문서의 숫자가 적었을 때 이용자들은 적합성 판정에 더욱 어려움을 겪었다. 마지막으로, 검색결과리스트중 상위 N 문서의 적합성 판정에 대한 중요성을 확인할 수 있었다.


The purpose of this study is to investigate what level of difference in precision would be significantly perceived by a human user of an information retrieval system. Not many researches have been conducted with regards to this issue in information retrieval field. Despite the non-significant results, there were several interesting findings in recognizing different levels of precision rates. The correctness of relevance task had little to do with the taken time for the task. In addition, the strong relationship between the subjects' topic familiarity and rate of correct judgments is one of the most interesting results in this study. It turned out that the subjects have more difficulty in a situation they have to judge between the two lists having more non-relevant documents than in a situation they do between the lists having more relevant documents. Finally, the serious influence from the first top N documents in a list for relevance judgment task has been confirmed.
