
본문 바로가기 주메뉴 바로가기

ACOMS+ 및 학술지 리포지터리 설명회

  • 한국과학기술정보연구원(KISTI) 서울분원 대회의실(별관 3층)
  • 2024년 07월 03일(수) 13:30


검색어: 웹 검색, 검색결과: 61

본 논문은 정보검색 시스템의 사용자 질의어와 색인에 기반한 검색 과정에서 나타나는 중의성 해소를 위해 질의어 의미정보와 사용자 피드백을 사용하여 검색 성능을 향상시키는 방법을 소개한다. 의미 정보를 이용하여 질의어의 중의성을 해소하는 검색 과정은 검색 결과로서 의미적으로 무관한 많은 문서들을 배제할 수 있다. 이를 위해 검색의 색인이 되는 명사 중심의 의미범주를 기반으로 의미정보 지식베이스를 구축하고, 검색 문서들을 색인어와 해당 의미범주로 분류한다. 검색 과정에서는 사용자의 질의 의미 선택과 정답 문서에 대한 참조 행위를 웹 페이지의 순위 결정에 반영하여 검색 성능을 향상시킬 수 있다.


This paper proposes a technique for improving performance using word senses and user feedback in web information retrieval, compared with the retrieval based on ambiguous user query and index. Disambiguation using query word senses can eliminating the irrelevant pages from the search result. According to semantic categories of nouns which are used as index for retrieval, we build the word sense knowledge-base and categorize the web pages. It can improve the precision of retrieval system with user feedback deciding the query sense and information seeking behavior to pages.

백지연(전북대학교 일반대학원 기록관리학과) ; 오효정(전북대학교 문헌정보학과 부교수, 문화융복합아카이빙연구소 연구원) 2019, Vol.36, No.4, pp.183-205 https://doi.org/10.3743/KOSIM.2019.36.4.183

이용자의 정보요구를 파악하기 위한 다양한 방법 중 로그 분석 방법은 이용자의 실제 검색 행위를 사실적으로 반영하고, 대다수 이용자의 전반적인 이용행태를 분석할 수 있다. 이에 본 연구에서는 국가기록원 웹 포털서비스를 통해 입수된 대량의 질의로그 빅데이터를 기반으로 이용자의 정보요구를 파악하기 위해 1) 질의에 내포된 정보요구 유형별과 2) 검색결과로 제공한 기록 유형별 분석을 진행하였다. 분석에 활용한 질의로그는 국가기록원이 웹을 통해 검색서비스를 제공한 2007년부터 2018년 12월까지, 총 141개월 동안 수집된 월별 상위 100개 질의어 1,571,547개를 대상으로 하였다. 나아가 분석결과를 토대로 이용자 검색 만족도를 향상시킬 수 있는 개선방안을 제안하였다. 본 연구의 결과는 국가기록원 검색 서비스 개선 및 고도화를 위한 구체적이고 실질적 방안을 제시했다는 점에서 의의가 있다.


Among the various methods for identifying users’s information needs, Log analysis methods can realistically reflect the users’ actual search behavior and analyze the overall usage of most users. Based on the large quantity of query log big data obtained through the portal service of the National Archives of Korea, this study conducted an analysis by the information type and search result type in order to identify the users’ information needs. The Query log used in analysis were based on 1,571,547 query data collected over a total of 141 months from 2007 to December 2018, when the National Archives of Korea provided search services via the web. Furthermore, based on the analysis results, improvement methods were proposed to improve user search satisfaction. The results of this study could actually be used to improve and upgrade the National Archives of Korea search service.


본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.


This study compared and analyzed 15 CBMR (Content-based Music Retrieval) systems accessible on the web in terms of DB size and type, query type, access point, input and output type, and search functions, with reviewing features of music information and techniques used for transforming or transcribing of music sources, extracting and segmenting melodies, extracting and indexing features of music, and matching algorithms for CBMR systems. Application of text information retrieval techniques such as inverted indexing, N-gram indexing, Boolean search, truncation, keyword and phrase search, normalization, filtering, browsing, exact matching, similarity measure using edit distance, sorting, etc. to enhancing the CBMR; effort for increasing DB size and usability; and problems in extracting melodies, deleting stop notes in queries, and using solfege as pitch information were found as the results of analysis.

배희진(숭실대학교) ; 박소연(덕성여자대학교) ; 이준호(숭실대학교) ; 이진숙(숭실대학교) 2004, Vol.21, No.1, pp.173-186 https://doi.org/10.3743/KOSIM.2004.21.1.173

본 연구에서는 국내 주요 웹 검색 포탈인 네이버, 야후 코리아, 엠파스가 제공하는 웹 디렉토리들의 커버리지 및 커버리지 중복성을 분석하였다. 이를 위하여 본 연구는 웹 디렉토리에 등록된 사이트들의 수집 방법을 개발하고, 대분류 매핑, 중복 분류 및 참조 링크 고려와 같은 커버리지 및 커버리지 중복성 분석에 필요한 방법론을 제시하였다. 조사 결과, 참조 링크의 허용 여부가 웹 디렉토리의 커버리지에 매우 큰 영향을 미치며, 국내 웹 디렉토리들 사이의 커버리지 중복성이 매우 낮은 것으로 나타났다. 본 연구는 국내 웹 디렉토리들에 대한 이해를 넓히고, 웹 디렉토리들의 커버리지 및 커버리지 중복성 분석에 필요한 방법론을 제시함으로써, 웹 디렉토리에 관한 연구에 기여할 것으로 기대된다.


This study examines coverage and coverage overlap of the three major Korean web directories, Naver, Yahoo Korea, and Empas. This study also suggests a methodology for collecting and processing web sites provided by these web directories. A method for mapping main categories was developed. Each directory provided registered web pages in a slightly different way. Reference links had a significant influence on the coverage of each web directory. The overlap of pages among three directories was quite low. It is expected that this study could contribute to the field of web research by providing insights to how directories provide web pages and suggesting a methodology for the analysis of directory coverage.


인터넷 정보검색과정에서 가장 보편적으로 사용되고 있는 검색방법은 키워드 검색이다. 키워드 검색은 정확률과 재현율의 관점에서 여러가지 단점을 지니고 있다. 이러한 키워드 검색의 단점을 보완해 줄 수 있는 장치로서 다수의 웹 포털에서 디렉토리 검색서비스를 제공하고 있다. 검색포털에서 제공하고 있는 디렉토리 서비스는 포털별로 상이한 분류체계를 사용하는 이유로 이용자에게 불편을 주고 있으며, 이러한 불편의 해소를 위해 디렉토리 서비스간 통합검색을 제공하는 중개 게이트웨이의 구축필요성이 제기되고 있다. 이에 따라 이 연구에서는 네이버, 야후, 엠파스 등 국내 주요 포털의 디렉토리 서비스를 대상으로 통합검색을 제공하는 중개 게이트웨이의 모형을 구축하고 그 성능을 평가하였다.


The most widely used information searching method in the current internet environment is the keyword-based one, which has certain limitations in terms of precision and recall. Most major internet portals provide directory-based searching as a means to complement these limitations. However, that they adopt different classification schemes brings significant inconvenience to the users, and it consequently suggests a need to develop mapping gateway to provide cross-portal, or cross-directory information searching. In this context, this study attempts to develop a prototype system of intermediary gateway for integrated search, using the directory services of three major portals, Naver, Yahoo and Empas, and test its performance.


최근 다양한 주제 분야의 블로그가 이용자의 정보요구를 충족시켜주는 웹 정보원 중 하나로 활용되고 있다. 본 연구에서는 블로그 페이지의 검색 성능을 향상시키기 위하여 이용자가 부여한 태그 및 트랙백을 이용하여 블로그 페이지의 검색 실험을 수행하였다. 실험을 위해 4,908개의 블로그 페이지와 각 페이지에 트랙백으로 연결된 다른 블로그 페이지의 URL을 수집하였다. 검색 자질로 본문의 용어에 이용자 태그를 추가하였을 경우와 네트워크 중심성 값을 반영하였을 경우 모두 검색 성능이 향상되었고, 본문 용어와 이용자 태그를 검색 자질로 함께 사용하고 여기에 중심성 값을 반영하였을 경우 가장 좋은 성능을 보였다.


Blogs are now one of the major information resources on the web. The purpose of this study is to enhance the performance of blog retrieval by means of user assigned tags and trackback information. To this end, retrieval experiments were performed with a dataset of 4,908 blog pages together with their associated trackback URLs. In the experiments, text terms, user tags, and network centrality values based on trackbacks were variously combined as retrieval features. The experimental results showed that employing user tags and network centrality values as retrieval features in addition to text words could improve the performance of blog retrieval.

사공복희(전남대학교) 2003, Vol.20, No.3, pp.81-110 https://doi.org/10.3743/KOSIM.2003.20.3.081

웹기반 온라인목록의 이용자 인터페이스는 이용자에게 더욱 친근하게 개선되었는가. 웹기반 온라인목록이 제공하는 탐색관련 기능은 어떠한가. 이용자들은 웹기반 온라인목록을 이용하는 데 어려움은 없는가. 이용자들은 웹기반 온라인목록에 대하여 어떤 인식을 가지고 있는가. 이런 문제에 대한 답을 통하여 웹기반 온라인목록의 검색도구로서의 문제점을 파악하고 개선방안을 제시하였다. 실험연구를 수행하였으며, 30명의 탐색자가 실험에 참여하였다. 탐색자가 웹기반 온라인목록을 실제로 탐색하는 과정중에 보이는 행태를 분석하여 데이터를 입수하였고, 탐색 후 질문지를 통하여 시스템에 대한 인식을 측정하였다.


The primary questions addressed by this research are the followings : Has the interface of a Web-based OPAC been improved more user-friendly; How about its searching abilities; What difficulties have Web-based OPAC searchers experienced in using a Web OPAC; How do they perceive the system after use of it. Finding the answers of those questions the problems of a Web OPAC as a searching tool have been grasped and recommendations have been suggested in order to improve the system. An experiment was conducted and 30 university students performed 8 searching tasks. The searching behavior of Web OPAC searchers has been analyzed thoroughly. The data of their perceptions about the system was collected through a questionnaire after completing the tasks.


XML 웹 문서 포맷은 문헌 내에 내용뿐만 아니라 의미 있는 논리적인 구조 정보를 포함할 수 있어, 검색에서 문서의 내용 뿐만 아니라 구조로 접근하는 것을 제공한다. 그래서 본 연구의 목적은 XML 검색에 있어 내용 검색에 추가적인 요소로 사용된 구조적인 제한이 얼마나 유용한지를 실험하기 위해 내용만으로 검색한 결과와 내용과 구조적인 제한을 가지고 검색한 결과간의 성능을 비교하였다. 이 실험은 자체 개발된 단말노드 언어모델기반의 XML 검색시스템을 사용하였고 INEX 2005의 ad-hoc트랙에 참여하여 모든 실험방법과 INEX 2005의 실험 문헌 집단을 사용하였다.


XML documents format on the Web provides a mechanism to impose their content and logical structure information. Therefore, an XML processor provides access to their content and strucure. The purpose of this study is to investigate the usefulness of structural hints in the leaf node language model-based XML document retrieval. In order to this purpose, this experiment tested the performances of the leaf node language model-based XML retrieval system to compare the queries for a topic containing only content-only constraints and both content constrains and structure constraints. A newly designed and implemented leaf node language model-based XML retrieval system was used. And we participated in the ad-hoc track of INEX 2005 and conducted an experiment using a large-scale XML test collection provided by INEX 2005.


최근에 이르러 차세대 웹 아키텍처인 시멘틱 웹에 관한 연구와 투자에 대한 관심이 계속해서 증대되고 있다. 정보학적인 관점에서, 차세대 웹 아키텍처인 시멘틱 웹은 하나의 거대한 메타데이터 조직으로 볼 수 있다. 시멘틱 웹을 거대한 메타데이터 조직으로 볼 수 있는 가장 큰 이유는, 시멘틱 웹을 구축과정에서 가장 중요한 단계 중 하나가 웹 정보자원에 대한 정형화된 메타데이터를 작성하는 것이기 때문이며, 이용자는 메타데이터를 이용하여 보다 쉽게 자신이 원하는 정보를 찾을 수 있다. 본 논문에서는, 시멘틱 웹 환경 하에서 서로 다른 정보체계구조를 지닌 개방형 전자도서관간의 상호운영성을 제공하기 위하여 새로운 방식의 응용프로화일 메타데이터구조를 개발하였다. 새로운 방식의 응용프로화일 메타데이터구조를 토대로, 개방형도서관모델에서 서로 다른 형태의 대규모 메타데이터를 통합하기 위한 공동서지목록 자동생성 및 통합검색 알고리즘을 개발하였다.


Recently there has been a growing interest in the investigation and development of the next generation web - the Semantic Web. From the perspective of a information science, the next generation web - Semantic Web is a metadata initiative. It is reason that One of important stage of Semantic Web Construction is adding formal metadata that describes a Web resource's content and so people can find easy material using metadata. In this paper, We designed new application profile metadata architecture as a way to serve as interoperability between various open digital libraries using different information architecture in Semantic Web environment. Based on new application profile metadata architecture, we developed union catalog automatic generation and union search algorithm to integrate heterogeneous huge-scale metadata in open digital library.

이수영(미국 미시간대학교 정보대학원) 2007, Vol.24, No.2, pp.29-44 https://doi.org/10.3743/KOSIM.2007.24.2.029

본 연구는 왜 이용자들이 정보탐색에 많은 노력을 기울이지 않는가를 알아보기 위하여 교육심리학분야에서 개발된 정신적 노력에 관한 개념을 웹 검색엔진과 도서관시스템 정보탐색행위에 적용하여 보았다. 실험실 환경에서 학부학생 총 15명을 대상으로 탐색실험을 실시하여, 탐색전 설문조사, 탐색후 설문조사, 탐색후 인터뷰, 생각 소리내어 말하기 (think-aloud), 로그데이터를 통하여 데이터를 수집하였다. 연구결과, 이용자들은 웹 검색엔진을 도서관시스템에 비하여 휠씬 쉽다고 인지하며 스스로 탐색에 대한 높은 자신감을 가지고 있었다. 이러한 이용자성향은 이용자들이 웹 탐색에 도서관탐색때보다 더 적은 노력을 기울이는 것과 깊은 연관성을 가지고 있는 것으로 나타났다. 이용자들의 정신적 노력에 관한 개념은 결과적으로 이용자들의 정보탐색 행위와 경험을 설명하는데 매우 유용한 것으로 밝혀졌다.


The purpose of this study was to explore whether the concept of amount of invested mental effort (AIME) developed in the field of educational psychology can help explain why people put so little effort into online searching. In this experimental study, two information retrieval systems a web search engine and a university library system were used to make a comparison. The data were collected from 15 undergraduate students through background questionnaires, think-aloud protocols, search logs, post-search questionnaires, and post-task interviews. The findings indicate that perception of the webs easy-ness and high levels of self confidence in searching capability led the subjects to put less effort into web searching than they do into library system searching. In addition, the perceived difficulty of search task influenced the extent of mental effort invested. The AIME proved a useful framework for understanding search behavior and user experience for both web search engines and library systems.
