본 논문은 이상(李箱) 단편소설 기초 데이터셋과 이상 단편소설 감각 데이터셋의 설계·구축 과정을 소상히 소개하는 데에 그 목적이 있다. 이상 단편소설 13편을 대상으로 구축한 ‘이상 단편소설 기초 문학 데이터셋’과 연구자 주도로 텍스트 내 감각 정보를 레이블링한 ‘이상 단편소설 감각 데이터셋’을 중심으로, 데이터셋의 구조와 설계 의도 및 활용에 대해 서술하였다. 이상 단편소설 기초 데이터셋은 민음사와 소명출판 판본을 바탕으로 메타 데이터를 문장 단위로 레이블링한 기계 가독형 데이터로 구축되었다. 이상 단편소설 감각 데이터셋은 연구자가 설계한 감각 분류 모델에 기초하여 이상 단편소설에 나타난 감각 정보를 크게 신체 감각과 심리 감각으로 대별하고, 감각을 도합 4계층으로 세분화하여 문장 단위로 레이블링하였다. 구축한 데이터셋은 이상 단편소설 내 감각 양상에 대한 기계적 분석, 감정 분석 등 여타 분석 방법론을 수행하기 위한 실질적 기반이 되며, 나아가 멀리서 읽기의 가능성을 제공한다.
This paper aims to thoroughly introduce the design and construction processes of two datasets related to Yi Sang's short stories: the Yi Sang Short Story Basic Dataset and the Yi Sang Short Story Sense Dataset. Centered on 13 selected short stories, the Yi Sang Short Story Basic Dataset presents a machine-readable structure created through the annotation of meta-data at the sentence level, based on editions from Mineumsa and Somyeong Publishing. The Yi Sang Short Story Sense Dataset, constructed by the researcher, labels sensory information found within the texts, using a sensory classifi-cation model that categorizes perceptions broadly into physical and psychological senses. This model further subdivides sensory details into four hierarchical levels, enabling nuanced, sentence-level labeling. The constructed datasets serve as practical foundations for conducting computational analyses of sensory patterns in Yi Sang’s short stories, as well as for other analytical methodologies such as emotion analysis, and further provide the potential for distant reading.