인문사회(예술, 체육 포함) 분야의 구조적 용어사전 데이터베이스를 구축하기 위한 본 연구는 크게 사전의 구조 설계, 사전 데이터베이스 구축, 지식베이스 구축의 세 단계로 나누어진다.
1) 첫 번째 단계의 사전 구조 설계는 수집된 학술용어의 개념을 범주화하고 각 ...
인문사회(예술, 체육 포함) 분야의 구조적 용어사전 데이터베이스를 구축하기 위한 본 연구는 크게 사전의 구조 설계, 사전 데이터베이스 구축, 지식베이스 구축의 세 단계로 나누어진다.
1) 첫 번째 단계의 사전 구조 설계는 수집된 학술용어의 개념을 범주화하고 각 범주의 속성을 도출하여 용어를 구조적으로 정의할 수 있는 틀을 만드는 것이다.
⟶ 학술용어의 수집: 한국학술지인용색인(KCI) 논문 키워드, 경제인문사회연구회 소속 연구기관의 연구보고서 키워드, 한국역사용어 시소러스, 국회도서관 표준시소러스, 법원도서관 시소러스로부터 용어를 수집한다. 최초 수집한 약 22만 용어에서 중복 용어를 제외한 약 8만에서 10만 용어부터 최종적으로 사전 구축 대상 5.5만 여 중요 어휘를 추출한다.
⟶ 학술용어의 개념 추출: 분류이론과 선행연구에서 제시된 지식체계를 이용하여 최상위 수준의 개념을 설정하고, 이를 인문사회 분야의 기본개념 범주(또는 패싯)로 삼아 중하위 개념을 추출한다.
⟶ 학술용어 개념의 범주화: 개념의 체계를 정립하고 하위개념을 범주화하며, 개념 속성을 도출하고 명세화한다.
2) 두 번째 단계의 사전 구축은 범주화된 개념과 그 속성을 토대로 사전 구축기를 개발하고 사전 데이터베이스를 구축하는 것이다.
⟶ 학술용어의 범주별 분류: 중복 용어를 제외하고 용어의 정제 과정을 거쳐 추출된 사전 구축 대상 5.5만 여개의 용어를 범주별로 분류하며, 분류 결과에 대하여 최종적으로 전공별 자문 교수의 검증을 받는다.
⟶ 사전 구축기 개발: 사전의 구조에 대한 분석을 통해 웹상에서 공동 작업이 가능한 사전 구축기를 개발한다. 이때 개념 범주의 속성에 대한 관리가 용이하고 외부 반출이 가능하도록 사전 구축기를 설계한다. 연구보조원들은 사전 구축기가 제시하는 입력화면의 학술용어의 범주별 속성에 따라 용어 하나하나에 대한 속성 값을 입력함으로써 사전 데이터베이스를 구축해 나간다.
⟶ 용어 사전 데이터베이스 구축: 용어 사전 데이터베이스의 구축은 ‘용어선정->용어기술->동등관계설정->주제분야설정->범주설정->개념속성구축->검수’의 순서로 진행하는 것을 원칙으로 한다. 그러나 학술용어의 개념은 용어 간 관계 추가, 용어 자체의 개념 변화, 새로 생성되는 학술용어의 추가, 연구성과물과의 관계 추가 등에 따라 그 범위와 상태가 계속 변화한다. 따라서 전체적인 용어 품질 및 사전의 논리적 일관성을 유지하기 위하여 용어선정에서 검수에 이르는 일련의 순환 과정을 지속적으로 반복한다. 그리고 본 연구에서는 개념속성구축 과정에서 한국연구재단의 연구지원 사업을 통해 제작된 용어사전을 저작권 침해가 이루어지지 않는 범위 내에서 참조한다.
3) 세 번째 단계는 개념과 용어의 관계 유형을 상세화하고 이를 토대로 공리와 추론 규칙을 생성함으로써 데이터베이스를 지식베이스로 발전 시키는 것이다.
⟶ 개념 범주와 범주의 속성 간 연관관계 상세화: 특정 범주의 속성과 다른 범주의 속성을 연결하는 연관관계를 분석하여 그 유형을 상세화한다.
⟶ 용어의 계층관계 상세화: 용어의 계층관계는 특정 용어의 문자열이 다른 용어의 문자열에 완전히 포함될 때 이를 계층관계로 규정하는 조어적 기준과 용어가 갖는 의미로 판단하는 의미적 기준에 따라 규정할 수 있다. 본 연구에서는 의미적 기준에 따라 계층관계를 규정하는 것을 원칙으로 하며, 시소러스의 계층관계에서 적용하는 세 가지 유형의 의미적 계층관계, 즉 종속관계, 전체/부분 관계, 특정개념의 사례 관계를 토대로 다음과 같은 형식으로 상세화한다: [종속관계 -> "공권 includesSpecific/isA 형벌권"], [전체-부분관계 -> "피 containsSubstance 혈청"], [사례관계 -> "해(海) hasInstance 발틱해[--海]"]
⟶ 용어의 연관 관계 상세화: 2개 이상의 용어가 동등관계나 계층관계는 아니지만 개념적으로 서로 관련을 맺고 있을 경우가 있다. 시소러스나 온톨로지에 관한 선행연구에서 제시되는 용어의 연관관계 유형은 대체로 개념적, 물리적, 기능적, 공간적, 시간적 연관관계로 구성되며, 이는 랑가나단의 패싯(특성, 재료, 기능, 공간, 시간)에서 기인하는 것이다. 본 연구에서는 다섯 가지 유형의 연관관계를 기준으로 상세하게 명세화 함으로써, 의미 관계의 추론에 필요한 풍부한 관련성을 제공한다.
⟶ 공리 및 추론규칙 생성: 구조적 용어 사전 데이터베이스에 구축된 인문사회(체육, 예술 포함) 분야 학술용어 간에 부여된 계층관계와 연관관계의 술어를 토대로 가능한 공리를 도출하고 추론 규칙을 생성한다. 이 과정에서 관계 유형의 확장 가능성을 검토하고 또 필요가 있을 경우 보완하도록 한다.