본 연구는 (1) 고유어·한자어·외래어의 음운론적 제약 탐색, (2) 고유어· 한자어·외래어 판단 조사, (3) 어종 판단 인식에 대한 통계적 문법 학습 모델 구현으로 진행한다.
-1단계: 고유어·한자어·외래어의 음운론적 제약 탐색
[표준국어대사전](2020년 9월)에 실린 명 ...
본 연구는 (1) 고유어·한자어·외래어의 음운론적 제약 탐색, (2) 고유어· 한자어·외래어 판단 조사, (3) 어종 판단 인식에 대한 통계적 문법 학습 모델 구현으로 진행한다.
-1단계: 고유어·한자어·외래어의 음운론적 제약 탐색
[표준국어대사전](2020년 9월)에 실린 명사를 대상으로, 고유어, 한자어, 외래어의 음운론적 제약을 탐색하고자 한다.
먼저, 고유어·한자어·외래어에서 두드러지는 음절구조를 탐색한다. 선행연구(안소진 2009, 마야 아타예바 2016, 배성봉·이광오 2019) 등에 따르면, 어종에 따라 단어를 구성하는 음절수와 음절구조가 상이하다는 것을 지적하였다. 이를 참고하여, 개별 어종의 음절수와 음절구조 유형을 조사한다. 그리고 이러한 음절 정보가 어종 간 변별에 얼마나 영향을 미칠 수 있을지를 통계적으로 예측해 보고자 한다.
다음으로 개별 어종에 따라 음소배열제약을 탐색한다. 가장 널리 쓰이는 Hayes & Wilson (2008) 모델을 기준 모델로 삼아, 각 어휘부에서 회피되는 연쇄를 제약으로 포착한다. 이 Hayes & Wilson (2008) 모델은 음운론적 위배 형태에 비적형성 정도를 수치로 부여하는 모델로, 문법을 구성하는 제약 및 가중치는 어휘부로부터 귀납적으로 학습된다.
그리고 학습된 제약이 고유어·한자어·외래어 판단에 얼마나 변별력이 있는지를 살펴본다. 예를 들어, 고유어 어휘부에서만 [모음] 연쇄를 회피하는 제약이 학습되었다고 가정하자. 이 때, [모음] 연쇄 제약이 고유어와 다른 어종의 변별에 영향을 주는지를 판단하기 위해서는 한자어와 외래어의 [모음] 연쇄가 고유어 어휘부에 비해서 얼마나 더 많은지를 파악할 필요가 있다. 본 연구는 자료 분류에 쓰이는 통계적 기법(예: 로지스틱 회귀분석, 의사결정나무 모델)을 이용하여, 개별 어휘부 제약의 변별력을 부여한다.
한편, 어종을 미리 정하지 않고 소리 연쇄의 차이를 바탕으로 어종을 찾아가는 분류 방식도 시도할 예정이다. 만약, 어종에 대한 체계적인 문법이 실재한다면 언어 습득자는 의식적인 교육이 없이도 어종에 대한 단서를 찾아갈 수 있어야 한다. 이러한 문제 의식을 바탕으로 일부 연구(Shih 2017, Morita 2018, Morita & O’Donnell 2020)는 군집화 기법(예: 계층적 군집화, 베이지안 학습)을 도입하여, 소리 연쇄의 특징을 기준으로 어종을 나누었다. 이와 같은 연구 방법을 본 연구에 적용하여, 선제적으로 탐색한 음운론적 제약을 보완하고자 한다.
-2단계: 고유어·한자어·외래어의 판단 조사
한국어 화자가 [고유어]와 [외래어], [고유어]와 [한자어], [한자어]와 [외래어] 부류를 판단하는 조사를 각각 수행한다. 조사 참가자는 한자어의 학습 시작 시기와 학습 기간을 고려하여 10대, 20-30대, 50-60대로 나누어 구성할 예정이다.
실험 자극은 (1) 음절수 및 음절구조 조건과 (2) 제약 위배[비위배형, 고유어 제약, 한자어 제약, 외래어 제약]를 조합하여 구성한다. 실험 절차는 참가자가 실험 자극을 듣고 단어의 어종을 양자택일한 후, 비단어가 해당 어종에 부합하는 정도를 1-7점 점수로 매기도록 한다. 이러한 절차는 온라인 인지 실험 프로그램인 ‘jsPsych’으로 구현할 예정이다.
비단어에 대한 어종 판단 비율과 점수를 분석하고, 어종 변별력이 큰 제약과 약한 제약을 밝힌다. 그리고 이 결과가 1단계에서 사전을 대상으로 진행한 조사 결과와 어떤 점이 같고, 어떤 점이 다른지를 밝힌다.
-3단계: 어종 판단 인식에 대한 통계적 문법 학습 모델 구현
조사한 어종 판단 인식을 통계적 문법 학습 모델로 형식화하고자 한다. 이를 위해, ‘하위 어휘부 음소배열제약 모델(Sublexical Phonotactic Model; Becker & Allen 2015, Gouskova et al. 2015, Becker & Gouskova 2016)’부터 검토할 예정이다. 이 모델은 어휘 종류별 음소배열제약을 학습하는 방식을 제안하였으며, 본 연구가 추구하는 바와 일치한다. 그러나 해당 모델은 러시아어 등의 일부 굴절어의 활용에 대해서만 제한적으로 점검되었다. 본 연구는 ‘하위 어휘부 음소배열제약 모델’의 원리를 바탕으로, 한국어 어종 판단에 필요한 학습 기제를 탐색하고 적절한 음소배열제약 학습 모델을 제안하고자 한다.