연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

휴먼 오피니언 자동 분류시스템 구현을 위한 언어학적 의미·구문 패턴 모형 연구
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 학제간융합연구사업 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2010-371-A00009
선정년도 2010 년
연구기간 1 년 (2010년 09월 01일 ~ 2011년 08월 31일)
연구책임자 남지순
연구수행기관 한국외국어대학교
과제진행현황 종료
공동연구원 현황 박세영(경북대학교)
천승미(서울디지털대학교)
이상조(경북대학교)
박성배(경북대학교)
고승희(한국외국어대학교(용인캠퍼스))
과제신청시 연구개요
  • 연구목표
  • 본 연구의 연구목표는 인터넷 상의 휴먼 오피니언 분류 시스템을 위한 언어학적 의미·구문 패턴 모형을 개발하는 데에 있다. 현대 사회에서 인터넷이 보급되면서 웹에 공개된 의견 정보를 활용한 의사 결정 현상이 증가하면서 휴먼 오피니언(Human Opinion)에 대한 자동 인식의 중요성이 강조되고 있다. 2000명 이상의 성인 미국인을 대상으로 한 여론 조사[comScore]에 따르면, 식당, 호텔, 여행 등과 같은 서비스에 대한 구매 결정시, 사용자들의 73%에서 87%가 서비스에 대한 평가(review) 정보가 중요한 영향을 미친다고 응답하고 있으며, 문화상품의 소비자들도 영화나 콘서트 등에 대한 관람자들의 개인적인 리뷰 정보를 참고하여 선택을 결정하는 경우가 점점 증가하는 추세이다. 그렇기 때문에 온라인상에서 좋은 입담(word-of-mouth)을 얻는 것이 영화 흥행에 유리하다는 주장도 제기된 바 있다[Duan et al.]. 이와 같이 휴먼 오피니언 문서 및 그 문장에 대한 자동 추출(extraction)과 분류(classification)에 대한 시장 수요가 증가하고 있으며 이를 위한 관련 연구들이 오피니언 마이닝(opinion mining)이라는 연구 분야로 명명되고 있다. 그러나 기존의 연구들을 보면, 언어학과 컴퓨터공학의 본격적인 융합 연구 성과를 찾아보기 어려운데, 이는 언어학적 연구들이 일반적으로 이론적인 측면에 집중되어 있어 그 연구 성과가 실용적 시스템을 위한 언어자원으로서는 부적절하기 때문이라 할 수 있다(예: Dixon 2004, Levin 1993, 김정남 2001, 필옥덕 2004 등). 다른 한편으로 컴퓨터공학 분야의 연구들은 제한된 언어학적 속성에 기반하여 일반적으로 통계적인 학습 방법론에 의존하려는 경향을 보이기 때문에 정확한 분석을 하는데 장애물이 된다고 진단할 수 있다(예: Turney 2002, Hu et al. 2004, Hatzivassiloglou et al. 1997, 명재석 외 2008, 육상근 2009 등). 본 연구에서는 언어학과 전산공학의 융합적인 연구를 통하여 기존의 오피니언 마이닝 영역에서 소홀하게 다루어졌던 언어학적 통사ㆍ의미 특성들을 체계적으로 분석하고 이를 유한그래프 문법 LGG로 기술함으로써 기존의 통계적 방식의 오피니언 자동 분석 시스템에서는 처리하지 못하였던 보다 복잡한 언어 패턴의 오피니언 문장들을 다양한 방식으로 추출하고 분류하는 것을 가능하게 한다. 따라서 기존의 연구 성과에서 제시하는 긍정(+)과 부정(-)이라는 양 극성(polarity)의 단순한 분류를 다양한 층위의 오피니언 문서 유형으로 분류할 뿐아니라 단순한 키워드 중심의 통계 학습이 아닌 통사적 구문 정보와 의미적 결합 관계를 고려한 보다 향상된 성능을 가진 언어 패턴 기반 휴먼 오피니언 연구를 수행할 예정이다.
  • 연구요약
  • <1>연구 목표 : 인터넷 상의 휴먼 오피니언 분류 시스템을 위한 언어학적 의미·구문 패턴 모형의 개발
    <2> 연구 내용 : [1] 휴먼 오피니언 극성 어휘 의미 사전의 구축 - 온라인 오피니언 문서의 극성(polarity)을 결정하는 형용사, 동사, 명사, 부사와 같은 내용어(content words) 범주에서 오피니언 극성을 나타내는 어휘들의 어휘 의미 사전을 1,000개 이상 구축한다(긍정어의 예: 대박, 감동, 최고, 왕짱, 걸작, 충격, 죽인다, 쩐다, 대단하다, 탁월하다 등; 부정어의 예: 분노, 대실망, 졸작, 과대평가됨, 유치하다, 아쉽다, 난잡하다, 재미없다, 조잡하다, 지루하다 등). 일반적인 기존 연구에서 최고 100여개가 넘지 않는 키워드에 국한되어 통계적 학습이 진행되는 되는 현상에 비교할 때 본 연구의 어휘 사전의 비중을 가늠할 수 있다. [2]의미 분류를 활용한 통사 구조적 특징 추출 - 부정어구(negation)에 의해 의미 극성이 변화하는 현상이나(예: 질리지 않음, 절대 유치하지 않는), 형용사와 함께 수반된 명사구에 의해 의미 극성이 결정되는 현상(예: 필요하다(속도감이 필요하다 {-}/ 이런 영화가 필요하다{+}) 등), 조건문(Condition)에 의해 반대 의미 극성을 보이는 현상(예: 후회하다{-}/ 안보면 후회할 것 같은 영화 {+} 등), 비교구문(Comparison) 형식으로 표현되어 둘 중 하나만이 올바른 의미 극성인 현상(예: 프랜스포머CG는 훌륭하지만, 스토리는 너무 진부하다 등)에 대한 체계적인 패턴 분석을 수행한다. [3] LGG 기반 언어 패턴 모형 개발 - 특정 도메인의 웹 문서에서 추출된 휴먼 오피니언의 어휘ㆍ구문적 패턴을 유한 그래프 문법인 LGG 방법론에 기반하여 기술하고 이를 부트스트랩(bootstrapping) 방식으로 보완 발전시켜 다른 도메인으로 확장될 수 있는 언어학적 패턴 모형을 구현한다. [4] 휴먼 오피니언 분류를 위한 기계학습 알고리즘 연구 -휴먼 오피니언의 자질 추출 및 정량화 방법에 대한 연구를 수행하여 LGG의 그래프 구조를 고려한 기계학습 알고리즘을 연구한다. [5] 언어 패턴 모형을 이용한 오피니언 자동 분류 통합 시스템 개발 - 자질 정보에 대한 다양한 조합에 따른 휴먼 오피니언 자동 추출 및 인식 시스템 모델을 구축하여 세분화된 극성 정보를 분류할 수 있는 통합 시스템 개발한다. <3> 연구 방법 : [1] 언어 패턴 모형 개발 및 구축 단계에서 사용자의 요구사항을 지속적으로 반영하는 Fast Prototyping 개발 방식 채택 - 언어 패턴 기술 단계에서 컴퓨터공학 전문가 그룹의 요구사항 및 전문성 반영하고 시스템 설계 단계에서 언어학 전문가 그룹의 요구 사항 및 전문성 반영한다. [2] LGG에 대한 기술과 경험을 가진 유럽의 전문가 그룹과 공동으로 연구 추진 - 유럽의 연구 그룹 책임자와 전문가를 초청하여 다양한 언어들의 어휘, 통사, 의미적 현상들에 대하여 워크샵을 개최하고 LGG의 효율적인 구축을 위하여 개발된 UNITEX의 한국어처리 모듈 개발에 조언을 얻어서 한국어처리 방식이 세계어와 국제적 호환성 및 표준성을 가질 수 있도록 한다. [3] 연구 결과에 대한 언어학 및 시스템적 검증 및 확장 - 온라인 오피니언 문서에 기반하여 구축된 오피니언 어휘의미사전에 대하여 전자사전 및 다양한 언어 자원을 통해 이를 검증하고 확장한다. [4] 부트스트랩(bootstrapping) 방식의 언어학적 기술 확장 및 도메인의 확장 - 한정된 도메인에서 실현될 수 있는 언어 패턴은 실제로는 유한하므로 현실적인 문맥, 연어 등의 언어 현실을 기술하는 데 부트스트랩 방식을 적용한다. <4> 연구 결과의 활용 : [1] 온라인 상품 추천 시스템에의 활용 [2] 정치ㆍ사회 정책 등에 대한 여론 조사에의 활용 [3] 엔터테인먼트 콘텐츠에 대한 선호도 조사에 활용 [4] 미래의 언어학과 전산학의 융합적 연구를 위한 실제적인 모델의 기능
  • 한글키워드
  • 다층화된 기계학습모델,언어학적 패턴,휴먼 오피니언,어휘의미 사전,자동 분류시스템,통사구문 정보,유한 그래프 문법
  • 영문키워드
  • Milti-level Machine Learning Model,Syntactic Information,Automatic Classification,Linguistic Pattern,Semantic Lexicon,Human Opinion,Finite Graph Grammr
결과보고시 연구요약문
  • 국문
  • 연구의 목표는 인터넷 상의 휴먼 오피니언 분류 시스템을 위한 언어학적 의미·구문 패턴 모형을 개발하는 것이다. 현대 사회에서 인터넷이 보급되면서 휴먼 오피니언 문서 및 그 문장에 대한 자동 추출(extraction)과 분류(classification)에 대한 시장 수요가 증가하고 있으며 이를 위한 관련 연구들이 오피니언 마이닝(opinion mining)이라는 연구 분야로 명명되고 있다. 기존의 연구들에서 언어학과 컴퓨터공학의 본격적인 융합 연구 성과를 찾아보기 어렵다. 이는 언어학적 연구들이 일반적으로 이론적인 측면에 집중되어 있어 그 연구 성과가 실용적 시스템을 위한 언어자원으로서는 부적절한 측면이 있기 때문이다(예: Dixon 2004, Levin 1993, 김정남 2001 등). 다른 한편으로 컴퓨터공학 분야의 연구들은 제한된 언어학적 속성에 기반하여 통계적인 학습 방법론에 의존하기 때문에 성능을 향상 시키는데 한계가 있다(예: Turney 2002, Hu et al. 2004, Hatzivassiloglou et al. 1997, 명재석 외 2008, 육상근 2009 등). 본 연구에서는 언어학과 전산공학의 융합적인 연구를 통하여 기존의 오피니언 마이닝 영역에서 소홀하게 다루어졌던 언어학적 통사ㆍ의미 특성들을 체계적으로 분석하고 이를 유한그래프 문법 LGG로 기술함으로써 기존의 통계적 방식의 오피니언 자동 분석 시스템에서는 처리하지 못하였던 보다 복잡한 언어 패턴의 오피니언 문장들을 다양한 방식으로 추출하고 분류하는 것을 가능하게 하였다.
    연구 결과 언어학적 성과로써 3,000개 이상 어휘에 대한 극성 사전을 구축하였고, 또한 당초 계획 대비 1,000개 많은 4,000개 구문 패턴을 구축하였다. 극성 사전의 어휘들은 강조긍정, 긍정, 중립, 부정, 강조부정으로 분류되어 기존의 긍정과 부정이라는 양 극성의 단순한 분류를 다양한 층위로 구분하는 것이 가능하다. 한편, 구축된 구문 패턴을 이용하여 문맥에 대한 이해를 요구하는 오피니언 문장에 대한 극성을 분류할 수 있다. 구문 패턴 구축 시 유한 문법 그래프(local grammar graph)를 활용함으로써 그 자체로 자동으로 극성을 판별하는 분류기가 된다. 맛집에 대한 5,700개 오피니언 문장을 대상으로 실험한 결과 59%의 재현율과 82.9%의 정확률을 얻을 수 있었다. 도메인 의존적 텍스트에 대한 초기 결과값으로, 이는 다음과 같은 컴퓨터공학적 성과를 통해 향상될 수 있었다. 즉 극성 사전 및 구문 패턴을 활용한 극성 분류 모델을 개발하여 입력 문장으로부터 극성 사전 및 구문 패턴을 이용하여 식별되는 어휘들을 자질 정보로 추출하고, 추출된 자질 정보와 극성 분류 값을 이용한 기계학습을 통해 극성 분류 모델을 개발하였다. 극성 분류 모델로써 기계학습 분야에서 널리 활용되고 있는 결정트리(decision tree)와 SVM(support vector machine)을 이용하였다. 실험 결과, 결정트리를 이용하여 69% 재현율을 얻을 수 있었고, SVM을 통해 79%의 재현율을 얻을 수 있었다. 이러한 결과는 유한 문법 그래프를 극성 분류 모델로 활용한 결과에 비해 성능이 10~20% 정도 향상된 것이다. 이와 같이 극성 어휘 사전 및 구문 패턴을 컴퓨터공학적 분류 모델에 적용함으로써 성공적인 극성 분류 모델 개발의 가능성을 보일 수 있었으며, 이러한 방법론의 적용을 통해 향후 그 효율성을 빠르게 향상시킬 수 있을 것으로 기대된다.
    본 연구의 결과에 대한 활용으로써 온라인 상품 추천 시스템 개발, 정치ㆍ사회 정책 등에 대한 여론 조사, 그리고 엔터테인먼트 콘텐츠에 대한 선호도 조사에 적용할 수 있을 것으로 기대한다. 기술적인 측면에서는 언어의 무한성 문제를 유한적 문법 및 어휘 문법 사전 구축을 통한 해결 가능성을 보였고, 언어학적 지식을 적용하여 컴퓨터공학적 극성 분류 모델을 개발하였다는 의의가 있다. 특히 본 연구는 미래의 언어학과 전산학의 융합적 연구를 위한 실제적인 모델로써의 역할을 할 것으로 기대된다.
  • 영문
  • This research aims at developing semantic and syntactic patterns required for implementing automatic classification systems of human opinion in online web documents. Current studies, named Opinion Mining (OM), have been rather relied on statistic engineering methods by using few stereotypical seed words for determining opinion polarity, therefore it was hard to expect a high-quality classification. Meanwhile, linguistic researches being purely oriented to theoretical issues, have been far from being applied in implementation of real world system. In this regard, our approach is significant, since it is based on a serious cooperation between a linguistic research team and a computer science research group. In this research, we constructed a polarity-based electronic dictionary which covers more than 3,000 opinion words classified according to semantic features as well as polarity degree properties. And then, about 4,000 syntactic patterns that can reverse the polarity of opinion words such as 'negative sequences', 'adverbs of degree' or 'concessive clauses' have been described and formalized by means of LGG(Local-Grammar Graph) formalism (Gross 1997). The first result we have obtained by applying our LGGs recognizing lexico-syntactic patterns to a corpus of restaurant reviews could be elaborated by means of computational models we used in this research: decision trees and support vector machine models. This bootstrapping approach we adopted in this research turns out quite adequate to this task, since it is strongly based on high-quality linguistic resources. The result we propose in this research might be served as an important case study in opinion mining and extraction researches, performed on the basis of the cooperation between linguistic and computer science teams. Moreover, it will be possible to extend the current research to the other domains such as politic opinion survey or social opinion extraction as well.
연구결과보고서
  • 초록
  • 연구의 목표는 인터넷 상의 휴먼 오피니언 분류 시스템을 위한 언어학적 의미·구문 패턴 모형을 개발하는 것이다. 현대 사회에서 인터넷이 보급되면서 휴먼 오피니언 문서 및 그 문장에 대한 자동 추출(extraction)과 분류(classification)에 대한 시장 수요가 증가하고 있으며 이를 위한 관련 연구들이 오피니언 마이닝(opinion mining)이라는 연구 분야로 명명되고 있다. 본 연구에서는 언어학과 전산공학의 융합적인 연구를 통하여 기존의 오피니언 마이닝 영역에서 소홀하게 다루어졌던 언어학적 통사ㆍ의미 특성들을 체계적으로 분석하고 이를 유한그래프 문법 LGG로 기술함으로써 기존의 통계적 방식의 오피니언 자동 분석 시스템에서는 처리하지 못하였던 보다 복잡한 언어 패턴의 오피니언 문장들을 다양한 방식으로 추출하고 분류하는 것을 가능하게 하였다. 연구 결과 언어학적 성과로써 3,000개 이상 어휘에 대한 극성 사전을 구축하였고, 또한 당초 계획 대비 1,000개 많은 4,000개 구문 패턴을 구축하였다. 극성 사전의 어휘들은 강조긍정, 긍정, 중립, 부정, 강조부정으로 분류되어 기존의 긍정과 부정이라는 양 극성의 단순한 분류를 다양한 층위로 구분하는 것이 가능하다. 한편, 구축된 구문 패턴을 이용하여 문맥에 대한 이해를 요구하는 오피니언 문장에 대한 극성을 분류할 수 있다. 구문 패턴 구축 시 유한 문법 그래프(local grammar graph)를 활용함으로써 그 자체로 자동으로 극성을 판별하는 분류기가 되었다. 맛집에 대한 5,700개 오피니언 문장을 대상으로 실험한 결과 59%의 재현율과 82.9%의 정확률을 얻을 수 있었다. 도메인 의존적 텍스트에 대한 초기 결과값으로, 이는 다음과 같은 컴퓨터공학적 성과를 통해 향상될 수 있었다. 즉 극성 사전 및 구문 패턴을 활용한 극성 분류 모델을 개발하여 입력 문장으로부터 극성 사전 및 구문 패턴을 이용하여 식별되는 어휘들을 자질 정보로 추출하고, 추출된 자질 정보와 극성 분류 값을 이용한 기계학습을 통해 극성 분류 모델을 개발하였다. 극성 분류 모델로써 기계학습 분야에서 널리 활용되고 있는 결정트리(decision tree)와 SVM(support vector machine)을 이용하였다. 실험 결과, 결정트리를 이용하여 69% 재현율을 얻을 수 있었고, SVM을 통해 79%의 재현율을 얻을 수 있었다. 이러한 결과는 유한 문법 그래프를 극성 분류 모델로 활용한 결과에 비해 성능이 10~20% 정도 향상된 것이다. 이와 같이 극성 어휘 사전 및 구문 패턴을 컴퓨터공학적 분류 모델에 적용함으로써 성공적인 극성 분류 모델 개발의 가능성을 보일 수 있었으며, 이러한 방법론의 적용을 통해 향후 그 효율성을 빠르게 향상시킬 수 있을 것으로 기대된다.
  • 연구결과 및 활용방안
  • 본 연구의 결과에 대한 활용으로써 온라인 상품 추천 시스템 개발, 정치ㆍ사회 정책 등에 대한 여론 조사, 그리고 엔터테인먼트 콘텐츠에 대한 선호도 조사에 적용할 수 있을 것으로 기대한다. 기술적인 측면에서는 언어의 무한성 문제를 유한적 문법 및 어휘 문법 사전 구축을 통한 해결 가능성을 보였고, 언어학적 지식을 적용하여 컴퓨터공학적 극성 분류 모델을 개발하였다는 의의가 있다. 특히 본 연구는 미래의 언어학과 전산학의 융합적 연구를 위한 실제적인 모델로써의 역할을 할 것으로 기대된다.
  • 색인어
  • 휴먼 오피니언, 의미 극성, 극성 분류, 긍정어, 부정어, 극성 사전, 통사 패턴, LGG모델, 결정 트리, SVM모델, 부트스트랩 모델, 리뷰 문서
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력