연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

실용적인 오피니언 마이닝을 위한 목적지향 감성 사전 구축방법론
Purpose-driven Sentiment Lexicon Construction Methodology for Practical Opinion Mining
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 중견연구자지원사업 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2013S1A5A2A01017304
선정년도 2013 년
연구기간 1 년 (2013년 05월 01일 ~ 2014년 04월 30일)
연구책임자 김남규
연구수행기관 국민대학교
과제진행현황 종료
과제신청시 연구개요
  • 연구목표
  • 최근 IT 기반 서비스의 확대로 인해 생성, 공유, 저장되는 데이터의 양은 매우 빠른 속도로 증가하고 있으며, 이러한 현상은 데이터의 양 자체가 문제의 일부분이 되는 빅데이터(Big Data) 분석 기술에 대한 수요와 관심을 증대시키고 있다. 이처럼 빅데이터 기술에 관해 관심이 집중되는 원인 중 하나는 다양한 소셜미디어를 통해 유통되는 비정형 데이터의 양이 급증한 것에서 찾을 수 있다. 특히 트위터와 페이스북 등을 통해 유통되는 텍스트 데이터는, 풍부한 정보나 의견을 거의 실시간으로 표현하고 있다는 특징으로 인해 많은 연구자들의 관심을 모으고 있다.

    텍스트 형태의 비정형 빅데이터에 대한 분석 기술 중 최근 학계와 업계에서 가장 활발하게 연구되고 있는 분야로 오피니언 마이닝(Opinion Mining)을 들 수 있다. 오피니언 마이닝은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 오피니언 마이닝 분석은 문서, 문장, 또는 속성을 대상으로 수행되며, 세 가지 수준의 분석 모두 기본적으로 문서의 최소 단위인 각 어휘의 감성 극성을 기본으로 이루어진다. 즉 주요 어휘의 감성 극성을 미리 긍정 또는 부정으로 정의하여 감성 사전(Sentiment Lexicon)을 구축한 뒤, 긍정/부정 어휘의 활용 빈도에 따라 문서, 문장, 속성을 긍정 또는 부정으로 분류하게 된다. 이는 양질의 감성 사전 없이는 오피니언 마이닝 분석 결과의 품질을 보장할 수 없으며, 오피니언 마이닝의 정확도를 향상시키기 위해서는 우선 양질의 감성 사전을 체계적이고 효과적으로 구축하기 위한 방안에 대한 연구가 반드시 선행되어야 함을 의미한다.

    감성 사전은 어휘의 범위에 따라 범용 감성 사전과 분야별 감성 사전으로 구분되며, 기존의 감성 사전 구축 방안은 크게 사전기반 접근법과 말뭉치기반 접근법으로 분류될 수 있다. 하지만 이러한 전통적인 감성 사전 구축 방법론은 하나의 어휘는 하나의 감성 값을 갖는다는 경직된 가정에 근거하고 있으므로, 동일한 어휘라도 사용되는 상황이나 목적에 따라 상이한 감성 값을 갖는 실제 상황을 정확하게 설명하지 못한다는 근원적 한계를 갖는다. 예를 들어 외환 시장에서 “고환율”이라는 어휘의 경우 달러의 매도를 희망하고 있는 사람에게는 긍정적으로 작용하는 반면 매수를 희망하는 사람에게는 부정적으로 작용할 수 있는 것이다. 이러한 현상은 하나의 어휘에 하나의 감성 값만을 부여하는 기존의 감성 사전 구축 방법론이 본질적 한계를 가지므로, 완전히 새로운 관점의 감성 사전 구축 방안이 필요함을 나타내고 있다.

    이처럼 기존의 감성 사전 구축 방법론이 갖는 한계를 극복하기 위해 본 연구에서는 목적지향 감성 사전 구축 방안을 제시하고자 한다. 즉 어휘의 감성 값은 동일한 분야 내에서도 해당 어휘를 바라보는 관점에 따라 상이하게 나타날 수 있다는 특징을 인지하고, 분석 목적에 미치는 영향의 관점에서 어휘의 감성 값을 도출한 감성 사전을 구축하고자 한다. Bing Liu는 최근 저서에서 동일한 글이라 하더라도 읽는 사람의 관점에 따라 긍정 또는 부정으로 상이하게 해석되는 현상은 아직 연구된 바가 없는 매우 중요하고 도전적인 이슈라고 밝힌 바 있다. 본 연구에서는 이러한 이슈의 해결을 위해 동일한 어휘라도 사용되는 상황이나 목적에 따라 상이한 감성 값을 갖는 목적지향 감성 사전 구축 방안을 제안하고자 한다. 이와 같이 분석의 목적을 명확히 하고 분석 목적에 특화된 감성 사전을 구축함으로써, 궁극적으로 해당 감성 사전을 사용한 오피니언 마이닝 결과의 품질을 더욱 향상시킬 수 있을 것으로 기대된다. 본 연구의 세부 연구 목적은 다음과 같이 요약된다. i)분석 목적에 특화된 감성 사전을 구축함으로써 오피니언 마이닝 결과의 품질을 향상시킨다. ii)문서의 감성 판별 방법론의 고도화를 통해 분석 결과의 정확도를 향상시킨다. iii)제안된 감성사전 구축 방법론을 활용한 실제 성공 사례(Case1: 주가지수 등락 예측, Case2: 영화리뷰 평점 예측)를 개발한다.
  • 기대효과
  • 최근 다양한 분야에서 오피니언 마이닝을 통해 창출한 의미 있는 성과에도 불구하고, 여전히 그 정확성 및 실용성에 대해서는 회의적 시각이 다수 존재한다. 이러한 현상의 주요 원인 중 일부는, 모든 목적에 활용될 수 있는 범용 감성 사전을 구축하고 이를 기반으로 모든 분야의 감성 분석을 수행하고자 하는 One-Technique-Fit-For-All 접근법의 무리한 가정에서 찾을 수 있다. 즉 전통적인 감성 사전 구축 방법론은 하나의 어휘는 하나의 감성 값을 갖는다는 경직된 가정에 근거하고 있으므로, 동일한 어휘라도 사용되는 상황이나 목적에 따라 상이한 감성 값을 갖는 실제 상황을 정확하게 설명하지 못한다는 근원적 한계를 갖는다. 본 연구는 이러한 경직된 가정의 한계를 인지하고, 분석 목적에 따라 특화된 감성 사전을 구축하여 궁극적으로 오피니언 마이닝 분석 결과의 품질과 실용성을 향상시키는 것을 목적으로 한다.

    사회적/실무적 측면에서 볼 때, 본 연구는 오피니언 마이닝에 대한 긍정적 인식을 확산시킴으로써 해당 방법론을 통해 다양한 문제를 해결하기 위한 관심과 투자를 더욱 증대시킬 수 있을 것으로 기대한다. 또한 본 연구는 각 분야마다 분석 목적에 따라 특화된 감성 사전을 구축할 것을 제안하고 있기 때문에, 본 연구의 성과가 입증될 경우 다양한 분야에서 크고 작은 규모의 감성 사전을 구축하려는 시도가 활발하게 이루어질 것으로 기대한다. 특히 이미 많은 업체들이 SNS에서 유통되는 방대한 데이터에 근거하여 감성 분석 컨설팅을 수행하고 있다는 현실을 감안할 때, 체계적 방법론에 따라 구축된 양질의 감성 사전은 빅데이터 분석 관련 시장의 활성화 및 분석 신뢰성 제고에 충분히 기여할 수 있을 것으로 예상된다.

    하지만 위의 실무적 성과를 얻기 위해서는 감성 사전 구축 및 감성 극성 도출을 위한 세부 과정에 대한 추가 고찰이 이루어져야 한다. 이는 곧 본 연구 성과가 실무적 기여로 이어지기 위해서는 매우 다양한 관점에서의 후속 연구가 필요하며, 이러한 측면은 본 연구의 학문적 기여로 평가될 수 있다. 구체적으로는 분석 대상 문서와 목적 변수를 통합하는 과정, 감성 사전 구축 단계에서 적절한 임계치를 설정하는 과정, 문서의 감성 값을 취합하여 예측 단위의 감성 극성을 도출하는 과정, 그리고 다양한 방법론의 성능을 객관적으로 평가하기 위한 Test Bed의 설계 등이 본 연구 성과의 실무적 기여를 위해 반드시 후속 연구에서 다루어져야 할 내용이다.

    본 연구책임자는 본인이 속한 대학교의 대학원에서 데이터 마이닝 과목과 온톨로지 과목을 강의하고 있으며, 최근 빅데이터 분석에 대한 관심을 반영하듯 매년 많은 수의 수강생이 해당 강좌를 수강하고 있다. 이들 중 실제 데이터에 대한 분석을 다루는 Term Project를 성공적으로 수행한 학생들의 경우, 졸업 후 한국특허정보원, Saltlux, WIPS 등 데이터 분석을 핵심 역량으로 하는 기관에 소속되어 Data Scientist로 성장하기 위한 과정을 밟아가고 있다. 본 연구팀에 속한 대학원생 6인 역시 텍스트 마이닝, 온톨로지 설계, 오피니언 마이닝 등의 주제에 관심을 갖고 꾸준히 연구를 수행하고 있으며, 본 연구과제 수행을 통해 다양한 데이터 분석 도구의 활용 능력을 배양하고 최신 오피니언 마이닝 방법론을 체화할 수 있을 것으로 기대된다. 이를 통해 현장의 문제를 해결할 수 있는 실무형 인재로 성장함과 동시에 각자의 연구 분야에서 질적 향상을 이룩함으로써, 연구의 결과가 교육에 환류되는 선순환 효과를 가져올 수 있을 것으로 기대된다.
  • 연구요약
  • 본 연구의 목표를 달성하기 위한 전체 과정은 다음과 같다. (i) 첫 단계에서는 원본 문서와 Label Data가 통합되며, 어휘를 토큰으로 분리하고 품사를 태깅하는 형태소 분석이 수행된다. 이렇게 정제된 문서는 학습 데이터와 검증 데이터로 분할된다. (ii) 두 번째 단계는 Text Mining을 통해 학습 데이터로부터 주요 감성 어휘를 추출한다. 즉 긍정/부정별 주요 Unigram과 Bigram을 도출하고 이를 통합하여 하나의 Lexicon을 생성한다. (iii) 마지막 단계에서는 목적지향 감성 사전을 구축하고 이를 기반으로 분석 대상 문서에 대한 감성 극성을 예측하며, 그 정확도에 대한 성능 평가를 수행한다. 예측 프로세스는 각 문서의 감성 값을 예측하는 과정과 각 문서의 감성 값을 취합하여 예측 단위별 감성 극성을 예측하는 과정으로 세분화된다.

    본 연구 모형은 예측력 향상을 위해, 연구 진행 과정에서 다음의 방향으로 보다 확장될 수 있다. 우선 본 연구에서는 어휘의 감성 값이 시간에 따라 변할 수 있다는 감성 어휘의 가변성을 고려하고자 한다. 또한 해당 분야에 대한 온톨로지를 구축하고 참조함으로써 사용 어휘의 의미적 모호성을 해소하고 감성 사전의 품질을 향상시키고자 한다.
    본 과제는 연구 내용의 특성상 방대한 양의 자료 수집 및 이에 대한 전처리 그리고 많은 반복 실험을 필요로 하며, 이 과정에서 상당한 시간과 노력의 소요가 예상된다. 따라서 실험 과정에서 발생할 수 있는 시행착오를 최소화하고 연구 방법론을 구체화하기 위해 목표 실험에 대한 파일럿 테스트를 수행하였다. 파일럿 테스트를 통해 실험 데이터가 오랜 기간에 걸쳐 다양한 매체로부터 수집되어야 함을 파악할 수 있었다. 또한 형태소 분석의 경우 각 분야의 전문 용어를 인식하지 못하는 현상을 발견하였으며, 이를 극복하기 위해 각 분야의 전문 어휘집을 형태소 분석 과정에서 참조해야 할 필요성을 인식하였다. 이러한 경험을 토대로 수립한 본 연구의 구체적 실험 계획은 다음과 같다.

    (Case1) 주가지수 등락 예측 실험: 충분한 기간에 걸쳐 게재된 다양한 매체의 기사를 분석하기 위해, 본 연구팀은 2011년 1월부터 12월까지 26개 매체에 게재된 경제 기사 335,333건을 수집하였다. 또한 목적 변수를 발굴하기 위해 해당 기간의 주가지수 등락 기록을 확보하였으며, 주식 관련 주요 용어를 인식하지 못하는 한계를 극복하기 위해 KRX한국거래소와 KOSCOM이 각각 정리한 어휘를 취합하여 총 6,627개의 어휘를 포함하는 어휘집을 구축하였다.

    (Case2) 영화 평점 예측 실험: 동일한 데이터에 대한 기존 방법론과의 성능 비교를 위해, IMDb가 제공하는 영화 리뷰 데이터에 대한 제안 방법론의 예측 정확도를 분석하고자 한다. 이를 위해 다양한 영화에 대해 312명의 리뷰어가 작성한 2,000개의 리뷰를 확보하였다. 또한 제안 모델과 기존 모델간의 직접적인 성능 비교를 위해, 동일 데이터를 실험에 사용한 논문 100여 편의 리스트도 확보하였다.

    본 과제의 수행을 위해 다음과 같은 분석 도구를 활용하고자 한다. 데이터 저장, 가공, 추출을 위해 과제 수행 초기에 모든 데이터를 Oracle DBMS 11g에 구조화하여 저장하고, 자주 사용될 것으로 예상되는 Query와 View는 미리 작성해 두고자 한다. 한글 텍스트 분석을 위해서는 서울대학교 꼬꼬마 형태소 분석기와 국민대학교 KLT의 두 가지 형태소 분석기를 병행 사용하고자 한다. 그 외의 텍스트 분석은 SAS E-Miner Workstation 7.1의 Text Miner 모듈을 활용하고자 한다. 마지막으로 Protege 4.2 Beta를 사용하여 온톨로지를 구축하고, JENA API와 SPARQL을 사용하여 구축된 온톨로지를 참조하고자 한다.

    제안 방법론을 주가지수 등락 예측 및 영화 리뷰 평점 예측에 적용했을 때의 예측 정확도 평가는 Lift Chart와 F-Score의 두 가지 관점에서 수행하고자 하며, 두 가지 그래프의 형태를 파악하기 위한 가상 실험의 결과를 연구 계획서 본문에 제시하였다.
결과보고시 연구요약문
  • 국문
  • 최근 다양한 정보채널들의 등장으로 인해 빅데이터에 대한 관심이 높아지고 있다. 이와 같은 현상의 가장 큰 원인은, 스마트기기의 사용이 활성화 됨에 따라 사용자가 생성하는 텍스트, 사진, 동영상과 같은 비정형 데이터의 양이 크게 증가하고 있는 것에서 찾을 수 있다. 특히 비정형 데이터 중에서도 텍스트 데이터의 경우, 사용자들의 의견 및 다양한 정보를 명확하게 표현하고 있다는 특징이 있다. 따라서 이러한 텍스트에 대한 분석을 통해 새로운 가치를 창출하고자 하는 시도가 활발히 이루어지고 있다. 텍스트 분석을 위해 필요한 기술은 대표적으로 텍스트 마이닝과 오피니언 마이닝이 있다. 텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리 기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.
  • 영문
  • Recently, with the advent of various information channels, the number of has continued to grow. The main cause of this phenomenon could be found in the phenomenon that the amount of unstructured data is increasing significantly, as the use of smart devices enables users to create unstructured data such as texts, sounds, photos, and movies. In various types of unstructured data, the user s opinion and a variety of information are clearly expressed in text data such as news, reports, papers, and various articles. Thus, active attempts have been made to create new value by analyzing these texts.
    The representative techniques used in text analysis are text mining and opinion mining. share certain important characteristics; for example, they not only use text documents as input data, but also use many natural language processing techniques such as filtering and parsing. Therefore, opinion mining is usually recognized as a sub-concept of text mining, or, in many cases, the two terms are used interchangeably in the literature. Suppose that the purpose of a certain classification analysis is to predict a positive or negative opinion contained in some documents. If we focus on the classification process, the analysis can be regarded as a traditional text mining case. However, if we observe that the target of the analysis is a positive or negative opinion, the analysis can be regarded as a typical example of opinion mining. In other words, two methods (i.e., text mining and opinion mining) are available for opinion classification. Thus, in order to distinguish between the two, a precise definition of each method is needed. In this paper, we found that it is very difficult to distinguish the two methods clearly with respect to the purpose of analysis and the type of results.
    In this paper, we conclude that the most definitive criterion to discriminate text mining and opinion mining is whether or not an analysis utilizes any kind of sentiment lexicon. We first established two prediction models, one based on opinion mining and the other on text mining. Next, we compared the main processes of the two prediction models. Finally, we compared their prediction accuracy. Then, , we analyzed 2,000 movie reviews. The results revealed that the prediction model based on opinion mining showed higher average prediction accuracy in comparison to the text mining model. Moreover, in the lift chart generated by the opinion mining based model, the prediction accuracy for the documents with strong certainty was higher than that for the documents with weak certainty. Most of all, opinion mining has a meaningful advantage in that it can reduce learning time dramatically, because a sentiment lexicon generated once can be reused in a similar application domain. Additionally, the classification results can be clearly explained by using a sentiment lexicon.
    This study has the following limitations. First, the results of the experiments cannot be generalized mainly because the experimental limited to a small number of movie reviews. Additionally, various parameters in the parsing and filtering steps of the text mining may have affected the accuracy of the prediction models. However, the contribution of this research can be found in that it performed and compared text mining analysis and opinion mining analysis for opinion classification. In future works, a more precise evaluation of the two methods should be made through intensive experiments.
연구결과보고서
  • 초록
  • 최근 다양한 정보채널들의 등장으로 인해 빅데이터에 대한 관심이 높아지고 있다. 이와 같은 현상의 가장 큰 원인은, 스마트기기의 사용이 활성화 됨에 따라 사용자가 생성하는 텍스트, 사진, 동영상과 같은 비정형 데이터의 양이 크게 증가하고 있는 것에서 찾을 수 있다. 특히 비정형 데이터 중에서도 텍스트 데이터의 경우, 사용자들의 의견 및 다양한 정보를 명확하게 표현하고 있다는 특징이 있다. 따라서 이러한 텍스트에 대한 분석을 통해 새로운 가치를 창출하고자 하는 시도가 활발히 이루어지고 있다. 텍스트 분석을 위해 필요한 기술은 대표적으로 텍스트 마이닝과 오피니언 마이닝이 있다. 텍스트 마이닝과 오피니언 마이닝은 모두 텍스트 데이터를 입력 데이터로 사용할 뿐 아니라 파싱, 필터링 등 자연어 처리 기술을 사용한다는 측면에서 많은 공통점을 갖고 있다. 특히 문서의 분류 및 예측에 있어서 목적 변수가 긍정 또는 부정의 감성을 나타내는 경우에는, 전통적 텍스트 마이닝, 또는 감성사전 기반의 오피니언 마이닝의 두 가지 방법론에 의해 오피니언 분류를 수행할 수 있다. 따라서 텍스트 마이닝과 오피니언 마이닝의 특징을 구분하는 가장 명확한 기준은 입력 데이터의 형태, 분석의 목적, 분석의 결과물이 아닌 감성사전의 사용 여부라고 할 수 있다. 따라서 본 연구에서는 오피니언 분류라는 동일한 목적에 대해 텍스트 마이닝과 오피니언 마이닝을 각각 사용하여 예측 모델을 수립하는 과정을 비교하고, 결과로 도출된 모델의 예측 정확도를 비교하였다. 오피니언 분류 실험을 위해 영화 리뷰 2,000건에 대한 실험을 수행하였으며, 실험 결과 오피니언 마이닝을 통해 수립된 모델이 텍스트 마이닝 모델에 비해 전체 구간의 예측 정확도 평균이 높게 나타나고, 예측의 확실성이 강한 문서일수록 예측 정확성이 높게 나타나는 일관적인 성향을 나타내는 등 더욱 바람직한 특성을 보였다.
  • 연구결과 및 활용방안
  • 최근 다양한 분야에서 오피니언 마이닝을 통해 창출한 의미 있는 성과에도 불구하고, 여전히 그 정확성 및 실용성에 대해서는 회의적 시각이 다수 존재한다. 이러한 현상의 주요 원인 중 일부는, 모든 목적에 활용될 수 있는 범용 감성 사전을 구축하고 이를 기반으로 모든 분야의 감성 분석을 수행하고자 하는 One-Technique-Fit-For-All 접근법의 무리한 가정에서 찾을 수 있다. 즉 전통적인 감성 사전 구축 방법론은 하나의 어휘는 하나의 감성 값을 갖는다는 경직된 가정에 근거하고 있으므로, 동일한 어휘라도 사용되는 상황이나 목적에 따라 상이한 감성 값을 갖는 실제 상황을 정확하게 설명하지 못한다는 근원적 한계를 갖는다. 본 연구는 이러한 경직된 가정의 한계를 인지하고, 분석 목적에 따라 특화된 감성 사전을 구축하여 궁극적으로 오피니언 마이닝 분석 결과의 품질과 실용성을 향상시키는 것을 목적으로 한다.

    사회적/실무적 측면에서 볼 때, 본 연구는 오피니언 마이닝에 대한 긍정적 인식을 확산시킴으로써 해당 방법론을 통해 다양한 문제를 해결하기 위한 관심과 투자를 더욱 증대시킬 수 있을 것으로 기대한다. 또한 본 연구는 각 분야마다 분석 목적에 따라 특화된 감성 사전을 구축할 것을 제안하고 있기 때문에, 본 연구의 성과가 입증될 경우 다양한 분야에서 크고 작은 규모의 감성 사전을 구축하려는 시도가 활발하게 이루어질 것으로 기대한다. 특히 이미 많은 업체들이 SNS에서 유통되는 방대한 데이터에 근거하여 감성 분석 컨설팅을 수행하고 있다는 현실을 감안할 때, 체계적 방법론에 따라 구축된 양질의 감성 사전은 빅데이터 분석 관련 시장의 활성화 및 분석 신뢰성 제고에 충분히 기여할 수 있을 것으로 예상된다.
  • 색인어
  • 감성 분석, 빅데이터 분석, 오피니언 마이닝, 텍스트 마이닝
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력