1. Introduction
문서분류를 하는 방법은 크게 ‘wordnet`등 사람의 직접 만들어 놓은 사전을 이용하는 방법(thesaurus based method)과 통계적인 방법(statistical method)이다. 통계적인 방법을 좀 더 정확하게 정의하면 다음과 같다. (Yang, 1995)
“Statistical learning of text-to-categories mapping based on human assignments`
통계적인 방법에서 문서분류를 위한 시스템을 학습할 때 사용하는 데이터는 일반 문서를 전처리(preprocessing)1)하여 만든 document-term matrix이다. 그런데 여기서 문제가 되는 것이 이 document-term matrix의 크기가 매우 방대하여 이것을 가지고 그대로 문서분류 시스템을 학습하면 학습이 거의 불가능 할 뿐만 아니라, 학습데이터의 noise도 무시할 수 없이 크다. 그래서 data의 크기를 줄이는 여러 가지 방법이 제안되었다. data의 크기를 줄이는 것은 term수를 줄이는 것(Dimension reduction)과 document수를 줄이는 것(Document reduction)이 있다.
Dimension reduction의 통계적인 방법 중 가장 기초가 되는 것이 Principal Component Analysis(이하 PCA)이다. 그러나 데이터의 dimension이 높고 복잡할 때는 linear한 PCA는 적당하지 못할 것이다.
이 프로젝트에서는 문서 데이터와 같이 dimension이 높은 data의 dimension을 줄일 때 linear PCA보다는 non-linear PCA가 더 적당하다는 가정 하에 linear PCA와 nonlinear PCA로 각각 dimension reduction을 하고, neural network로 class를 학습하여 generalization performance를 비교할 것이다.
nonlinear하게 feature extr...
· 해피레포트는 다운로드 받은 파일에 문제가 있을 경우(손상된 파일/설명과 다른자료/중복자료 등) 1주일이내 환불요청 시 환불(재충전) 해드립니다.
(단, 단순 변심 및 실수로 인한 환불은 되지 않습니다.)
· 파일이 열리지 않거나 브라우저 오류로 인해 다운이 되지 않으면 고객센터로 문의바랍니다.
· 다운로드 받은 파일은 참고자료로 이용하셔야 하며,자료의 활용에 대한 모든 책임은 다운로드 받은 회원님에게 있습니다.
저작권안내
보고서 내용중의 의견 및 입장은 당사와 무관하며, 그 내용의 진위여부도 당사는 보증하지 않습니다.
보고서의 저작권 및 모든 법적 책임은 등록인에게 있으며, 무단전재 및 재배포를 금합니다.
저작권 문제 발생시 원저작권자의 입장에서 해결해드리고 있습니다. 저작권침해신고 바로가기