공지사항

홈 > 공지사항 > 공지사항

FenCi(海量中文智能分词)는 중국어 텍스트 분석에 이용할 수 있는 프로그램으로서 중국의 지식 체계의 흐름을 어휘의 쓰임새를 통해 정량적으로 분석할 수 있는 이점이 있다.  

 

프로그램의 개요

 

FenCi(海量中文智能分词):

-중국어의 특성상 띄어쓰기가 되어 있지 않고 띄어쓰기를 한다고 하더라도 的,是등과 같은 허사의 출현으로 인해 텍스트의 분석이 용이하지 않음.

-FenCi(分词)는 중문 텍스트를 띄어쓰기를 통해서 의미단위별로 나누고 단어의 중요성에 따라 관건사(关键词)를 가중치에 따라 추출하는 프로그램임

 

그림1.jpg

 

정식 프로그램의 특성

- 데모 버전에서는 분석 텍스트 길이가 짧고 분석 키워드의 숫자 또한 30개로 제한이 있었음.

- 정식 프로그램 개발을 통해서 분석텍스트용량과 키워드 분석을 텍스트 전체로 무한대로 늘리고 직접 테스트를 해보았음.

-분석결과 중 텍스트는 의미단위별로 띄어쓰기가 표시되어 프로그램에 제시되고 단어별 중요성은 계량화되어 순위별로 제시됨

관건성(关键性)의 분석 방법

펀츠에서 관건성은 1)正向最大匹配算法(从左到右分),2)逆向最大匹配算法(从右到左分)를 복합적으로 사용하여 분석하게 됨

띄어쓰기 결과예시

 

그림2.jpg

List of Articles
번호 제목 글쓴이 날짜 조회 수