ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 텍스트 전처리-정제와 정규화
    Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 18:14

     

     

     

    정제(cleaning) : 갖고 있는 코퍼스(corpus; 말뭉치)로부터 노이즈 데이터를 제거한다.

    정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어준다.

     

    * 정제 작업은 토큰화 작업 이전에 수행되지만, 토큰화 작업 이후에도 남아있는 노이즈들을 제어하기 위해서 지속적으로 이루어지기도 한다. 또한, 완벽한 정제 작업은 어렵기 때문에 합의점을 찾아 진행한다.

     

    1. 표기가 다른 단어들의 통합

    - USA와 US는 표기가 다르지만 같은 의미이다.

    - 정규화를 통해서 위와 같이 표기가 다르지만 같은 의미의 단어들을 하나로 통합시켜준다.

    - 어간 추출(stemming)표제어 추출(lemmatization)에 대해서는 후반에 배울 것이다.

     

    2. 대, 소문자 통합

    - 대, 소문자 통합을 통해서 단어의 개수를 줄일 수 있다.

    - 단, 대문자와 소문자가 구분되어야 하는 경우(미국: US, 우리: us)도 있기 때문에, 상황에 따라 통합시켜야 한다.

     

    3. 불필요한 단어 제거

    - 노이즈 데이터란, 아무 의미를 갖지 않는 글자(ex.특수문자) 또는 분석 목적에 맞지 않는 불필요한 단어를 의미한다.

    - 일반적으로 등장 빈도가 적은 단어 또는 길이가 짧은 단어를 제거한다.

     

    4. 정규 표현식

    - 코퍼스(corpus; 말뭉치) 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거한다.

    - ex. HTML 문서로부터 가져온 코퍼스는 문서 곳곳에 HTML 태그가 있다.

    - ex. 뉴스 기사를 크롤링 한 코퍼스는 각 기사마다 게재 시간이 적혀 있다.

    댓글

Designed by Tistory.