Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문
-
텍스트 정규화-어간 추출과 표제어 추출Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 18:41
텍스트 전처리를 위한 정규화 표기가 다른 단어들의 통합 / 대, 소문자 통합 / 불필요한 단어 제거 / 정규 표현식 이번 시간에는 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추출(lemmatization) 에 대해서 배울 것이다. https://wikidocs.net/21707 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net
-
텍스트 전처리-정제와 정규화Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 18:14
정제(cleaning) : 갖고 있는 코퍼스(corpus; 말뭉치)로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어준다. * 정제 작업은 토큰화 작업 이전에 수행되지만, 토큰화 작업 이후에도 남아있는 노이즈들을 제어하기 위해서 지속적으로 이루어지기도 한다. 또한, 완벽한 정제 작업은 어렵기 때문에 합의점을 찾아 진행한다. 1. 표기가 다른 단어들의 통합 - USA와 US는 표기가 다르지만 같은 의미이다. - 정규화를 통해서 위와 같이 표기가 다르지만 같은 의미의 단어들을 하나로 통합시켜준다. - 어간 추출(stemming)과 표제어 추출(lemmatization)에 대해서는 후반에 배울 것이다. 2. 대, 소문자 통합 - 대, ..
-
텍스트 전처리(Text preprocessing)Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 17:57
토큰화에 대하여(아래의 Github 참조) - 텍스트 데이터 정의 - 텍스트 벡터화하는 방법 - 토큰과 토큰화에 대한 정의 - 토큰화와 벡터를 연결하는 방법(원-핫 인코딩/토큰 임베딩) - 단어/문자 원-핫 인코딩 예제 실습 - 케라스를 이용한 단어 원-핫 인코딩 예제 실습 참고 https://github.com/dohyeonkim2526/keras-Deep-learning/blob/master/%5B6.1%5D%ED%86%A0%ED%81%B0%ED%99%94%EC%99%80_%EC%9B%90_%ED%95%AB_%EC%9D%B8%EC%BD%94%EB%94%A9.ipynb
-
데이터 분석을 위한 패키지 (2)Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 17:14
오늘은 데이터 분석을 위한 두번째 패키지 넘파이(Numpy)에 대해서 공부할 것이다. 넘파이(Numpy) 수치 데이터를 다루는 파이썬 패키지 - 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용 - 순수 파이썬에 비해 압도적으로 빠른 속도 np.array() : 리스트, 튜플, 배열로 부터 ndarray를 생성한다. a=np.array([1, 2, 3, 4, 5]) print(type(a)) # numpy.ndarray 출력을 통해서 배열로 생성되었음을 알 수 있다. * '#' 문자는 주석(코드로 실행되지 않는 설명부분)을 의미한다. 이외의 속성에 대해서는 아래의 링크를 참조하자. https://wikidocs.net/32829
-
데이터 분석을 위한 패키지 (1)Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 16:58
데이터 분석을 위한 패키지에는 Pandas, Numpy, Matplotlib 세 가지가 있다. 해당 패키지들은 모두 아나콘다를 설치하면 자동으로 설치되어져 있다. 오늘은 그 중 하나인 Pandas 패키지를 공부할 것이다. 판다스(Pandas) 데이터 처리를 위한 파이썬 라이브러리이다. 판다스에는 '시리즈(Series)', '데이터프레임(DataFrame)', '패널(Panel)' 세 가지 데이터 구조를 사용하는데, 여기서는 시리즈와 데이터프레임에 대해서 알아볼 것이다. 1) 시리즈(Series) 1차원 배열의 값(values)에 대응되는 인덱스를 부여하는 구조 2) 데이터프레임(DataFrame) 2차원의 리스트를 매개변수로 전달하는, 행과 열을 가지는 자료구조 Pandas는 CSV, 텍스트, Excep..