분류 전체보기
-
빅데이터✍️Certificate/기타 자격증 2020. 8. 25. 19:53
빅데이터의 3가지 구성요소: Volume(모든 데이터 수집) + Variety(데이터 형태의 다양성) + Velocity(데이터의 속도) 빅데이터 분석에 필요한 3가지 요소: 데이터, 기술, 인력 빅데이터로 인한 변화 사전처리→사후처리 표본조사→전수조사 질→양 인과관계→상관관계* 인과관계(두 개의 사실이 원인과 결과의 관계에 있는 경우), 상관관계(한 변수가 증가할때 다른 변수가 증가 또는 감소하는는 지를 관찰하여 두 변수의 관계를 규정하는 경우) 빅데이터 활용 사례 구글: 실시간 번역 서비스/ 사용자 로그 데이터를 활용한 검색결과 개선 빅데이터의 위기요인과 해결방안 사생활 침해→동의제로 책임제로 전환한다. 책임 원칙의 훼손→기존의 책임원칙을 강화할 수 밖에 없다. 데이터의 오용→데이터 알고리즘에 대한 ..
-
텍스트 정규화-어간 추출과 표제어 추출Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 18:41
텍스트 전처리를 위한 정규화 표기가 다른 단어들의 통합 / 대, 소문자 통합 / 불필요한 단어 제거 / 정규 표현식 이번 시간에는 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추출(lemmatization) 에 대해서 배울 것이다. https://wikidocs.net/21707 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net
-
텍스트 전처리-정제와 정규화Knowledge for Data Analysis/딥 러닝을 이용한 자연어 처리 입문 2020. 8. 2. 18:14
정제(cleaning) : 갖고 있는 코퍼스(corpus; 말뭉치)로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어준다. * 정제 작업은 토큰화 작업 이전에 수행되지만, 토큰화 작업 이후에도 남아있는 노이즈들을 제어하기 위해서 지속적으로 이루어지기도 한다. 또한, 완벽한 정제 작업은 어렵기 때문에 합의점을 찾아 진행한다. 1. 표기가 다른 단어들의 통합 - USA와 US는 표기가 다르지만 같은 의미이다. - 정규화를 통해서 위와 같이 표기가 다르지만 같은 의미의 단어들을 하나로 통합시켜준다. - 어간 추출(stemming)과 표제어 추출(lemmatization)에 대해서는 후반에 배울 것이다. 2. 대, 소문자 통합 - 대, ..