TF

Data Science/Data Analysis

[자연어 처리] [Python] TF-IDF(Term Frequency-Inverse Document Frequency)의 이해와 구현

TF(Term Frequency) 우선 TF(Term Frequency)란 1개의 문서 안에서 특정 단어가 출현하는 빈도를 뜻한다. 문단을 문장으로, 문장을 단어로 나누고 더 깊이 단어를 형태소로 나눌 수 있다. 전체 단어 또는 형태소 목록 중 특정 단어가 얼마나 자주 나왔는지 파악해 해당 문서의 특성을 파악할 수 있다. 영어에서는 a bat에서 a와 같이 1글자만 나오는 단어는 생략할 수 있지만 한글을 그러면 문맥이 바뀌는 경우가 있어 생략이 쉽지 않다. 한글은 키보드로 입력하기에 매우 효율적이지만 자연어 처리 부분에서는 굉장히 까다롭다. 아래는 파이썬으로 구현한 tf이다. def tf(t, d): return d.count(t) DF(Document Frequency) 다음으로 DF(Document ..

AlienCoder
'TF' 태그의 글 목록
loading