DataMining/MachineLearning1 LSH - 지역성 기반 해싱함수로 유사성 계산하기 용어 - LSH : 지역성 기반 해싱 / 가장 유사해 보이는 쌍들만을 검색하는 기법 - 슁글링 : 문서들을 문자단위의 집합으로 변화하는 기법 - 민해싱 : 대형 집합을 압축하는 기법 현실문제: 서로 다른 두 집합이 얼마나 유사해야 충분히 유사한 그룹이라고 말할 수 있나? - 유사도를 측정하는 방법이 정해져야 한다. - 유사하다고 판단하는 기준이 정해져야 한다. Step1. 원본 데이터는 집합형태가 아니다. 따라서 유사도를 계산하기 전에 가장 먼저 집합형태로 데이터를 가공해야 한다. --> white space( blank, tab, newline )을 어떻게 처리할 것인가? 2개 이상의 white space를 1개로 치환한다. --> stopwords(의미가 없는 전치사,접속사, 대명사)들은 어떻게 처리.. 2021. 2. 24. 이전 1 다음