루씬 (Lucene) 의 기본 알고리즘이 TF/IDF에서 BM25로 바뀌면서 Elasticsearch 또한 5.0버전 이후부터 기본 유사도 알고리즘이 BM25로 바뀌었다. 오늘은 TF/IDF 알고리즘과 현재 엘라스틱서치에서 사용되고 있는 BM25 알고리즘에 대해 정리하려고 한다. BM25 우선 기본 BM25의 수식을 보자면 위와 같다. ... ... ... TF/IDF 먼저 알아보도록 하자. TF/IDF TF/IDF는 단어가 얼마나 반복되는지, 얼마나 자주 사용되는지가 점수에 영향을 미친다. 하나의 문서에서 단어가 여러번 반복되면 점수가 높아지지만 전체 문서에서 단어가 자주 반복된다면 점수가 낮아지게 된다. TF - 단어 빈도 TF는 특정 문서에서 단어가 등장한 횟수를 말한다. 문서에서 특정 단어가 자주..
2023. 11. 14. 16:44 / Tech박조롱