logo
Loading...

TF-IDFVectorizer的值為什麼介於0到1?為什麼能拿來用在餘弦相似度計算會加速? - Cupoy

在做Content-based Recommender時,我參考<<Hands-On Recomme...

python,scikit-learn,推薦系統

TF-IDFVectorizer的值為什麼介於0到1?為什麼能拿來用在餘弦相似度計算會加速?

2019/07/17 10:37 AM
機器學習新手論壇
ya
觀看數:0
回答數:1
收藏數:0
python
scikit-learn
推薦系統

在做Content-based Recommender時,我參考<<Hands-On Recommendatoin System with Python>>書。


書中將文件轉文件向量時,使用sklearn套件TfidfVectorizer,來計算向量中各個值,其值會介於0至1之間,不太能理解,想請問為什麼?


以及書中提到使用TF-IDF可以加速文件兩兩做餘弦相似度計算,說直接做點積就可,為什麼不用除於它們的單位長度呢?



附上書中原文 ......


(原文1)

(原文2)