TF-IDFVectorizer的值為什麼介於0到1?為什麼能拿來用在餘弦相似度計算會加速?
2019/07/17 06:37 下午
機器學習共學討論版
ya
觀看數:16
回答數:1
收藏數:0
python
scikit-learn
推薦系統
在做Content-based Recommender時,我參考<<Hands-On Recommendatoin System with Python>>書。
書中將文件轉文件向量時,使用sklearn套件TfidfVectorizer,來計算向量中各個值,其值會介於0至1之間,不太能理解,想請問為什麼?
以及書中提到使用TF-IDF可以加速文件兩兩做餘弦相似度計算,說直接做點積就可,為什麼不用除於它們的單位長度呢?
附上書中原文 ......
(原文1)
(原文2)