Loading...

使用TF-IDF將來選取最高分的前2000個字詞 ? - Cupoy

這段的意思是利用TF-IDF分數來選取前2000個字詞嗎?我的疑惑是同一個詞在不同文件有不同的TF-...

AI共學社群

使用TF-IDF將來選取最高分的前2000個字詞 ?

2021/01/29 下午 04:52

計數方法詞向量實作介紹

Joe Stephen

觀看數：26

回答數：1

收藏數：0

![螢幕擷取畫面 2021-01-29 162858.png](http://kwassistfile.cupoy.com/000001774D40346C000000D96375706F795F72656C656173655155455354/1611820869595/large) 這段的意思是利用TF-IDF分數來選取前2000個字詞嗎? 我的疑惑是同一個詞在不同文件有不同的TF-IDF，這種情況如何利用TF-IDF選取前2000個字詞? ![螢幕擷取畫面 2021-01-29 164147.png](http://kwassistfile.cupoy.com/000001774D40346C000000D96375706F795F72656C656173655155455354/1611820869596/large) TfidfVectorizer中max_feature參數官方文件解釋，我的理解是依照語料庫的詞頻選取前幾個字詞，這部分應該跟TF-IDF沒有關係?

回答列表

2021/01/30 上午 02:36

張維元 (WeiYuan)

贊同數：0

不贊同數：0

留言數：0

嗨，你好
根據 [文件](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) 是指只考慮 tf 排序的前五千個字。應該不是 TF-IDF 算完後取前五千個字，而是只用 tf 的前五千個字來計算。

嗨，你好，我是維元，持續在不同的平台發表對 #資料科學、 #網頁開發或 #軟體職涯相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流，都可以追蹤我的 Facebook 或技術部落格，也會不定時的舉辦分享活動，一起來玩玩吧ヽ(●´∀`●)ﾉ以下分享一些我近期發表跟資料科學有關的文章，歡迎大家持續追蹤： ■ 資料分析工具那麼多，該怎麼選？ 🛠️
■ 真．資料團隊與分工
■ 觀察資料的 N 件事 🔖
■ 資料前處理必須要做的事 - 資料清理與型態調整