logo
Loading...

使用TF-IDF將來選取最高分的前2000個字詞 ? - Cupoy

這段的意思是利用TF-IDF分數來選取前2000個字詞嗎?我的疑惑是同一個詞在不同文件有不同的TF-...

使用TF-IDF將來選取最高分的前2000個字詞 ?

2021/01/29 下午 04:52
計數方法詞向量實作介紹
Joe Stephen
觀看數:26
回答數:1
收藏數:0

![螢幕擷取畫面 2021-01-29 162858.png](http://kwassistfile.cupoy.com/000001774D40346C000000D96375706F795F72656C656173655155455354/1611820869595/large) 這段的意思是利用TF-IDF分數來選取前2000個字詞嗎? 我的疑惑是同一個詞在不同文件有不同的TF-IDF,這種情況如何利用TF-IDF選取前2000個字詞? ![螢幕擷取畫面 2021-01-29 164147.png](http://kwassistfile.cupoy.com/000001774D40346C000000D96375706F795F72656C656173655155455354/1611820869596/large) TfidfVectorizer中max_feature參數官方文件解釋,我的理解是依照語料庫的詞頻選取前幾個字詞,這部分應該跟TF-IDF沒有關係?

回答列表

  • 2021/01/30 上午 02:36
    張維元 (WeiYuan)
    贊同數:0
    不贊同數:0
    留言數:0

    嗨,你好
    根據 [文件](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) 是指只考慮 tf 排序的前五千個字。應該不是 TF-IDF 算完後取前五千個字,而是只用 tf 的前五千個字來計算。

    嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤我的 Facebook技術部落格 ,也會不定時的舉辦分享活動,一起來玩玩吧 ヽ(●´∀`●)ノ 以下分享一些我近期發表跟資料科學有關的文章,歡迎大家持續追蹤: ■ 資料分析工具那麼多,該怎麼選? 🛠️
    真.資料團隊與分工
    觀察資料的 N 件事 🔖
    資料前處理必須要做的事 - 資料清理與型態調整