TF-IDF是一張二維表,分別代表文章索引和單詞索引。文章量是可以無限增大的,單詞量的增長也是很恐怖的。那麼隨著這兩個維度的增長, 我們的內存總有一天會扛不住。好在我們可以利用一個節約內存的技術,叫做Sparse Matrix,稀疏矩陣,它只會存儲有內容的值,而忽略無內容的值。在這張巨大的二維表中,肯定每篇文章不一定會提及到所有詞彙,這些不提及的詞彙,我們當然可以不用存儲。 影片來源:周莫烦Python教學 https://youtu.be/obWNpDKBwdY