logo
Loading...

餘弦相似度的應用 - 【教材專區】學習AI有困難? 讓Cupoy助教來幫你! - Cupoy

目錄 餘弦相似度基本觀念 向量內積數學公式 皮爾森相關係數公式 餘弦相似度與相關係數的關係 實際案例 餘弦相似度基本觀念 餘弦定理是一個計算兩個向量相似度的方式,透過 \cos{\theta}c...

目錄 餘弦相似度基本觀念 向量內積數學公式 皮爾森相關係數公式 餘弦相似度與相關係數的關係 實際案例 餘弦相似度基本觀念 餘弦定理是一個計算兩個向量相似度的方式,透過 \cos{\theta}cos⁡θ\cos{\theta}cosθ 的計算方式,確認該兩向量的向量是否相似,兩向量越相似,方向會越趨近於同一方向。 實際案例:詞向量 向量內積數學公式 已知 \mathbf{x}={x_1, x_2, ..., x_n}x={x1,x2,...,xn}\mathbf{x}={x_1, x_2, ..., x_n}x={x1​,x2​,...,xn​} 為 n 維的向量,則該向量的長度為:||\mathbf{x}||=\sqrt{x_1^2+x_2^2+...+x_n^2}∣∣x∣∣=x12+x22+...+xn2||\mathbf{x}||=\sqrt{x_1^2+x_2^2+...+x_n^2}∣∣x∣∣=x12​+x22​+...+xn2​​ 已知有 \mathbf{x}={x_1, x_2, ..., x_n}, \mathbf{y}={y_1, y_2, ..., y_n}x={x1,x2,...,xn},y={y1,y2,...,yn}\mathbf{x}={x_1, x_2, ..., x_n}, \mathbf{y}={y_1, y_2, ..., y_n}x={x1​,x2​,...,xn​},y={y1​,y2​,...,yn​} 為兩個各為 n 維的向量,則兩向量的內積為:\mathbf{x}\cdot \mathbf{y}=||x||\times ||y||\times \cos{\theta} \
=\displaystyle \sum_{i=1}^n x_i\times y_ix⋅y=∣∣x∣∣×∣∣y∣∣×cos⁡θ=∑i=1nxi×yi\mathbf{x}\cdot \mathbf{y}=||x||\times ||y||\times \cos{\theta} \=\displaystyle \sum_{i=1}^n x_i\times y_ix⋅y=∣∣x∣∣×∣∣y∣∣×cosθ=i=1∑n​xi​×yi​ 皮爾森相關係數公式 已知 x, yx,yx, yx,y 為兩各為 N 筆資料的連續型變數,則該兩變數的相關係數為:\rho_{x, y}=\frac{ \sum_{i=1}^N (x_i-\bar{x})\times (y_i-\bar{y})}{ \sqrt{\ \sum_{i=1}^N (x_i-\bar{x})^2}\times \sqrt{ \sum_{i=1}^N (y_i-\bar{y})^2} }ρx,y=∑i=1N(xi−xˉ)×(yi−yˉ) ∑i=1N(xi−xˉ)2×∑i=1N(yi−yˉ)2\rho_{x, y}=\frac{ \sum_{i=1}^N (x_i-\bar{x})\times (y_i-\bar{y})}{ \sqrt{\ \sum_{i=1}^N (x_i-\bar{x})^2}\times \sqrt{ \sum_{i=1}^N (y_i-\bar{y})^2} }ρx,y​= ∑i=1N​(xi​−xˉ)2​×∑i=1N​(yi​−yˉ​)2​∑i=1N​(xi​−xˉ)×(yi​−yˉ​)​ 餘弦定理與相關係數的關係 目標函數:\rho_{x, y}=\cos{\theta}ρx,y=cos⁡θ\rho_{x, y}=\cos{\theta}ρx,y​=cosθ\because \mathbf{x}\cdot \mathbf{y}=||\mathbf{x}||\times ||\mathbf{y}||\times \cos{\theta} \
\therefore \cos{\theta}=\frac{\mathbf{x}\cdot \mathbf{y}}{||\mathbf{x}||\times ||\mathbf{y}||} \
Let\ \mathbf{x} = {(x_1-\bar{x}), (x_2-\bar{x}), ..., (x_N-\bar{x})},\ y=\mathbf{y}={(y_1-\bar{y}), (y_2-\bar{y}), ..., (y_N-\bar{y})} \
Then,\ \cos{\theta}= \frac{\sum_{i=1}^n(x_i-\bar{x})\times (y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} = \rho_{x, y}∵x⋅y=∣∣x∣∣×∣∣y∣∣×cos⁡θ∴cos⁡θ=x⋅y∣∣x∣∣×∣∣y∣∣Let x={(x1−xˉ),(x2−xˉ),...,(xN−xˉ)}, y=y={(y1−yˉ),(y2−yˉ),...,(yN−yˉ)}Then, cos⁡θ=∑i=1n(xi−xˉ)×(yi−yˉ)∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2=ρx,y\because \mathbf{x}\cdot \mathbf{y}=||\mathbf{x}||\times ||\mathbf{y}||\times \cos{\theta} \\therefore \cos{\theta}=\frac{\mathbf{x}\cdot \mathbf{y}}{||\mathbf{x}||\times ||\mathbf{y}||} \Let\ \mathbf{x} = {(x_1-\bar{x}), (x_2-\bar{x}), ..., (x_N-\bar{x})},\ y=\mathbf{y}={(y_1-\bar{y}), (y_2-\bar{y}), ..., (y_N-\bar{y})} \Then,\ \cos{\theta}= \frac{\sum_{i=1}^n(x_i-\bar{x})\times (y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}} = \rho_{x, y}∵x⋅y=∣∣x∣∣×∣∣y∣∣×cosθ∴cosθ=∣∣x∣∣×∣∣y∣∣x⋅y​Let x={(x1​−xˉ),(x2​−xˉ),...,(xN​−xˉ)}, y=y={(y1​−yˉ​),(y2​−yˉ​),...,(yN​−yˉ​)}Then, cosθ=∑i=1n​(xi​−xˉ)2​∑i=1n​(yi​−yˉ​)2​∑i=1n​(xi​−xˉ)×(yi​−yˉ​)​=ρx,y​ 實際案例 Reference Han, J., Kamber, M. and Pei, J. (2012). Data Mining: Concepts and Techniques. doi: https://doi.org/10.1016/C2009-0-61819-5