Förutsättning – Data Mining, likhetsmått hänvisar till avstånd med dimensioner som representerar egenskaper hos dataobjektet, i en datauppsättning. Om detta avstånd är mindre blir det en hög grad av likhet, men när avståndet är stort blir det en låg grad av likhet. Några av de populära likhetsmåtten är -
- Euklidiskt avstånd.
- Manhattan avstånd.
- Jaccard likhet.
- Minkowski Avstånd.
- Cosinus likhet.
Cosinus likhet är ett mått som är användbart för att avgöra hur lika dataobjekten är oavsett storlek. Vi kan mäta likheten mellan två meningar i Python med hjälp av Cosine Similarity. I cosinuslikhet behandlas dataobjekt i en datauppsättning som en vektor. Formeln för att hitta cosinuslikheten mellan två vektorer är -
(x, y) = x . y / ||x|| ||y||>
var,
- x . y = produkt (punkt) av vektorerna 'x' och 'y'.||x|| och ||och|| = längden (magnitud) av de två vektorerna 'x' och 'y'.||x||

Exempel: Betrakta ett exempel för att hitta likheten mellan två vektorer - 'x' och 'och' , med hjälp av Cosine Similarity. 'x'-vektorn har värden, x = { 3, 2, 0, 5 } 'y'-vektorn har värden, y = { 1, 0, 0, 0 } Formeln för att beräkna cosinuslikheten är: (x, y) = x. y / ||x||
||och||
x . y = 3*1 + 2*0 + 0*0 + 5*0 = 3 ||x|| = √ (3)^2 + (2)^2 + (0)^2 + (5)^2 = 6.16 ||y|| = √ (1)^2 + (0)^2 + (0)^2 + (0)^2 = 1 ∴ (x, y) = 3 / (6.16 * 1) = 0.49>
Olikheten mellan de två vektorerna 'x' och 'y' ges av -
∴ (x, y) = 1 - (x, y) = 1 - 0.49 = 0.51>
- Cosinuslikheten mellan två vektorer mäts i 'θ'.
- Om θ = 0° överlappar 'x'- och 'y'-vektorerna, vilket bevisar att de är lika.
- Om θ = 90° är 'x'- och 'y'-vektorerna olika.

Cosinus Likhet mellan två vektorer
Fördelar:
- Cosinuslikheten är fördelaktig eftersom även om de två liknande dataobjekten är långt ifrån varandra på det euklidiska avståndet på grund av storleken, kan de fortfarande ha en mindre vinkel mellan dem. Mindre vinkel, högre likhet.
- När den plottas på ett flerdimensionellt utrymme, fångar cosinuslikheten orienteringen (vinkeln) för dataobjekten och inte storleken.