LINJÄR REGRESSION I MASKININLÄRNING

Maskininlärning är en gren inom artificiell intelligens som fokuserar på utveckling av algoritmer och statistiska modeller som kan lära av och göra förutsägelser om data. Linjär regression är också en typ av maskininlärningsalgoritm mer specifikt en övervakad maskininlärningsalgoritm som lär sig av de märkta datamängderna och mappar datapunkterna till de mest optimerade linjära funktionerna. som kan användas för att förutsäga nya datamängder.

Först och främst bör vi veta vad övervakade maskininlärningsalgoritmer är. Det är en typ av maskininlärning där algoritmen lär sig från märkt data. Märkt data betyder den datauppsättning vars respektive målvärde redan är känt. Övervakat lärande har två typer:

Klassificering : Den förutsäger datauppsättningens klass baserat på den oberoende indatavariabeln. Klass är de kategoriska eller diskreta värdena. som att bilden av ett djur är en katt eller hund?
Regression : Den förutsäger de kontinuerliga utdatavariablerna baserat på den oberoende ingångsvariabeln. som förutsägelse av huspriser baserat på olika parametrar som husets ålder, avstånd från huvudvägen, läge, område, etc.

Här kommer vi att diskutera en av de enklaste typerna av regression, dvs. Linjär regression.

Innehållsförteckning

Vad är linjär regression?
Typer av linjär regression
Vilken är den bästa Fit Line?
Kostnadsfunktion för linjär regression
Antaganden om enkel linjär regression
Antaganden om multipel linjär regression
Utvärderingsmått för linjär regression
Python-implementering av linjär regression
Regulariseringstekniker för linjära modeller
Tillämpningar av linjär regression
Fördelar och nackdelar med linjär regression
Linjär regression – Vanliga frågor (FAQ)

Vad är linjär regression?

Linjär regression är en typ av övervakad maskininlärning algoritm som beräknar det linjära förhållandet mellan den beroende variabeln och en eller flera oberoende egenskaper genom att anpassa en linjär ekvation till observerade data.

När det bara finns en oberoende funktion kallas den Enkel linjär regression , och när det finns mer än en funktion kallas den Multipel linjär regression .

På samma sätt, när det bara finns en beroende variabel, beaktas den Univariat linjär regression , medan när det finns mer än en beroende variabel kallas det Multivariat regression .

Varför är linjär regression viktigt?

Tolkbarheten av linjär regression är en anmärkningsvärd styrka. Modellens ekvation ger tydliga koefficienter som belyser inverkan av varje oberoende variabel på den beroende variabeln, vilket underlättar en djupare förståelse av den underliggande dynamiken. Dess enkelhet är en dygd, eftersom linjär regression är transparent, lätt att implementera och fungerar som ett grundläggande koncept för mer komplexa algoritmer.

typscript switch

Linjär regression är inte bara ett prediktivt verktyg; den ligger till grund för olika avancerade modeller. Tekniker som regularisering och stödvektormaskiner hämtar inspiration från linjär regression, vilket utökar dess användbarhet. Dessutom är linjär regression en hörnsten i antagandetestning, vilket gör det möjligt för forskare att validera viktiga antaganden om data.

Typer av linjär regression

Det finns två huvudtyper av linjär regression:

Enkel linjär regression

Detta är den enklaste formen av linjär regression, och den involverar endast en oberoende variabel och en beroende variabel. Ekvationen för enkel linjär regression är:
y=eta_{0}+eta_{1}X
var:

Y är den beroende variabeln
X är den oberoende variabeln
β0 är skärningspunkten
β1 är lutningen

Multipel linjär regression

Detta involverar mer än en oberoende variabel och en beroende variabel. Ekvationen för multipel linjär regression är:
y=eta_{0}+eta_{1}X+eta_{2}X+………eta_{n}X
var:

Y är den beroende variabeln
X1, X2, …, Xp är de oberoende variablerna
β0 är skärningspunkten
β1, β2, …, βn är sluttningarna

Målet med algoritmen är att hitta bästa Fit Line ekvation som kan förutsäga värdena baserat på de oberoende variablerna.

I regression finns uppsättningar poster med X- och Y-värden och dessa värden används för att lära sig en funktion så om du vill förutsäga Y från ett okänt X kan denna inlärda funktion användas. I regression måste vi hitta värdet på Y, så det krävs en funktion som förutsäger kontinuerlig Y i fallet med regression givet X som oberoende egenskaper.

Vilken är den bästa Fit Line?

Vårt primära mål när vi använder linjär regression är att lokalisera den linjen som passar bäst, vilket innebär att felet mellan de predikterade och faktiska värdena bör hållas till ett minimum. Det kommer att vara minst fel i raden som passar bäst.

Ekvationen för bästa anpassningslinje ger en rak linje som representerar förhållandet mellan de beroende och oberoende variablerna. Linjens lutning anger hur mycket den beroende variabeln ändras för en enhetsändring i den eller de oberoende variabeln.

Linjär regression

Här kallas Y för en beroende eller målvariabel och X kallas för en oberoende variabel även känd som prediktorn för Y. Det finns många typer av funktioner eller moduler som kan användas för regression. En linjär funktion är den enklaste typen av funktion. Här kan X vara en enskild funktion eller flera funktioner som representerar problemet.

Linjär regression utför uppgiften att förutsäga ett beroende variabelvärde (y) baserat på en given oberoende variabel (x)). Därför är namnet linjär regression. I figuren ovan är X (input) arbetslivserfarenhet och Y (output) är lönen för en person. Regressionslinjen är den linje som passar vår modell bäst.

Vi använder kostnadsfunktionen för att beräkna de bästa värdena för att få den bästa passformen eftersom olika värden för vikter eller koefficienten för linjer resulterar i olika regressionslinjer.

Hypotesfunktion i linjär regression

Som vi har antagit tidigare att vår oberoende egenskap är erfarenheten dvs X och respektive lön Y är den beroende variabeln. Låt oss anta att det finns ett linjärt samband mellan X och Y, då kan lönen förutsägas med:

hat{Y} = heta_1 + heta_2X

ELLER

hat{y}_i = heta_1 + heta_2x_i

Här,

y_i epsilon Y ;; (i= 1,2, cdots , n) är etiketter för data (övervakad inlärning)
x_i epsilon X ;; (i= 1,2, cdots , n) är ingångsoberoende träningsdata (univariat – en ingångsvariabel (parameter))
hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) är de förutsagda värdena.

Modellen får den bästa regressionspassningslinjen genom att hitta den bästa θ₁och 6₂värden.

i ₁ : genskjuta
i ₂ : koefficient för x

När vi hittar den bästa θ₁och 6₂värden får vi den linjen som passar bäst. Så när vi äntligen använder vår modell för förutsägelse, kommer den att förutsäga värdet av y för ingångsvärdet för x.

Hur man uppdaterar θ ₁ och 6 ₂ värden för att få den bästa passformen?

För att uppnå den bäst anpassade regressionslinjen syftar modellen till att förutsäga målvärdethat{Y} så att felskillnaden mellan det förutsagda värdethat{Y} och det sanna värdet Y är minimum. Så det är mycket viktigt att uppdatera θ₁och 6₂värden, för att nå det bästa värdet som minimerar felet mellan det förutsagda y-värdet (pred) och det sanna y-värdet (y).

minimizefrac{1}{n}sum_{i=1}^{n}(hat{y_i}-y_i)^2

Kostnadsfunktion för linjär regression

De Kostnadsfunktion eller den förlustfunktion är inget annat än felet eller skillnaden mellan det förutsagda värdethat{Y} och det verkliga värdet Y.

I linjär regression är Mean Squared Error (MSE) kostnadsfunktion används, som beräknar medelvärdet av kvadratfelen mellan de förutsagda värdenahat{y}_i och de faktiska värdena{y}_i . Syftet är att bestämma de optimala värdena för skärningen heta_1 och koefficienten för inmatningsfunktionen heta_2 ger den bästa passformen för de givna datapunkterna. Den linjära ekvationen som uttrycker detta förhållande ärhat{y}_i = heta_1 + heta_2x_i .

MSE-funktionen kan beräknas som:

ext{Cost function}(J) = frac{1}{n}sum_{n}^{i}(hat{y_i}-y_i)^2

Genom att använda MSE-funktionen tillämpas den iterativa processen med gradientnedstigning för att uppdatera värdena för heta_1 & heta_2 . Detta säkerställer att MSE-värdet konvergerar till de globala minima, vilket anger den mest exakta anpassningen av den linjära regressionslinjen till datamängden.

Denna process involverar att kontinuerligt justera parametrarna ( heta_1) och ( heta_2) baserat på gradienterna som beräknas från MSE. Slutresultatet är en linjär regressionslinje som minimerar de totala kvadrerade skillnaderna mellan de förutsagda och faktiska värdena, vilket ger en optimal representation av det underliggande förhållandet i data.

Gradient Descent för linjär regression

En linjär regressionsmodell kan tränas med hjälp av optimeringsalgoritmen lutning nedstigning genom att iterativt modifiera modellens parametrar för att minska medelkvadratfel (MSE) av modellen på en träningsdatauppsättning. För att uppdatera θ₁och 6₂värden för att minska kostnadsfunktionen (minimera RMSE-värdet) och uppnå den linje som passar bäst som modellen använder Gradient Descent. Tanken är att börja med slumpmässigt θ₁och 6₂värdena och sedan iterativt uppdatera värdena och nå lägsta kostnad.

En gradient är inget annat än en derivata som definierar effekterna på funktionens utdata med lite variation i indata.

Låt oss skilja kostnadsfunktionen (J) med avseende på heta_1

basband vs bredband

egin {aligned} {J}’_{ heta_1} &=frac{partial J( heta_1, heta_2)}{partial heta_1} &= frac{partial}{partial heta_1} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(1+0-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2 ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) end {aligned}

Låt oss skilja kostnadsfunktionen (J) med avseende på heta_2

egin {aligned} {J}’_{ heta_2} &=frac{partial J( heta_1, heta_2)}{partial heta_2} &= frac{partial}{partial heta_2} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(0+x_i-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2x_i ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i end {aligned}

Att hitta koefficienterna för en linjär ekvation som bäst passar träningsdata är målet för linjär regression. Genom att röra sig i riktningen för den negativa gradienten för medelkvadratfel med avseende på koefficienterna, kan koefficienterna ändras. Och respektive skärningspunkt och koefficient för X kommer att vara ifalpha är inlärningshastigheten.

Gradient Descent

egin{aligned} heta_1 &= heta_1 – alpha left( {J}’_{ heta_1} ight) &= heta_1 -alpha left( frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) ight) end{aligned} egin{aligned} heta_2 &= heta_2 – alpha left({J}’_{ heta_2} ight) &= heta_2 – alpha left(frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i ight) end{aligned}

Antaganden om enkel linjär regression

Linjär regression är ett kraftfullt verktyg för att förstå och förutsäga beteendet hos en variabel, men den måste uppfylla ett fåtal villkor för att vara korrekta och pålitliga lösningar.

Linjäritet : De oberoende och beroende variablerna har ett linjärt samband med varandra. Detta innebär att förändringar i den beroende variabeln följer förändringarna i de oberoende variablerna på ett linjärt sätt. Det betyder att det ska finnas en rät linje som kan dras genom datapunkterna. Om förhållandet inte är linjärt kommer linjär regression inte att vara en korrekt modell.
Oberoende : Observationerna i datamängden är oberoende av varandra. Det betyder att värdet av den beroende variabeln för en observation inte beror på värdet av den beroende variabeln för en annan observation. Om observationerna inte är oberoende kommer linjär regression inte att vara en korrekt modell.
Homoskedasticitet : Över alla nivåer av de oberoende variablerna är variansen av felen konstant. Detta indikerar att mängden av de oberoende variablerna inte har någon inverkan på variansen av felen. Om variansen av residualerna inte är konstant, kommer linjär regression inte att vara en korrekt modell.

Homoscedasticitet i linjär regression
Normalitet : Resterna ska vara normalfördelade. Det betyder att resterna ska följa en klockformad kurva. Om residualerna inte är normalfördelade, kommer linjär regression inte att vara en korrekt modell.

Antaganden om multipel linjär regression

För multipel linjär regression gäller alla fyra antagandena från enkel linjär regression. Utöver detta, nedan är några fler:

Ingen multikollinearitet : Det finns ingen hög korrelation mellan de oberoende variablerna. Detta indikerar att det finns liten eller ingen korrelation mellan de oberoende variablerna. Multikollinearitet uppstår när två eller flera oberoende variabler är starkt korrelerade med varandra, vilket kan göra det svårt att bestämma den individuella effekten av varje variabel på den beroende variabeln. Om det finns multikollinearitet kommer multipel linjär regression inte att vara en korrekt modell.
Additivitet: Modellen antar att effekten av förändringar i en prediktorvariabel på svarsvariabeln är konsekvent oavsett värden på de andra variablerna. Detta antagande innebär att det inte finns någon interaktion mellan variabler i deras effekter på den beroende variabeln.
Funktionsval: Vid multipel linjär regression är det viktigt att noggrant välja de oberoende variabler som kommer att inkluderas i modellen. Att inkludera irrelevanta eller redundanta variabler kan leda till överanpassning och komplicera tolkningen av modellen.
Överanpassning: Överanpassning inträffar när modellen passar träningsdata för nära, fångar upp brus eller slumpmässiga fluktuationer som inte representerar det verkliga underliggande förhållandet mellan variabler. Detta kan leda till dålig generaliseringsprestanda på nya, osynliga data.

Multikollinearitet

Multikollinearitet är ett statistiskt fenomen som uppstår när två eller flera oberoende variabler i en multipel regressionsmodell är starkt korrelerade, vilket gör det svårt att bedöma de individuella effekterna av varje variabel på den beroende variabeln.

Att upptäcka multikollinearitet inkluderar två tekniker:

Korrelationsmatris: Att undersöka korrelationsmatrisen bland de oberoende variablerna är ett vanligt sätt att upptäcka multikollinearitet. Höga korrelationer (nära 1 eller -1) indikerar potentiell multikollinearitet.
VIF (variansinflationsfaktor): VIF är ett mått som kvantifierar hur mycket variansen av en uppskattad regressionskoefficient ökar om dina prediktorer är korrelerade. En hög VIF (typiskt över 10) tyder på multikollinearitet.

Utvärderingsmått för linjär regression

En mängd olika utvärderingsåtgärder kan användas för att bestämma styrkan hos vilken linjär regressionsmodell som helst. Dessa bedömningsmått ger ofta en indikation på hur väl modellen producerar de observerade resultaten.

De vanligaste måtten är:

Mean Square Error (MSE)

Mean Squared Error (MSE) är ett utvärderingsmått som beräknar medelvärdet av de kvadratiska skillnaderna mellan de faktiska och förutsagda värdena för alla datapunkter. Skillnaden är kvadratisk för att säkerställa att negativa och positiva skillnader inte tar ut varandra.

MSE = frac{1}{n}sum_{i=1}^{n}left ( y_i – widehat{y_{i}} ight )^2

Här,

n är antalet datapunkter.
och_iär det faktiska eller observerade värdet för i^thdatapunkt.
widehat{y_{i}} är det förutsagda värdet för i^thdatapunkt.

MSE är ett sätt att kvantifiera noggrannheten i en modells förutsägelser. MSE är känsligt för extremvärden då stora fel bidrar väsentligt till den totala poängen.

Genomsnittligt absolut fel (MAE)

Genomsnittligt absolut fel är ett utvärderingsmått som används för att beräkna noggrannheten hos en regressionsmodell. MAE mäter den genomsnittliga absoluta skillnaden mellan de förutsagda värdena och faktiska värden.

Matematiskt uttrycks MAE som:

MAE =frac{1}{n} sum_{i=1}^{n}|Y_i – widehat{Y_i}|

Här,

n är antalet observationer
OCH_irepresenterar de faktiska värdena.
widehat{Y_i} representerar de förutsagda värdena

Lägre MAE-värde indikerar bättre modellprestanda. Det är inte känsligt för extremvärden då vi betraktar absoluta skillnader.

Root Mean Squared Error (RMSE)

Kvadratroten av residualernas varians är Root Mean Squared Error . Den beskriver hur väl de observerade datapunkterna matchar de förväntade värdena, eller modellens absoluta anpassning till data.

I matematisk notation kan det uttryckas som:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{n}
Istället för att dividera hela antalet datapunkter i modellen med antalet frihetsgrader, måste man dividera summan av de kvadratiska residualerna för att få en opartisk uppskattning. Sedan kallas denna siffra för Residual Standard Error (RSE).

I matematisk notation kan det uttryckas som:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{(n-2)}

RSME är inte ett lika bra mått som R-kvadrat. Root Mean Squared Error kan fluktuera när enheterna för variablerna varierar eftersom dess värde är beroende av variablernas enheter (det är inte ett normaliserat mått).

Bestämningskoefficient (R-kvadrat)

R-kvadrat är en statistik som indikerar hur mycket variation den utvecklade modellen kan förklara eller fånga. Det är alltid i intervallet 0 till 1. I allmänhet gäller att ju bättre modellen matchar data, desto större R-kvadratnummer.
I matematisk notation kan det uttryckas som:
R^{2}=1-(^{frac{RSS}{TSS}})

Restsumma av kvadrater (RSS): The summan av kvadrater av restvärdet för varje datapunkt i diagrammet eller data kallas restsumman av kvadrater, eller RSS. Det är ett mått på skillnaden mellan resultatet som observerades och det som förväntades.
RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}
Total summa av kvadrater (TSS): Summan av datapunkternas fel från svarsvariabelns medelvärde kallas totalsumman av kvadrater, eller TSS.
TSS= sum_{}^{}(y-overline{y_{i}})^2

R squared metric är ett mått på variansandelen i den beroende variabeln som förklaras av de oberoende variablerna i modellen.

Viktig

Justerat R-kvadratfel

Justerad R²mäter andelen varians i den beroende variabeln som förklaras av oberoende variabler i en regressionsmodell. Justerad R-kvadrat redogör för antalet prediktorer i modellen och straffar modellen för att inkludera irrelevanta prediktorer som inte bidrar signifikant för att förklara variansen i de beroende variablerna.

Matematiskt justerad R²uttrycks som:

Adjusted , R^2 = 1 – (frac{(1-R^2).(n-1)}{n-k-1})

Här,

n är antalet observationer
k är antalet prediktorer i modellen
R²är coeeficient av beslutsamhet

Justerad R-fyrkant hjälper till att förhindra övermontering. Det straffar modellen med ytterligare prediktorer som inte bidrar signifikant för att förklara variansen i den beroende variabeln.

Python-implementering av linjär regression

Importera nödvändiga bibliotek:

Python3

 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>

Ladda datauppsättningen och separera indata- och målvariabler

Här är länken till dataset: Datasetlänk

Python3

 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>

Bygg den linjära regressionsmodellen och rita regressionslinjen

Steg:

Vid fortplantning framåt tillämpas linjär regressionsfunktion Y=mx+c genom att initialt tilldela ett slumpmässigt värde på parametern (m & c).
Vi har skrivit funktionen för att hitta kostnadsfunktionen, dvs medelvärdet

Python3

 class LinearRegression: def __init__(self): self.parameters = {} def forward_propagation(self, train_input): m = self.parameters['m'] c = self.parameters['c'] predictions = np.multiply(m, train_input) + c return predictions def cost_function(self, predictions, train_output): cost = np.mean((train_output - predictions) ** 2) return cost def backward_propagation(self, train_input, train_output, predictions): derivatives = {} df = (predictions-train_output) # dm= 2/n * mean of (predictions-actual) * input  dm = 2 * np.mean(np.multiply(train_input, df)) # dc = 2/n * mean of (predictions-actual)  dc = 2 * np.mean(df) derivatives['dm'] = dm derivatives['dc'] = dc return derivatives def update_parameters(self, derivatives, learning_rate): self.parameters['m'] = self.parameters['m'] - learning_rate * derivatives['dm'] self.parameters['c'] = self.parameters['c'] - learning_rate * derivatives['dc'] def train(self, train_input, train_output, learning_rate, iters): # Initialize random parameters  self.parameters['m'] = np.random.uniform(0, 1) * -1 self.parameters['c'] = np.random.uniform(0, 1) * -1 # Initialize loss  self.loss = [] # Initialize figure and axis for animation  fig, ax = plt.subplots() x_vals = np.linspace(min(train_input), max(train_input), 100) line, = ax.plot(x_vals, self.parameters['m'] * x_vals + self.parameters['c'], color='red', label='Regression Line') ax.scatter(train_input, train_output, marker='o', color='green', label='Training Data') # Set y-axis limits to exclude negative values  ax.set_ylim(0, max(train_output) + 1) def update(frame): # Forward propagation  predictions = self.forward_propagation(train_input) # Cost function  cost = self.cost_function(predictions, train_output) # Back propagation  derivatives = self.backward_propagation( train_input, train_output, predictions) # Update parameters  self.update_parameters(derivatives, learning_rate) # Update the regression line  line.set_ydata(self.parameters['m'] * x_vals + self.parameters['c']) # Append loss and print  self.loss.append(cost) print('Iteration = {}, Loss = {}'.format(frame + 1, cost)) return line, # Create animation  ani = FuncAnimation(fig, update, frames=iters, interval=200, blit=True) # Save the animation as a video file (e.g., MP4)  ani.save('linear_regression_A.webp'false'>Python3 #Exempel användning linear_reg = LinearRegression() parametrar, loss = linear_reg.train(train_input, train_output, 0,0001, 20) Output : Iteration = 1, Loss = 9130.407560462196 Iteration = 1169.92 , Förlust = 140,31580932842422 Iteration = 1, Förlust = 23,795780526084116 Iteration = 2, Förlust = 9,753848205147605 Iteration = 3, Förlust = 8,061641745006835 Iteration = 4, Förlust = 11,857, 7,857. 8331350515579015 Iteration = 6, Förlust = 7,830172502503967 Iteration = 7, Förlust = 7,829814681591015 Iteration = 8 , Förlust = 7,829770758846183 Iteration = 9, Förlust = 7,829764664327399 Iteration = 10, Förlust = 7,829763128602258 Iteration = 11, Förlust = 72,829, 7,829 829761222379141 Iteration = 13, Förlust = 7,829760310486438 Iteration = 14, Förlust = 7,829759399646989 Iteration = 15, Förlust = 7,829758489015161 Iteration = 16, Förlust = 7,829757578489033 Iteration = 17, Förlust = 7,829756668056319 Iteration = 18, Förlust = 5,8577, Iteration = 5,7597 29754847466484 Iteration = 20, Förlust = 7,829753937309139 Linjär regressionslinjeDen linjära regressionslinjen ger värdefulla insikter om förhållandet mellan de två variablerna. Den representerar den bäst passande linjen som fångar den övergripande trenden för hur en beroende variabel (Y) förändras som svar på variationer i en oberoende variabel (X).   Positiv linjär regressionslinje: En positiv linjär regressionslinje indikerar ett direkt samband mellan den oberoende variabeln (X) och den beroende variabeln (Y). Det betyder att när värdet på X ökar så ökar också värdet på Y. Lutningen på en positiv linjär regressionslinje är positiv, vilket betyder att linjen lutar uppåt från vänster till höger.  Negativ linjär regressionslinje: En negativ linjär regressionslinje indikerar ett omvänt samband mellan den oberoende variabeln (X) och den beroende variabeln (Y). Detta betyder att när värdet på X ökar, minskar värdet på Y. Lutningen på en negativ linjär regressionslinje är negativ, vilket betyder att linjen lutar nedåt från vänster till höger. Regulariseringstekniker för linjära modeller Lasso-regression (L1-regularisering) Lasso-regression är en teknik som används för att reglera en linjär regressionsmodell, den lägger till en straffavgift term till den linjära regressionsobjektivet för att förhindra överanpassning. Den objektiva funktionen efter att ha tillämpat lassoregression är: den första termen är den minsta kvadratförlusten, som representerar den kvadratiska skillnaden mellan förutsagda och faktiska värden. den andra termen är L1-regulariseringstermen, den straffar summan av absoluta värden för regressionskoefficienten θj. Ridge-regression (L2-regularisering) Ridge-regression är en linjär regressionsteknik som lägger till en regulariseringsterm till det linjära standardmålet. Återigen är målet att förhindra överanpassning genom att straffa stora koefficienter i linjär regressionsekvation. Det är användbart när datasetet har multikollinearitet där prediktorvariabler är starkt korrelerade.  Den objektiva funktionen efter att ha tillämpat åsregression är: den första termen är den minsta kvadratförlusten, som representerar den kvadratiska skillnaden mellan förutsagda och faktiska värden. den andra termen är L1-regulariseringstermen, den straffar summan av kvadraten av värden på regressionskoefficienten θj. Elastic Net Regression Elastic Net Regression är en hybridregulariseringsteknik som kombinerar kraften i både L1- och L2-regularisering i linjärt regressionsmål.   den första termen är minsta kvadratförlust. den andra termen är L1-regularisering och tredje är åsregression.???? är den övergripande regleringsstyrkan. α kontrollerar blandningen mellan L1- och L2-regularisering. Tillämpningar av linjär regressionLinjär regression används inom många olika områden, inklusive finans, ekonomi och psykologi, för att förstå och förutsäga beteendet hos en viss variabel. Till exempel, inom finans, kan linjär regression användas för att förstå sambandet mellan ett företags aktiekurs och dess resultat eller för att förutsäga det framtida värdet av en valuta baserat på dess tidigare resultat. Fördelar och nackdelar med linjär regression Fördelar med linjär regressionLinjär regression är en relativt enkel algoritm som gör den lätt att förstå och implementera. Koefficienterna för den linjära regressionsmodellen kan tolkas som förändringen i den beroende variabeln för en enhetsförändring i den oberoende variabeln, vilket ger insikter i sambanden mellan variabler. Linjär regression är beräkningseffektiv och kan hantera stora datamängder effektivt. Det kan tränas snabbt på stora datamängder, vilket gör det lämpligt för realtidsapplikationer.Linjär regression är relativt robust mot extremvärden jämfört med andra maskininlärningsalgoritmer. Outliers kan ha en mindre inverkan på den övergripande modellens prestanda. Linjär regression fungerar ofta som en bra baslinjemodell för jämförelse med mer komplexa maskininlärningsalgoritmer. Linjär regression är en väletablerad algoritm med en rik historia och är allmänt tillgänglig inom olika maskininlärning bibliotek och mjukvarupaket. Nackdelar med linjär regression. Linjär regression förutsätter ett linjärt samband mellan de beroende och oberoende variablerna. Om sambandet inte är linjärt kanske modellen inte fungerar bra. Linjär regression är känslig för multikollinearitet, vilket uppstår när det finns en hög korrelation mellan oberoende variabler. Multikollinearitet kan blåsa upp variansen av koefficienterna och leda till instabila modellförutsägelser. Linjär regression förutsätter att egenskaperna redan är i en lämplig form för modellen. Funktionsteknik kan krävas för att omvandla funktioner till ett format som effektivt kan användas av modellen. Linjär regression är känslig för både överanpassning och underanpassning. Överanpassning uppstår när modellen lär sig träningsdata för väl och misslyckas med att generalisera till osynliga data. Underanpassning uppstår när modellen är för enkel för att fånga de underliggande sambanden i data. Linjär regression ger begränsad förklaringskraft för komplexa samband mellan variabler. Mer avancerade maskininlärningstekniker kan vara nödvändiga för djupare insikter. SlutsatsLinjär regression är en grundläggande maskininlärningsalgoritm som har använts flitigt i många år på grund av sin enkelhet, tolkningsbarhet och effektivitet. Det är ett värdefullt verktyg för att förstå sambanden mellan variabler och göra förutsägelser i en mängd olika tillämpningar.  Det är dock viktigt att vara medveten om dess begränsningar, såsom dess antagande om linjäritet och känslighet för multikollinearitet. När dessa begränsningar noggrant övervägs kan linjär regression vara ett kraftfullt verktyg för dataanalys och förutsägelse. Linjär regression – Vanliga frågor (FAQs) Vad betyder linjär regression på det enkla sättet? Linjär regression är en övervakad maskininlärningsalgoritm som förutsäger en kontinuerlig målvariabel baserat på en eller flera oberoende variabler. Den antar ett linjärt samband mellan de beroende och oberoende variablerna och använder en linjär ekvation för att modellera detta förhållande.   Varför använder vi linjär regression?  Linjär regression används vanligtvis för: Förutsäga numeriska värden baserat på indatafunktioner Prognostisera framtida trender baserat på historiska data Identifiera korrelationer mellan variabler Förstå effekterna av olika faktorer på ett visst resultatHur man använder linjär regression? Använd linjär regression genom att anpassa en linje för att förutsäga sambandet mellan variabler , förstå koefficienter och göra förutsägelser baserade på ingångsvärden för informerat beslutsfattande. Varför kallas det linjär regression? Linjär regression är uppkallad efter dess användning av en linjär ekvation för att modellera förhållandet mellan variabler, som representerar en rät linjepassning till datapunkterna. Vad är exempel på linjär regression? Att förutsäga huspriser baserat på kvadratmeter, uppskatta provresultat från studietimmar och prognostisera försäljning med hjälp av reklamutgifter är exempel på linjär regressionstillämpningar.>

TechCodeview

Vad är linjär regression?

Varför är linjär regression viktigt?

Typer av linjär regression

Enkel linjär regression

Multipel linjär regression

Målet med algoritmen är att hitta bästa Fit Line ekvation som kan förutsäga värdena baserat på de oberoende variablerna.

Vilken är den bästa Fit Line?

Hypotesfunktion i linjär regression

Hur man uppdaterar θ ₁ och 6 ₂ värden för att få den bästa passformen?

Kostnadsfunktion för linjär regression

Gradient Descent för linjär regression

Antaganden om enkel linjär regression

Antaganden om multipel linjär regression

Multikollinearitet

Utvärderingsmått för linjär regression

Mean Square Error (MSE)

Genomsnittligt absolut fel (MAE)

Root Mean Squared Error (RMSE)

Bestämningskoefficient (R-kvadrat)

Justerat R-kvadratfel

Python-implementering av linjär regression

Importera nödvändiga bibliotek:

Ladda datauppsättningen och separera indata- och målvariabler

Bygg den linjära regressionsmodellen och rita regressionslinjen

Steg:

Linjär regression i maskininlärning

Vad är linjär regression?

Varför är linjär regression viktigt?

Typer av linjär regression

Enkel linjär regression

Multipel linjär regression

Målet med algoritmen är att hitta bästa Fit Line ekvation som kan förutsäga värdena baserat på de oberoende variablerna.

Vilken är den bästa Fit Line?

Hypotesfunktion i linjär regression

Hur man uppdaterar θ 1 och 6 2 värden för att få den bästa passformen?

Kostnadsfunktion för linjär regression

Gradient Descent för linjär regression

Antaganden om enkel linjär regression

Antaganden om multipel linjär regression

Multikollinearitet

Utvärderingsmått för linjär regression

Mean Square Error (MSE)

Genomsnittligt absolut fel (MAE)

Root Mean Squared Error (RMSE)

Bestämningskoefficient (R-kvadrat)

Justerat R-kvadratfel

Python-implementering av linjär regression

Importera nödvändiga bibliotek:

Ladda datauppsättningen och separera indata- och målvariabler

Bygg den linjära regressionsmodellen och rita regressionslinjen

Steg:

Hur man uppdaterar θ ₁ och 6 ₂ värden för att få den bästa passformen?