|
|||||
Loodrechte regressie. | |||||
Bij lineaire
regressie gingen we een regressielijn zó kiezen dat de som van de
kwadraten van de verticale afstanden van onze punten tot die lijn
minimaal werd. Dat was de methode van de kleinste kwadraten. En bij
regressie van x op y minimaliseerden we de kwadraten van
de horizontale afstanden, maar dat kwam in feite op hetzelfde neer, als
we gewoon x en y verwisselen. Het kan natuurlijk ook anders..... Waarom zouden we niet proberen de loodrechte afstanden te nemen? Gewoon de kortste afstanden! Dat zou er zó uitzien: |
|||||
|
|||||
Laten we proberen de
som van de kwadraten van die blauwe lijntjes te minimaliseren.
Eerste probleem. Een slimme aanpak. |
|||||
|
|||||
Vervolgens draaien we de hele puntenwolk over een hoek α, die de (nog onbekende) regressielijn met de x-as maakt, zodat al die blauwe lijnstukjes verticaal komen te liggen: | |||||
|
|||||
De punten van de wolk krijgen daardoor nieuwe coördinaten (X, Y) waarvoor geldt: | |||||
|
|||||
Nu is het onze taak
om
α zodanig te kiezen dat de som
van de kwadraten van die verticale blauwe lijntjes minimaal wordt. Laten we die som S noemen. Wanneer is iets minimaal? Als de afgeleide ervan nul is natuurlijk! In dit geval de afgeleide naar α . De afgeleide van Y2 is 2 • Y • Y' en Y' = dY/dα = -xcosα - ysinα, Dat geeft dus: |
|||||
|
|||||
De factor 2 doet er
niet toe, want het moet immers nul worden. Haakjes wegwerken: |
|||||
|
|||||
groeperen en delen door cos2α: | |||||
|
|||||
Alles delen door Σxy : | |||||
|
|||||
Dat is een kwadratische vergelijking voor tanα. Dat geeft twee oplossingen waarvan er eentje de som S zal minimaliseren en de ander de som S zal maximaliseren. | |||||
Testvoorbeeldje. | |||||
Neem de puntenwolk
met de punten (1, 1) en (2, 2) en (3, 3) en (4, 4). Dat is de lijn y
= x dus dat zal als het goed is een hoek
α = 45º moeten opleveren. Testen maar: Σ(x2 - y2) = (12 - 12) + (22 - 22) + (32 - 32) + (42 - 42) = 0 Σ(xy) = 1 • 1 + 2 • 2 + 3 • 3 + 4 • 4 = 30 De vergelijking wordt tan2α - 1 = 0 dus tanα = ±1 en dat geeft inderdaad α = ±45º |
|||||
Echt voorbeeldje. | |||||
Neem de puntenwolk
van de zes punten hiernaast. Het centrale punt is (4, 4), en als dat van alle punten aftrekt krijg je de punten (-3, -2) (-1, 0) (0, -2) (1,-1) (0, 2) en (3,3) Σ(x2 - y2) = (32 - 22) + (12 - 02) + (02 - 22) + (12 - 12) + (02 - 22) + (32 - 32) = 5 + 1 - 4 + 0 - 4 + 0 = -2 Σ(xy) = 6 + 0 + 0 - 1 + 0 + 9 = 16 Dat geeft de vergelijking tan2α - 2/16tanα - 1 = 0 met als oplossingen tanα = -0,9395 en tanα = 1,0645 Dat zijn de hoeken α = -43,2º en α = 46,8º |
|
||||
Hieronder zijn beide
lijnen rood getekend. Die van -43,2º geeft de minimale S, en is de
lijn y = 0,94x + 0,24. Ter vergelijking: "gewone" lineaire regressie van x op y zou de regressielijn y = 0,7x + 1,2 geven, die is er blauw bij ingetekend (de hoek met de x-as daarvan is 35º). |
|||||
|
|||||
© h.hofstede (h.hofstede@hogeland.nl) |