Diskussion:Statistik: Regressionsanalyse
Aus w:Regressionsanalyse in Wikipedia reinkopiert. Wird noch etwas geändert. --Philipendula 16:39, 7. Nov 2004 (UTC)
Ein hohes Bestimmtheitsmaß R^2 genügt nicht, da noch ein Signifikanztest für die Regressionsanalyse durchgeführt werden muss. Dies wird hier nicht erwähnt oder erklärt.
Der Zusammenhang Duenger/Ertrag ist nicht linear. Es gibt eine optimale Duengergabe, darueber und darunter nimmt der Ertrag ab. Kleine Teilbereiche sind natuerlich naeherungsweise linear. Linear waere etwa die Beziehung Strom/Spannung bei konstantem Widerstand, oder Laufzeit/Entfernung bei Echolot/Laser Entfernungsmessungen.
Bei der Multiple Regression kann es sein das da zwei variablen vertauscht wurden (mort unf fert)??? Das ist nämlich irgentwie nicht konsistent....
Multiple Regression
BearbeitenBei einer Lebenserwartung von 18,79 Jahren, 44,46 Kinder zu gebären,
bei 9 Monaten Tragzeit ist schon erstaunlich.
Auch die Sterblichkeit pro 1000 Einwohner dürfte nach vorsichtigen Schätzungen
bei 100% liegen.
Auch die Geburtenrate hat die Einheit pro Einwohner und Jahr.
Wie kann man so etwas veröffentlichen? Da ist kein Fehler drin, das ist ein einziger Fehler!
Was wird hier auf 4 Stellen hinter dem Komma ausgerechnet?
Vielleicht sollten auch Mathematiker einmal mit Masszahl UND Einheit rechnen,
oder ist denen egal was rauskommt, Hauptsache irgendeine Zahl, auch wenn diese
nichts aussagt und falsch ist?
Da hat doch der Autor die Zahlenkollone in sein Matheprogramm eingetippst und sich
beim Abschreiben der Arithmetik soviel Gedanken über die Schwangerschaft gemacht
wie sein Computerprogramm.
Diesen Teil (den Rest hab ich mir erst gar nicht mehr angesehen) bitte löschen
und dringend persönlich überarbeiten, und nicht stumpfsinnig irgendwelche Zahlen
und Gleichungen vom Computer abschreiben!
- Schnucki, schau dir doch mal die Variablendefinitionen an. --Philipendula ? 09:37, 22. Mär. 2009 (CET)
- Klar sollte man sich die ansehen. :-) Aber eine Durchschn. Kinderzahl pro gebärfähiger Frau zwischen 8,90 und 44,46 ist unwahrscheinlich. Da ist wohl das Komma verrutscht. Der Begriff "Sterblichkeit" ist unpassend. Auch ich glaube, dass von 1000 Einwohnern alle 1000 sterblich sind. LG -- Klaus 09:45, 22. Mär. 2009 (CET)
- Ups, hatte das mit birth velwechsert. Muss ich tatsächlich noch mal recherchieren. --Philipendula ? 10:30, 22. Mär. 2009 (CET)
- Klar sollte man sich die ansehen. :-) Aber eine Durchschn. Kinderzahl pro gebärfähiger Frau zwischen 8,90 und 44,46 ist unwahrscheinlich. Da ist wohl das Komma verrutscht. Der Begriff "Sterblichkeit" ist unpassend. Auch ich glaube, dass von 1000 Einwohnern alle 1000 sterblich sind. LG -- Klaus 09:45, 22. Mär. 2009 (CET)
- Schnucki, schau dir doch mal die Variablendefinitionen an. --Philipendula ? 09:37, 22. Mär. 2009 (CET)
So, recherchiert. Ich hatte die Variablenüberschriften durcheinander gebracht. Vermutlich wollte ich die Spalten vertauschen und hatte das dann vergessen. Die Auswertungen stimmen aber. Bei Y sind noch kleine Inkonsistenzen, die ich beheben muss. --Philipendula ? 12:20, 22. Mär. 2009 (CET)
Interessantes Beispiel von Regression mit systematischem Fehler
BearbeitenDie Daten (könnten z.B. Geburtsdaten einer Tierpopulation sein) weisen auf eine Kombination einer linearen und einer Sinus-Funktion hin (genauso wie in einem Beispiel von dir, in diesem Fall mit Periode von einem Jahr). Die Sinus Funktion hat dabei ausgeprägte Maxima aber läuft relativ normal bei den Minima. Interessant ist, dass die Regression (z.B. mit Hilfe von R-Statistik) ein Ergebnis fürs Jahr 2013 liefert, dass außerhalb der statistischen Grenzen liegt, wenn wir das Kalenderjahr (und manche andere Intervalle), und innerhalb der statistischen Grenzen, wenn wir z.B. das Intervall September-August (oder manche andere) benutzen. So ein Unterschied mit den gleichen Daten weist auf einen systematischen Fehler hin. Eine Darstellung der Daten kann diesen Fehler aufzeigen. Wenn wir das Kalenderjahr benutzen, schließen wir zwei (genauer: 1 und 1/2) Maxima der Sinus Funktion in der Berechnung von einem Jahr (2013) ein, was ein eindeutiger systematischer Fehler ist. In beiden Fällen gibt es in 2012 im "Mean" ein Minimum, fast an der unteren statistischen Grenze (aber noch innerhalb der Grenze). Dieses Beispiel könnte benutzt werden, um aufzuzeigen, wie notwendig die kritische Haltung bei der Analyse der Daten ist.
Jan | Feb | Mar | Apr | May | Jun | Jul | Aug | Sep | Oct | Nov | Dec | Total | Population | Mean | ||
1994 | 1 | 165 | 149 | 166 | 159 | 158 | 149 | 153 | 146 | 146 | 152 | 154 | 168 | 1.865 | 177.700 | 10,50 |
1995 | 2 | 169 | 149 | 180 | 163 | 151 | 141 | 151 | 152 | 144 | 161 | 154 | 176 | 1.891 | 178.200 | 10,61 |
1996 | 3 | 186 | 152 | 166 | 154 | 145 | 138 | 149 | 145 | 144 | 153 | 148 | 170 | 1.850 | 178.800 | 10,35 |
1997 | 4 | 174 | 147 | 157 | 145 | 149 | 140 | 143 | 144 | 140 | 150 | 149 | 166 | 1.804 | 179.500 | 10,05 |
1998 | 5 | 164 | 157 | 187 | 159 | 149 | 143 | 144 | 142 | 138 | 143 | 143 | 161 | 1.830 | 180.200 | 10,16 |
1999 | 6 | 168 | 147 | 164 | 148 | 148 | 143 | 148 | 146 | 144 | 151 | 152 | 162 | 1.821 | 181.000 | 10,06 |
2000 | 7 | 169 | 154 | 175 | 156 | 145 | 141 | 144 | 140 | 144 | 150 | 150 | 166 | 1.834 | 182.300 | 10,06 |
2001 | 8 | 167 | 151 | 167 | 157 | 148 | 141 | 147 | 141 | 142 | 148 | 149 | 168 | 1.826 | 183.700 | 9,94 |
2002 | 9 | 188 | 158 | 160 | 147 | 147 | 136 | 138 | 136 | 134 | 149 | 148 | 158 | 1.799 | 185.100 | 9,72 |
2003 | 10 | 171 | 146 | 161 | 150 | 146 | 137 | 145 | 140 | 142 | 149 | 149 | 172 | 1.808 | 186.800 | 9,68 |
2004 | 11 | 173 | 145 | 163 | 150 | 146 | 134 | 144 | 140 | 142 | 152 | 144 | 164 | 1.797 | 188.300 | 9,54 |
2005 | 12 | 169 | 168 | 175 | 154 | 149 | 136 | 143 | 141 | 139 | 150 | 146 | 169 | 1.839 | 189.700 | 9,69 |
2006 | 13 | 176 | 159 | 171 | 158 | 144 | 137 | 139 | 139 | 137 | 146 | 145 | 159 | 1.810 | 191.100 | 9,47 |
2007 | 14 | 162 | 148 | 154 | 144 | 148 | 136 | 148 | 144 | 140 | 149 | 145 | 161 | 1.779 | 192.900 | 9,22 |
2008 | 15 | 173 | 162 | 173 | 155 | 147 | 137 | 142 | 136 | 140 | 145 | 147 | 159 | 1.816 | 194.900 | 9,32 |
2009 | 16 | 174 | 156 | 163 | 151 | 143 | 134 | 145 | 143 | 137 | 150 | 151 | 169 | 1.816 | 197.000 | 9,22 |
2010 | 17 | 186 | 161 | 165 | 155 | 150 | 137 | 139 | 140 | 138 | 152 | 150 | 165 | 1.838 | 199.900 | 9,19 |
2011 | 18 | 176 | 167 | 189 | 156 | 139 | 133 | 149 | 139 | 139 | 149 | 142 | 160 | 1.838 | 202.400 | 9,08 |
2012 | 19 | 167 | 150 | 156 | 147 | 143 | 133 | 139 | 141 | 137 | 151 | 149 | 158 | 1.771 | 204.600 | 8,66 |
2013 | 20 | 167 | 151 | 171 | 211 | 178 | 149 | 142 | 139 | 135 | 146 | 164 | 204 | 1.957 | 206.600 | 9,47 |
2014 | 21 | 204 | 151 | 156 | 146 | 145 | 132 | 140 | 141 | 143 | 151 | 153 | 171 | 1.833 | 207.600 | 8,83 |
Sep | Oct | Nov | Dec | Jan | Feb | Mar | Apr | May | Jun | Jul | Aug | Total | Population | Mean | ||
1995 | 1 | 146 | 152 | 154 | 168 | 169 | 149 | 180 | 163 | 151 | 141 | 151 | 152 | 1.876 | 178.200 | 10,53 |
1996 | 2 | 144 | 161 | 154 | 176 | 186 | 152 | 166 | 154 | 145 | 138 | 149 | 145 | 1.870 | 178.800 | 10,46 |
1997 | 3 | 144 | 153 | 148 | 170 | 174 | 147 | 157 | 145 | 149 | 140 | 143 | 144 | 1.814 | 179.500 | 10,11 |
1998 | 4 | 140 | 150 | 149 | 166 | 164 | 157 | 187 | 159 | 149 | 143 | 144 | 142 | 1.850 | 180.200 | 10,27 |
1999 | 5 | 138 | 143 | 143 | 161 | 168 | 147 | 164 | 148 | 148 | 143 | 148 | 146 | 1.797 | 181.000 | 9,93 |
2000 | 6 | 144 | 151 | 152 | 162 | 169 | 154 | 175 | 156 | 145 | 141 | 144 | 140 | 1.833 | 182.300 | 10,05 |
2001 | 7 | 144 | 150 | 150 | 166 | 167 | 151 | 167 | 157 | 148 | 141 | 147 | 141 | 1.829 | 183.700 | 9,96 |
2002 | 8 | 142 | 148 | 149 | 168 | 188 | 158 | 160 | 147 | 147 | 136 | 138 | 136 | 1.817 | 185.100 | 9,82 |
2003 | 9 | 134 | 149 | 148 | 158 | 171 | 146 | 161 | 150 | 146 | 137 | 145 | 140 | 1.785 | 186.800 | 9,56 |
2004 | 10 | 142 | 149 | 149 | 172 | 173 | 145 | 163 | 150 | 146 | 134 | 144 | 140 | 1.807 | 188.300 | 9,60 |
2005 | 11 | 142 | 152 | 144 | 164 | 169 | 168 | 175 | 154 | 149 | 136 | 143 | 141 | 1.837 | 189.700 | 9,68 |
2006 | 12 | 139 | 150 | 146 | 169 | 176 | 159 | 171 | 158 | 144 | 137 | 139 | 139 | 1.827 | 191.100 | 9,56 |
2007 | 13 | 137 | 146 | 145 | 159 | 162 | 148 | 154 | 144 | 148 | 136 | 148 | 144 | 1.771 | 192.900 | 9,18 |
2008 | 14 | 140 | 149 | 145 | 161 | 173 | 162 | 173 | 155 | 147 | 137 | 142 | 136 | 1.820 | 194.900 | 9,34 |
2009 | 15 | 140 | 145 | 147 | 159 | 174 | 156 | 163 | 151 | 143 | 134 | 145 | 143 | 1.800 | 197.000 | 9,14 |
2010 | 16 | 137 | 150 | 151 | 169 | 186 | 161 | 165 | 155 | 150 | 137 | 139 | 140 | 1.840 | 199.900 | 9,20 |
2011 | 17 | 138 | 152 | 150 | 165 | 176 | 167 | 189 | 156 | 139 | 133 | 149 | 139 | 1.853 | 202.400 | 9,16 |
2012 | 18 | 139 | 149 | 142 | 160 | 167 | 150 | 156 | 147 | 143 | 133 | 139 | 141 | 1.766 | 204.600 | 8,63 |
2013 | 19 | 137 | 151 | 149 | 158 | 167 | 151 | 171 | 211 | 178 | 149 | 142 | 139 | 1.903 | 206.600 | 9,21 |
2014 | 20 | 135 | 146 | 164 | 204 | 204 | 151 | 156 | 146 | 145 | 132 | 140 | 141 | 1.864 | 207.600 | 8,98 |
80.123.172.54 15:54, 18. Okt. 2024 (CEST)
- Hier auch der Code für R-Statistic für die Bearbeitung der Daten.
- library(readxl)
- rs1 <- read_excel("Dokumente/rs1.xlsx")
- rs1f <- data.frame(rs1)
- modelA<- lm(mort~ year, data= rs1)
- a<- length(rs1$year)
- yearValues <- seq(1, a, 1)
- Apredict <- predict( modelA, list(year=yearValues))
- Apredictf <- data.frame(Apredict)
- ConfInSwed <- predict(modelA,interval = "confidence")
- ConfInSwed <- data.frame(ConfInSwed)
- ConfInSwed$year <- rs1$year
- ConfInSwed$year2 <- ConfInSwed$year^2
- modelUpCI<- lm(upr~ year+year2, data= ConfInSwed)
- LineUpCI <- predict( modelUpCI, list(year=yearValues,year2=yearValues^2))
- modelDownCI<- lm(lwr~ year+year2, data= ConfInSwed)
- LineDownCI <- predict( modelDownCI, list(year=yearValues,year2=yearValues^2))
- rs1f$pred <- Apredictf$Apredict
- rs1f <- transform(rs1f, PercPred = 100*(mort-pred) / pred)
- rs1f$downCI <- LineDownCI
- rs1f$upCI <- LineUpCI
- rs1f <- transform(rs1f, PercDownCI = 100*(mort-upCI) / upCI)
- rs1f <- transform(rs1f, PercUpCI = 100*(mort-downCI) / downCI)
- PredInSwed <- predict(modelA,interval = "prediction")
- PredInSwed <- data.frame(PredInSwed)
- PredInSwed$year <- rs1$year
- PredInSwed$year2 <- PredInSwed$year^2
- modelUpPI<- lm(upr~ year+year2, data= PredInSwed)
- LineUpPI <- predict( modelUpPI, list(year=yearValues,year2=yearValues^2))
- modelDownPI<- lm(lwr~ year+year2, data= PredInSwed)
- LineDownPI <- predict( modelDownPI, list(year=yearValues,year2=yearValues^2))
- rs1f$downPI <- LineDownPI
- rs1f$upPI <- LineUpPI
- rs1f <- transform(rs1f, PercDownPI = 100*(mort-upPI) / upPI)
- rs1f <- transform(rs1f, PercUpPI = 100*(mort-downPI) / downPI)
- rs1f <- transform(rs1f, DifPIMCI = (upPI-downPI) - (upCI-downCI))
- yearList<-seq(2021-a, 2020, 1)
- rs1$year<-yearList
- rs1f$year<- yearList
- plot(rs1$year,rs1$mort,xlab="Year",ylab="Mortality")
- lines <- lines(yearList, Apredict, col=2, lwd=2)
- lines <- lines(yearList, LineUpCI, col=2, lwd=3, lty=2)
- lines <- lines(yearList, LineDownCI, col=2, lwd=3, lty=2)
- lines <- lines(yearList, LineUpPI, col=2, lwd=2, lty=3)
- lines <- lines(yearList, LineDownPI, col=2, lwd=2, lty=3)
- write.table(rs1f, col.names = NA)
- summary(modelA)
80.123.172.54 18:55, 25. Okt. 2024 (CEST)