# Multiple Lineare Regression (Teil 2)

Vorhersagemodell für die Waldbrandgefahr in Deutschland

Sören Sparmann (Universität Paderborn)  
2025-05-30

## 1 Multiple Lineare Regression

In Teil 1 haben wir festgestellt, dass die Oberflächentemperatur als
alleinige Eingabevariable nicht ausreicht, um die Waldbrandgefahr
zufriedenstellend genau vorherzusagen.

Deshalb erweitern wir das Modell – wie ursprünglich vorgesehen – um die
zusätzlichen Variablen **Vegetationsindex** und **Niederschlag**.

## 2 Daten einlesen

Zunächst werden die historischen Daten erneut eingelesen, die als
Grundlage für das Training des Vorhersagemodells dienen.

In [15]:
# Pandas Bibliothek unter dem Namen pd importieren
import pandas as pd

# Daten einlesen
df = pd.read_csv('data/fire_prediction.csv', index_col='time')

# Daten ausgeben
df

## 3 Erweiterte Modellannahme

Nun erweitern wir das Modell wie ursprünglich geplant, sodass auch die
Variablen **Vegetationsindex** und **Niederschlag** in die Vorhersage
einbezogen werden.

Da nun mehr als eine unabhängige Variable verwendet wird, handelt es
sich um eine **Multiple Lineare Regression (MLR)**.

Jede Eingabevariable $x_i$ erhält dabei einen eigenen Koeffizienten
$a_i$, der den Einfluss dieser Variable auf die Vorhersage gewichtet.
Das Modell besitzt somit insgesamt vier Parameter: $a_1$, $a_2$, $a_3$
und $b$.

Mathematisch ausgedrückt sieht das Modell wie folgt aus:

$$\text{active\_fires} = a_1 \cdot \text{land\_surface\_temp} + a_2 \cdot \text{ndvi} + a_3 \cdot \text{precipitation} + b$$

<figure id="fig-lineares-modell">
<img src="attachment:figures/lineares_modell.svg" />
<figcaption>Abbildung 1: Lineares Modell</figcaption>
</figure>

In [3]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model

## 4 Abhängige und Unabhängige Variablen definieren

#### Aufgabe 6

-   Kopiere und modifiziere den folgenden Programmcode gemäß der
    [:erweiterten Modellannahme](#Erweiterte-Modellannahme&cut=1)!
-   Füge dazu die Namen der unabhängigen und abhängigen Variablen an den
    entsprechenden Stellen ein.

*(5 Minuten)*

> **Tipp**
>
> Du kannst mehrere Variablen eingeben, indem du diese durch ein Komma
> trennst `'variable 1', 'variable 2', ...`.

``` python
# Unabhängigen Variablen
X = df[[ ]].values

# Abhängige Variable
y = df[ ].values

# Erste 10 Werte anzeigen
print(X[:10])

# Erste 10 Werte anzeigen
print(y[:10])
```

In [4]:
# Hier Code einfügen

## 5 Trainings- und Validierungsdaten

#### Aufgabe 7

-   Teilen sie den Datensatz nun in Trainings- und Validierungsdaten
    auf.
-   Verwenden Sie die gleichen Parameter
    (`random_state=42, test_size=0.25`) wie zuvor, um die Vergleichbar
    sicher zu stellen.

*(5 Minuten)*

## 6 Modell trainieren

#### Aufgabe 8

-   Trainieren Sie das Modell mit den Trainingsdaten.

*(5 Minuten)*

In [7]:
# Hier Code einfügen

## 7 Vorhersage machen

#### Aufgabe 9

Stelle dir vor, du verwendest das Modell in der Zukunft, um die
Waldbrandgefahr vorherzusagen.

-   Im August 2025 wird folgende Messungen gemacht
    -   Oberflächentemperatur: 35 C°
    -   Vegetationsindex: 0.7
    -   Niederschlag: 25 mm
-   Bestimme die zu erwartende Anzahl an Waldbränden!

*(10 Minuten)*

In [9]:
# Hier Code einfügen

**Antwort**

*Klicke hier, um deine Antwort einzugeben.*

## 8 Modell evaluieren

#### Aufgabe 10

-   Evaluiere das Modell wie in Teil 1 gezeigt:
    -   Erstelle ein Streudiagramm, das die vorhergesagten Werte den
        tatsächlichen gegenüberstellt.
    -   Berechne den Score ($R^2$) des neuen Modells.
-   Hat sich die Güte des Modells durch das Hinzufügen der Variablen
    verbessert? Begründe!

*(10 Minuten)*

In [11]:
import plotly.express as px
# Hier Code einfügen

**Antwort**

*Klicke hier, um deine Antwort einzugeben.*

## 9 Verbesserung des Modells

#### Aufgabe 11

-   Wie könnte man die Genauigkeit der Vorhersagen des Modells noch
    weiter verbessern?
-   Notiere mindestens zwei Ideen!

*(10 Minuten)*

**Antwort**

*Klicken Sie hier, um Ihre Antwort einzugeben*

## 10 Zusammenfassung

In diesem Notebook hast du gelernt, wie du:

-   das bestehende Vorhersagemodell um weitere Variablen erweiterst,
    z. B. Vegetationsindex (`ndvi`) und Niederschlagsmenge
    (`precipitation`),
-   die unabhängigen Variablen als Matrix `X` und die Zielvariable als
    Vektor `y` vorbereitest,
-   ein multiples lineares Regressionsmodell mit `LinearRegression()`
    trainierst,
-   die Regressionskoeffizienten für jede Einflussvariable
    interpretierst,
-   die Vorhersagegenauigkeit des erweiterten Modells mit dem einfachen
    Modell vergleichst,
-   feststellst, dass zusätzliche Informationen (mehr Prädiktoren) oft
    zu besseren Vorhersagen führen,
-   wichtige Konzepte der Modellerweiterung, Vergleichbarkeit und
    Interpretation in der multivariaten Regression verstehst.