Random-Walk-Gravity-Regression-Fallstudie
Entwickelt und validiert eine Regressionspipeline, die die Gravitationskonstante einer 2D-Random-Walk-Simulation vorhersagt und eine wettbewerbsartige Validierungsdatei exportiert.
Ueberblick
Diese Data-Analysis-Fallstudie behandelt ueberwachtes Regressionslernen auf simulationsbasierten Daten. Der Workflow liest den Trainingsdatensatz, erstellt Features, vergleicht mehrere Regressionsmodelle, waehlt das beste Modell aus und schreibt Vorhersagen fuer das ungelabelte Validierungsset im geforderten Abgabeformat.
Problem
Das Validierungsset enthaelt Features, aber keine Labels. Das Modell muss daher aus den gelabelten Trainingsdaten den Zusammenhang zwischen Random-Walk-Verhalten und versteckter Gravitationskonstante lernen und gleichzeitig strikte Dateiformat-Anforderungen erfuellen.
Loesung
Ich habe ein reproduzierbares Notebook und ein Helper-Python-Modul erstellt, Train/Test-Validierung genutzt, mindestens vier Regressionsansaetze verglichen, einen HistGradientBoostingRegressor ausgewaehlt und die finale io25m025_validate.txt-Datei mit run_id- und gravity-Vorhersagen erzeugt.
Architektur
Datensatz
Das Trainings-CSV liefert gelabelte Simulationsfeatures; das Validierungs-CSV liefert dieselbe Feature-Struktur ohne Gravity-Labels.
Modellierung
Die Python-Pipeline bereitet Features vor, teilt Trainings- und Testdaten, bewertet mehrere Regressoren und haelt wiederverwendbaren Code in einem Helper-Modul.
Abgabe
Das finale Artefakt ist eine Plain-Text-Validierungsdatei mit exakt gefordertem Header und Vorhersagezeilen, ergaenzt durch Notebook- und HTML-Report-Evidenz.
Sicherheit
Das Projekt nutzt ausschliesslich lokale CSV-Dateien und haelt den Validierungsworkflow deterministisch und pruefbar; externe Services oder Credentials sind nicht erforderlich.
Zuverlaessigkeit
Die Abgabedatei wurde vor dem Packaging auf Zeilenanzahl, Header-Format, doppelte run_ids, fehlende Werte, Validierungsreihenfolge und Vorhersagebereich geprueft.
Wesentliche Merkmale
- Feature-Aufbereitung und wiederverwendbares Helper-Modul fuer Regressionsexperimente
- Vergleich mehrerer Regressionsmodelle mit Train/Test-Evaluation
- Finaler Prediction-Export mit geforderter Student-ID-Namenskonvention
- Notebook und HTML-Report dokumentieren Pipeline und Modellauswahl
- Validierungschecks fuer Header, Zeilenanzahl, fehlende Werte, Duplikate und run_id-Ausrichtung
Ergebnisse und Wirkung
- Bestes Hold-out-Modell erreichte etwa 1.19% normalisierte MAE und R2 von 0.9914
- Gueltige io25m025_validate.txt-Datei fuer das ungelabelte Validierungsset generiert
- Code, Notebook, HTML-Report, PDF-Instruktion und Prediction-Datei fuer die Abgabe paketiert