Heart Disease
https://github.com/Sina-Khan/Heart-Disease
Dieser Dataset enthält 16 Spalten und 4238 Zeilen. Ziel ist es, die Wahrscheinlichkeit eines Herzinfarkts durch Überprüfung verschiedener Variablen zu überprüfen. Viele Zeilen enthalten fehlende Werte. In Python wurden diese fehlenden Werte auf unterschiedliche Weise ersetzt und Ausreißer entfernt.
Anschließend wurde eine Reihe von Diagrammen gezeichnet, um die Wirkung der Variablen visuell besser zu verstehen.
Und am Ende wurde die Wahrscheinlichkeit eines Herzinfarkts anhand dieser Variablen mit statistischen Tools wie Regression, KNN und XGBoost überprüft.
Das Dashboard für die Berichterstellung wird ebenfalls in Power BI erstellt.
Dashboard
Datenbereinigung vorher und nachher
Histogram und KDE Plot
Korrelation zwischen Variablen
Regression, KNN und XGBoost Analysis