Foto von der Unsplash- Website . Verfasser: Hitesh Choudhary
In Python wird das gleiche Ergebnis wie bei einer SQL-Abfrage erzielt
Wenn wir an demselben Projekt arbeiten, müssen wir häufig zwischen SQL und Python wechseln. Einige von uns sind jedoch mit der Datenmanipulation in SQL-Abfragen vertraut, nicht jedoch in Python, was unsere Effizienz und Produktivität beeinträchtigt. Tatsächlich können Sie mit Pandas in Python das gleiche Ergebnis erzielen wie in SQL-Abfragen.
Arbeitsbeginn
Sie müssen das Pandas-Paket installieren, wenn es nicht vorhanden ist.
conda install pandas
Wir werden den berühmten Titanic-Datensatz von Kaggle verwenden .
Nach der Installation des Pakets und dem Herunterladen der Daten müssen wir sie in unsere Python-Umgebung importieren.
Wir werden einen DataFrame verwenden, um Daten zu speichern. Verschiedene Pandas-Funktionen helfen uns bei der Verwaltung dieser Datenstruktur.
SELECT, DISTINCT, COUNT, LIMIT
Beginnen wir mit einfachen SQL-Abfragen, die wir häufig verwenden.
titanic_df["age"].unique()gibt ein Array eindeutiger Werte zurück, daher müssen wir len()ihre Anzahl zählen.
SELECT, WHERE, OR, AND, IN (SELECT mit Bedingungen)
Nach dem ersten Teil haben Sie gelernt, wie Sie einen DataFrame auf einfache Weise erkunden. Versuchen wir nun, dies unter bestimmten Bedingungen zu tun (dies ist eine Anweisung
WHEREin SQL).
Wenn wir nur bestimmte Spalten aus dem DataFrame auswählen möchten, können wir dies mit einem zusätzlichen Paar eckiger Klammern tun.
Hinweis: Wenn Sie mehrere Spalten auswählen, müssen Sie das Array
["name","age"]in eckige Klammern setzen.
isin()funktioniert genauso wie INbei SQL-Abfragen. Um zu verwenden NOT IN, müssen wir in Python die Negation verwenden (~).
GRUPPE NACH, BESTELLEN NACH, ZÄHLEN
GROUP BYund ORDER BYsind auch beliebte SQL-Anweisungen für Data Mining. Versuchen wir nun, sie in Python zu verwenden.
Wenn wir nur eine COUNT-Spalte sortieren möchten, können wir einfach einen booleschen Wert an die Methode übergeben
sort_values. Wenn wir mehrere Spalten sortieren wollen, müssen wir ein Array von Booleschen Werten an die Methode übergeben sort_values.
Die Methode
sum()gibt die Summen für jede der Spalten im DataFrame zurück, die numerisch aggregiert werden können. Wenn wir nur eine bestimmte Spalte möchten, müssen wir den Spaltennamen in eckigen Klammern angeben.
MIN, MAX, MEAN, MEDIAN
Lassen Sie uns abschließend einige der statistischen Standardfunktionen ausprobieren, die beim Erkunden von Daten wichtig sind.
SQL enthält keine Operatoren, die den Medianwert zurückgeben. Daher verwenden wir BigQuery, um den Medianwert der Altersspalte abzurufen. In
APPROX_QUANTILES
Pandas unterstützt die Aggregationsmethode beispielsweise
.agg()auch andere Funktionen sum.
Sie haben jetzt gelernt, wie Sie SQL-Abfragen in Python mit Pandas neu schreiben . Ich hoffe, Sie finden diesen Artikel hilfreich.
Der gesamte Code befindet sich in meinem Github- Repository .
Vielen Dank für Ihre Aufmerksamkeit!