So schreiben Sie SQL-Abfragen in Python mit Pandas neu

In diesem Artikel erklärte June Tao Ching, wie in Python das gleiche Ergebnis erzielt wird wie in SQL-Abfragen mit Pandas. Vor Ihnen - die Übersetzung und das Original finden Sie im Blog in Richtung Datascience.com.



Bild

Foto von der Unsplash- Website . Verfasser: Hitesh Choudhary



In Python wird das gleiche Ergebnis wie bei einer SQL-Abfrage erzielt



Wenn wir an demselben Projekt arbeiten, müssen wir häufig zwischen SQL und Python wechseln. Einige von uns sind jedoch mit der Datenmanipulation in SQL-Abfragen vertraut, nicht jedoch in Python, was unsere Effizienz und Produktivität beeinträchtigt. Tatsächlich können Sie mit Pandas in Python das gleiche Ergebnis erzielen wie in SQL-Abfragen.



Arbeitsbeginn



Sie müssen das Pandas-Paket installieren, wenn es nicht vorhanden ist.



conda install pandas


Wir werden den berühmten Titanic-Datensatz von Kaggle verwenden .



Nach der Installation des Pakets und dem Herunterladen der Daten müssen wir sie in unsere Python-Umgebung importieren.



Bild



Wir werden einen DataFrame verwenden, um Daten zu speichern. Verschiedene Pandas-Funktionen helfen uns bei der Verwaltung dieser Datenstruktur.



SELECT, DISTINCT, COUNT, LIMIT



Beginnen wir mit einfachen SQL-Abfragen, die wir häufig verwenden.



Bild



titanic_df["age"].unique()gibt ein Array eindeutiger Werte zurück, daher müssen wir len()ihre Anzahl zählen.



SELECT, WHERE, OR, AND, IN (SELECT mit Bedingungen)



Nach dem ersten Teil haben Sie gelernt, wie Sie einen DataFrame auf einfache Weise erkunden. Versuchen wir nun, dies unter bestimmten Bedingungen zu tun (dies ist eine Anweisung WHEREin SQL).



Bild



Wenn wir nur bestimmte Spalten aus dem DataFrame auswählen möchten, können wir dies mit einem zusätzlichen Paar eckiger Klammern tun.



Hinweis: Wenn Sie mehrere Spalten auswählen, müssen Sie das Array ["name","age"]in eckige Klammern setzen.



isin()funktioniert genauso wie INbei SQL-Abfragen. Um zu verwenden NOT IN, müssen wir in Python die Negation verwenden (~).



GRUPPE NACH, BESTELLEN NACH, ZÄHLEN



GROUP BYund ORDER BYsind auch beliebte SQL-Anweisungen für Data Mining. Versuchen wir nun, sie in Python zu verwenden.



Bild



Wenn wir nur eine COUNT-Spalte sortieren möchten, können wir einfach einen booleschen Wert an die Methode übergeben sort_values. Wenn wir mehrere Spalten sortieren wollen, müssen wir ein Array von Booleschen Werten an die Methode übergeben sort_values.



Die Methode sum()gibt die Summen für jede der Spalten im DataFrame zurück, die numerisch aggregiert werden können. Wenn wir nur eine bestimmte Spalte möchten, müssen wir den Spaltennamen in eckigen Klammern angeben.



MIN, MAX, MEAN, MEDIAN



Lassen Sie uns abschließend einige der statistischen Standardfunktionen ausprobieren, die beim Erkunden von Daten wichtig sind.



Bild



SQL enthält keine Operatoren, die den Medianwert zurückgeben. Daher verwenden wir BigQuery, um den Medianwert der Altersspalte abzurufen. In APPROX_QUANTILES



Pandas unterstützt die Aggregationsmethode beispielsweise .agg()auch andere Funktionen sum.



Sie haben jetzt gelernt, wie Sie SQL-Abfragen in Python mit Pandas neu schreiben . Ich hoffe, Sie finden diesen Artikel hilfreich.



Der gesamte Code befindet sich in meinem Github- Repository .



Vielen Dank für Ihre Aufmerksamkeit!



All Articles