Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python
von: Joel Grus
O'Reilly Verlag, 2016
ISBN: 9783960100256
Sprache: Deutsch
348 Seiten, Download: 23377 KB
Format: EPUB, PDF, auch als Online-Lesen
Inhalt | 5 | ||
Vorwort | 11 | ||
Data Science | 11 | ||
Bei Null starten | 12 | ||
In diesem Buch verwendete Konventionen | 13 | ||
Verwenden von Codebeispielen | 14 | ||
Danksagungen | 15 | ||
Kapitel 1 – Einführung | 17 | ||
Der Aufstieg der Daten | 17 | ||
Was ist Data Science? | 17 | ||
Ein motivierendes Szenario: DataSciencester | 19 | ||
Finden von Schlüsselpersonen | 19 | ||
Data Scientists, die Sie kennen könnten | 22 | ||
Gehälter und Erfahrung | 25 | ||
Bezahlte Nutzerkonten | 27 | ||
Interessante Themen | 28 | ||
Weiter geht’s! | 29 | ||
Kapitel 2 – Ein Crashkurs in Python | 31 | ||
Grundlagen | 31 | ||
Python installieren | 31 | ||
Zen und Python | 32 | ||
Formatieren durch Leerzeichen | 32 | ||
Module | 33 | ||
Arithmetik | 34 | ||
Funktionen | 34 | ||
Strings | 35 | ||
Exceptions | 36 | ||
Listen | 36 | ||
Tupel | 38 | ||
Dictionaries | 38 | ||
defaultdict | 40 | ||
Counter | 41 | ||
Sets | 41 | ||
Kontrollfluss | 42 | ||
Wahrheitswerte | 43 | ||
Über die Grundlagen hinaus | 44 | ||
Sortieren | 44 | ||
List Comprehensions | 45 | ||
Generatoren und Iteratoren | 45 | ||
Zufall | 47 | ||
Reguläre Ausdrücke | 48 | ||
Objektorientierte Programmierung | 48 | ||
Funktionale Hilfsmittel | 49 | ||
enumerate | 51 | ||
zip und Entpacken von Argumenten | 51 | ||
args und kwargs | 52 | ||
Willkommen bei DataSciencester! | 53 | ||
Weiterführendes Material | 53 | ||
Kapitel 3 – Daten visualisieren | 55 | ||
matplotlib | 55 | ||
Balkendiagramme | 57 | ||
Liniendiagramme | 61 | ||
Scatterplots | 62 | ||
Weiterführendes Material | 65 | ||
Kapitel 4 – Lineare Algebra | 67 | ||
Vektoren | 67 | ||
Matrizen | 71 | ||
Weiterführendes Material | 74 | ||
Kapitel 5 – Statistik | 75 | ||
Einen einzelnen Datensatz beschreiben | 75 | ||
Lagemaße | 77 | ||
Streuung | 79 | ||
Korrelation | 80 | ||
Das Simpson-Paradoxon | 83 | ||
Weitere Fallstricke von Korrelationen | 84 | ||
Korrelation und Kausalität | 85 | ||
Weiterführendes Material | 86 | ||
Kapitel 6 – Wahrscheinlichkeit | 87 | ||
Abhängigkeit und Unabhängigkeit | 87 | ||
Bedingte Wahrscheinlichkeit | 88 | ||
Der Satz von Bayes | 90 | ||
Zufallsvariablen | 91 | ||
Kontinuierliche Wahrscheinlichkeitsverteilungen | 92 | ||
Die Normalverteilung | 93 | ||
Der zentrale Grenzwertsatz | 97 | ||
Weiterführendes Material | 99 | ||
Kapitel 7 – Hypothesen und Schlussfolgerungen | 101 | ||
Testen statistischer Hypothesen | 101 | ||
Beispiel: Münzwürfe | 101 | ||
p-Werte | 104 | ||
Konfidenzintervalle | 106 | ||
P-Hacking | 107 | ||
Beispiel: Durchführen eines A/B-Tests | 108 | ||
Bayessche Inferenz | 109 | ||
Weiterführendes Material | 113 | ||
Kapitel 8 – Die Gradientenmethode | 115 | ||
Die Idee hinter der Gradientenmethode | 115 | ||
Abschätzen des Gradienten | 116 | ||
Den Gradienten verwenden | 119 | ||
Auswahl der richtigen Schrittweite | 120 | ||
Anwendungsbeispiel | 120 | ||
Stochastische Gradientenmethode | 122 | ||
Weiterführendes Material | 123 | ||
Kapitel 9 – Daten sammeln | 125 | ||
stdin und stdout | 125 | ||
Einlesen von Dateien | 127 | ||
Grundlagen von Textdateien | 127 | ||
Dateien mit Feldtrennern | 128 | ||
Auslesen von Webseiten | 130 | ||
Parsen von HTML-Dokumenten | 130 | ||
Beispiel: O&apos | 132 | ||
Verwenden von APIs | 137 | ||
JSON (und XML) | 137 | ||
Eine nicht authentifizierte API verwenden | 138 | ||
APIs finden | 139 | ||
Beispiel: Verwenden der Twitter-APIs | 140 | ||
Zugriff auf die APIs erhalten | 140 | ||
Twython verwenden | 141 | ||
Weiterführendes Material | 143 | ||
Kapitel 10 – Arbeiten mit Daten | 145 | ||
Erkunden Ihrer Daten | 145 | ||
Erkunden eindimensionaler Daten | 145 | ||
Zwei Dimensionen | 147 | ||
Mehrere Dimensionen | 149 | ||
Bereinigen und Umformen | 151 | ||
Manipulieren von Daten | 153 | ||
Umskalieren | 157 | ||
Hauptkomponentenanalyse | 158 | ||
Weiterführendes Material | 164 | ||
Kapitel 11 – Maschinelles Lernen | 165 | ||
Modellieren | 165 | ||
Was ist maschinelles Lernen? | 166 | ||
Overfitting und Underfitting | 167 | ||
Genauigkeit | 169 | ||
Der Kompromiss zwischen Bias und Varianz | 172 | ||
Extraktion und Auswahl von Eigenschaften | 173 | ||
Weiterführendes Material | 175 | ||
Kapitel 12 – k-Nächste-Nachbarn | 177 | ||
Das Modell | 177 | ||
Beispiel: bevorzugte Programmiersprachen | 179 | ||
Der Fluch der Dimensionalität | 183 | ||
Weiterführendes Material | 189 | ||
Kapitel 13 – Naive Bayes-Klassifikatoren | 191 | ||
Ein wirklich primitiver Spam-Filter | 191 | ||
Ein anspruchsvollerer Spam-Filter | 192 | ||
Implementierung | 194 | ||
Testen des Modells | 195 | ||
Weiterführendes Material | 198 | ||
Kapitel 14 – Einfache lineare Regression | 199 | ||
Das Modell | 199 | ||
Anwenden des Gradientenverfahrens | 202 | ||
Maximum-Likelihood-Methode | 203 | ||
Weiterführendes Material | 203 | ||
Kapitel 15 – Multiple Regression | 205 | ||
Das Modell | 205 | ||
Weitere Annahmen bei der Methode der kleinsten Quadrate | 206 | ||
Anpassen des Modells | 207 | ||
Interpretation des Modells | 208 | ||
Anpassungsgüte | 209 | ||
Exkurs: Bootstrapping | 210 | ||
Standardfehler von Regressionskoeffizienten | 211 | ||
Regularisierung | 213 | ||
Weiterführendes Material | 215 | ||
Kapitel 16 – Logistische Regression | 217 | ||
Die Aufgabe | 217 | ||
Die logistische Funktion | 220 | ||
Anwendung des Modells | 222 | ||
Anpassungsgüte | 223 | ||
Support Vector Machines | 224 | ||
Weiterführendes Material | 228 | ||
Kapitel 17 – Entscheidungsbäume | 229 | ||
Was ist ein Entscheidungsbaum? | 229 | ||
Entropie | 231 | ||
Die Entropie einer Partition | 233 | ||
Einen Entscheidungsbaum erzeugen | 234 | ||
Verallgemeinerung des Verfahrens | 237 | ||
Random Forests | 239 | ||
Weiterführendes Material | 240 | ||
Kapitel 18 – Neuronale Netzwerke | 241 | ||
Perzeptrons | 241 | ||
Feed-forward-Netze | 243 | ||
Backpropagation | 246 | ||
Beispiel: Bezwingen eines CAPTCHA | 247 | ||
Weiterführendes Material | 252 | ||
Kapitel 19 – Clustering | 253 | ||
Die Idee | 253 | ||
Das Modell | 254 | ||
Beispiel: Meetups | 255 | ||
Die Auswahl von k | 258 | ||
Beispiel: Clustern von Farben | 259 | ||
Agglomeratives hierarchisches Clustering | 261 | ||
Weiterführendes Material | 266 | ||
Kapitel 20 – Linguistische Datenverarbeitung | 267 | ||
Wortwolken | 267 | ||
N-Gramm-Modelle | 269 | ||
Grammatiken | 272 | ||
Exkurs: Gibbs-Sampling | 274 | ||
Themenmodellierung | 276 | ||
Weiterführendes Material | 281 | ||
Kapitel 21 – Graphenanalyse | 283 | ||
Betweenness-Zentralität | 283 | ||
Eigenvektor-Zentralität | 288 | ||
Matrizenmultiplikation | 288 | ||
Zentralität | 291 | ||
Gerichtete Graphen und PageRank | 292 | ||
Weiterführendes Material | 295 | ||
Kapitel 22 – Empfehlungssysteme | 297 | ||
Manuelle Pflege | 298 | ||
Empfehlen, was beliebt ist | 298 | ||
Nutzerbasiertes kollaboratives Filtern | 299 | ||
Gegenstandsbasiertes kollaboratives Filtern | 302 | ||
Weiterführendes Material | 304 | ||
Kapitel 23 – Datenbanken und SQL | 305 | ||
CREATE TABLE und INSERT | 305 | ||
UPDATE | 307 | ||
DELETE | 308 | ||
SELECT | 308 | ||
GROUP BY | 310 | ||
ORDER BY | 312 | ||
JOIN | 313 | ||
Subqueries | 316 | ||
Indexstrukturen | 316 | ||
Optimierung von Anfragen | 317 | ||
NoSQL | 317 | ||
Weiterführendes Material | 318 | ||
Kapitel 24 – MapReduce | 319 | ||
Beispiel: Wörter zählen | 319 | ||
Warum MapReduce? | 321 | ||
MapReduce verallgemeinert | 322 | ||
Beispiel: Statusmeldungen analysieren | 323 | ||
Beispiel: Matrizenmultiplikation | 324 | ||
Eine Randbemerkung: Combiners | 326 | ||
Weiterführendes Material | 326 | ||
Kapitel 25 – Gehet hin und praktizieret Data Science | 329 | ||
IPython | 329 | ||
Mathematik | 330 | ||
Nicht bei null starten | 330 | ||
NumPy | 331 | ||
pandas | 331 | ||
scikit-learn | 331 | ||
Visualisierung | 331 | ||
R | 332 | ||
Finden Sie Daten | 332 | ||
Data Science in der Praxis | 333 | ||
Hacker News | 333 | ||
Feuerwehrautos | 333 | ||
T-Shirts | 334 | ||
Und Sie? | 335 | ||
Index | 337 | ||
Über den Autor/Übersetzer/Kolophon | 347 | ||
www.oreilly.de | 0 |