Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python

Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python

 

 

 

von: Joel Grus

O'Reilly Verlag, 2016

ISBN: 9783960100256

Sprache: Deutsch

348 Seiten, Download: 23377 KB

 
Format:  EPUB, PDF, auch als Online-Lesen

geeignet für: geeignet für alle DRM-fähigen eReader geeignet für alle DRM-fähigen eReader Apple iPad, Android Tablet PC's Apple iPod touch, iPhone und Android Smartphones Online-Lesen PC, MAC, Laptop
Typ: A (einfacher Zugriff)

 

eBook anfordern

Mehr zum Inhalt

Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python



  Inhalt 5  
  Vorwort 11  
     Data Science 11  
     Bei Null starten 12  
     In diesem Buch verwendete Konventionen 13  
     Verwenden von Codebeispielen 14  
     Danksagungen 15  
  Kapitel 1 – Einführung 17  
     Der Aufstieg der Daten 17  
     Was ist Data Science? 17  
     Ein motivierendes Szenario: DataSciencester 19  
        Finden von Schlüsselpersonen 19  
        Data Scientists, die Sie kennen könnten 22  
        Gehälter und Erfahrung 25  
        Bezahlte Nutzerkonten 27  
        Interessante Themen 28  
        Weiter geht’s! 29  
  Kapitel 2 – Ein Crashkurs in Python 31  
     Grundlagen 31  
        Python installieren 31  
        Zen und Python 32  
        Formatieren durch Leerzeichen 32  
        Module 33  
        Arithmetik 34  
        Funktionen 34  
        Strings 35  
        Exceptions 36  
        Listen 36  
        Tupel 38  
        Dictionaries 38  
           defaultdict 40  
           Counter 41  
        Sets 41  
        Kontrollfluss 42  
        Wahrheitswerte 43  
     Über die Grundlagen hinaus 44  
        Sortieren 44  
        List Comprehensions 45  
        Generatoren und Iteratoren 45  
        Zufall 47  
        Reguläre Ausdrücke 48  
        Objektorientierte Programmierung 48  
        Funktionale Hilfsmittel 49  
        enumerate 51  
        zip und Entpacken von Argumenten 51  
        args und kwargs 52  
        Willkommen bei DataSciencester! 53  
     Weiterführendes Material 53  
  Kapitel 3 – Daten visualisieren 55  
     matplotlib 55  
     Balkendiagramme 57  
     Liniendiagramme 61  
     Scatterplots 62  
     Weiterführendes Material 65  
  Kapitel 4 – Lineare Algebra 67  
     Vektoren 67  
     Matrizen 71  
     Weiterführendes Material 74  
  Kapitel 5 – Statistik 75  
     Einen einzelnen Datensatz beschreiben 75  
        Lagemaße 77  
        Streuung 79  
     Korrelation 80  
     Das Simpson-Paradoxon 83  
     Weitere Fallstricke von Korrelationen 84  
     Korrelation und Kausalität 85  
     Weiterführendes Material 86  
  Kapitel 6 – Wahrscheinlichkeit 87  
     Abhängigkeit und Unabhängigkeit 87  
     Bedingte Wahrscheinlichkeit 88  
     Der Satz von Bayes 90  
     Zufallsvariablen 91  
     Kontinuierliche Wahrscheinlichkeitsverteilungen 92  
     Die Normalverteilung 93  
     Der zentrale Grenzwertsatz 97  
     Weiterführendes Material 99  
  Kapitel 7 – Hypothesen und Schlussfolgerungen 101  
     Testen statistischer Hypothesen 101  
     Beispiel: Münzwürfe 101  
     p-Werte 104  
     Konfidenzintervalle 106  
     P-Hacking 107  
     Beispiel: Durchführen eines A/B-Tests 108  
     Bayessche Inferenz 109  
     Weiterführendes Material 113  
  Kapitel 8 – Die Gradientenmethode 115  
     Die Idee hinter der Gradientenmethode 115  
     Abschätzen des Gradienten 116  
     Den Gradienten verwenden 119  
     Auswahl der richtigen Schrittweite 120  
     Anwendungsbeispiel 120  
     Stochastische Gradientenmethode 122  
     Weiterführendes Material 123  
  Kapitel 9 – Daten sammeln 125  
     stdin und stdout 125  
     Einlesen von Dateien 127  
        Grundlagen von Textdateien 127  
        Dateien mit Feldtrennern 128  
     Auslesen von Webseiten 130  
        Parsen von HTML-Dokumenten 130  
        Beispiel: O&apos 132  
     Verwenden von APIs 137  
        JSON (und XML) 137  
        Eine nicht authentifizierte API verwenden 138  
        APIs finden 139  
     Beispiel: Verwenden der Twitter-APIs 140  
        Zugriff auf die APIs erhalten 140  
           Twython verwenden 141  
     Weiterführendes Material 143  
  Kapitel 10 – Arbeiten mit Daten 145  
     Erkunden Ihrer Daten 145  
        Erkunden eindimensionaler Daten 145  
        Zwei Dimensionen 147  
        Mehrere Dimensionen 149  
     Bereinigen und Umformen 151  
     Manipulieren von Daten 153  
     Umskalieren 157  
     Hauptkomponentenanalyse 158  
     Weiterführendes Material 164  
  Kapitel 11 – Maschinelles Lernen 165  
     Modellieren 165  
     Was ist maschinelles Lernen? 166  
     Overfitting und Underfitting 167  
     Genauigkeit 169  
     Der Kompromiss zwischen Bias und Varianz 172  
     Extraktion und Auswahl von Eigenschaften 173  
     Weiterführendes Material 175  
  Kapitel 12 – k-Nächste-Nachbarn 177  
     Das Modell 177  
     Beispiel: bevorzugte Programmiersprachen 179  
     Der Fluch der Dimensionalität 183  
     Weiterführendes Material 189  
  Kapitel 13 – Naive Bayes-Klassifikatoren 191  
     Ein wirklich primitiver Spam-Filter 191  
     Ein anspruchsvollerer Spam-Filter 192  
     Implementierung 194  
     Testen des Modells 195  
     Weiterführendes Material 198  
  Kapitel 14 – Einfache lineare Regression 199  
     Das Modell 199  
     Anwenden des Gradientenverfahrens 202  
     Maximum-Likelihood-Methode 203  
     Weiterführendes Material 203  
  Kapitel 15 – Multiple Regression 205  
     Das Modell 205  
     Weitere Annahmen bei der Methode der kleinsten Quadrate 206  
     Anpassen des Modells 207  
     Interpretation des Modells 208  
     Anpassungsgüte 209  
     Exkurs: Bootstrapping 210  
     Standardfehler von Regressionskoeffizienten 211  
     Regularisierung 213  
     Weiterführendes Material 215  
  Kapitel 16 – Logistische Regression 217  
     Die Aufgabe 217  
     Die logistische Funktion 220  
     Anwendung des Modells 222  
     Anpassungsgüte 223  
     Support Vector Machines 224  
     Weiterführendes Material 228  
  Kapitel 17 – Entscheidungsbäume 229  
     Was ist ein Entscheidungsbaum? 229  
     Entropie 231  
     Die Entropie einer Partition 233  
     Einen Entscheidungsbaum erzeugen 234  
     Verallgemeinerung des Verfahrens 237  
     Random Forests 239  
     Weiterführendes Material 240  
  Kapitel 18 – Neuronale Netzwerke 241  
     Perzeptrons 241  
     Feed-forward-Netze 243  
     Backpropagation 246  
     Beispiel: Bezwingen eines CAPTCHA 247  
     Weiterführendes Material 252  
  Kapitel 19 – Clustering 253  
     Die Idee 253  
     Das Modell 254  
     Beispiel: Meetups 255  
     Die Auswahl von k 258  
     Beispiel: Clustern von Farben 259  
     Agglomeratives hierarchisches Clustering 261  
     Weiterführendes Material 266  
  Kapitel 20 – Linguistische Datenverarbeitung 267  
     Wortwolken 267  
     N-Gramm-Modelle 269  
     Grammatiken 272  
     Exkurs: Gibbs-Sampling 274  
     Themenmodellierung 276  
     Weiterführendes Material 281  
  Kapitel 21 – Graphenanalyse 283  
     Betweenness-Zentralität 283  
     Eigenvektor-Zentralität 288  
        Matrizenmultiplikation 288  
        Zentralität 291  
     Gerichtete Graphen und PageRank 292  
     Weiterführendes Material 295  
  Kapitel 22 – Empfehlungssysteme 297  
     Manuelle Pflege 298  
     Empfehlen, was beliebt ist 298  
     Nutzerbasiertes kollaboratives Filtern 299  
     Gegenstandsbasiertes kollaboratives Filtern 302  
     Weiterführendes Material 304  
  Kapitel 23 – Datenbanken und SQL 305  
     CREATE TABLE und INSERT 305  
     UPDATE 307  
     DELETE 308  
     SELECT 308  
     GROUP BY 310  
     ORDER BY 312  
     JOIN 313  
     Subqueries 316  
     Indexstrukturen 316  
     Optimierung von Anfragen 317  
     NoSQL 317  
     Weiterführendes Material 318  
  Kapitel 24 – MapReduce 319  
     Beispiel: Wörter zählen 319  
     Warum MapReduce? 321  
     MapReduce verallgemeinert 322  
     Beispiel: Statusmeldungen analysieren 323  
     Beispiel: Matrizenmultiplikation 324  
     Eine Randbemerkung: Combiners 326  
     Weiterführendes Material 326  
  Kapitel 25 – Gehet hin und praktizieret Data Science 329  
     IPython 329  
     Mathematik 330  
     Nicht bei null starten 330  
        NumPy 331  
        pandas 331  
        scikit-learn 331  
        Visualisierung 331  
        R 332  
     Finden Sie Daten 332  
     Data Science in der Praxis 333  
        Hacker News 333  
        Feuerwehrautos 333  
        T-Shirts 334  
        Und Sie? 335  
  Index 337  
  Über den Autor/Übersetzer/Kolophon 347  
  www.oreilly.de 0  

Kategorien

Service

Info/Kontakt

  Info
Hier gelangen Sie wieder zum Online-Auftritt Ihrer Bibliothek