Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python

von: Joel Grus

O'Reilly Verlag, 2016

ISBN: 9783960100256

Sprache: Deutsch

348 Seiten, Download: 23377 KB

Format: EPUB, PDF, auch als Online-Lesen

geeignet für:

Apple iPod touch, iPhone und Android Smartphones

Typ: A (einfacher Zugriff)

eBook anfordern

▸

Mehr zum Inhalt

Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python

	Inhalt	5
	Vorwort	11
	Data Science	11
	Bei Null starten	12
	In diesem Buch verwendete Konventionen	13
	Verwenden von Codebeispielen	14
	Danksagungen	15
	Kapitel 1 – Einführung	17
	Der Aufstieg der Daten	17
	Was ist Data Science?	17
	Ein motivierendes Szenario: DataSciencester	19
	Finden von Schlüsselpersonen	19
	Data Scientists, die Sie kennen könnten	22
	Gehälter und Erfahrung	25
	Bezahlte Nutzerkonten	27
	Interessante Themen	28
	Weiter geht’s!	29
	Kapitel 2 – Ein Crashkurs in Python	31
	Grundlagen	31
	Python installieren	31
	Zen und Python	32
	Formatieren durch Leerzeichen	32
	Module	33
	Arithmetik	34
	Funktionen	34
	Strings	35
	Exceptions	36
	Listen	36
	Tupel	38
	Dictionaries	38
	defaultdict	40
	Counter	41
	Sets	41
	Kontrollfluss	42
	Wahrheitswerte	43
	Über die Grundlagen hinaus	44
	Sortieren	44
	List Comprehensions	45
	Generatoren und Iteratoren	45
	Zufall	47
	Reguläre Ausdrücke	48
	Objektorientierte Programmierung	48
	Funktionale Hilfsmittel	49
	enumerate	51
	zip und Entpacken von Argumenten	51
	args und kwargs	52
	Willkommen bei DataSciencester!	53
	Weiterführendes Material	53
	Kapitel 3 – Daten visualisieren	55
	matplotlib	55
	Balkendiagramme	57
	Liniendiagramme	61
	Scatterplots	62
	Weiterführendes Material	65
	Kapitel 4 – Lineare Algebra	67
	Vektoren	67
	Matrizen	71
	Weiterführendes Material	74
	Kapitel 5 – Statistik	75
	Einen einzelnen Datensatz beschreiben	75
	Lagemaße	77
	Streuung	79
	Korrelation	80
	Das Simpson-Paradoxon	83
	Weitere Fallstricke von Korrelationen	84
	Korrelation und Kausalität	85
	Weiterführendes Material	86
	Kapitel 6 – Wahrscheinlichkeit	87
	Abhängigkeit und Unabhängigkeit	87
	Bedingte Wahrscheinlichkeit	88
	Der Satz von Bayes	90
	Zufallsvariablen	91
	Kontinuierliche Wahrscheinlichkeitsverteilungen	92
	Die Normalverteilung	93
	Der zentrale Grenzwertsatz	97
	Weiterführendes Material	99
	Kapitel 7 – Hypothesen und Schlussfolgerungen	101
	Testen statistischer Hypothesen	101
	Beispiel: Münzwürfe	101
	p-Werte	104
	Konfidenzintervalle	106
	P-Hacking	107
	Beispiel: Durchführen eines A/B-Tests	108
	Bayessche Inferenz	109
	Weiterführendes Material	113
	Kapitel 8 – Die Gradientenmethode	115
	Die Idee hinter der Gradientenmethode	115
	Abschätzen des Gradienten	116
	Den Gradienten verwenden	119
	Auswahl der richtigen Schrittweite	120
	Anwendungsbeispiel	120
	Stochastische Gradientenmethode	122
	Weiterführendes Material	123
	Kapitel 9 – Daten sammeln	125
	stdin und stdout	125
	Einlesen von Dateien	127
	Grundlagen von Textdateien	127
	Dateien mit Feldtrennern	128
	Auslesen von Webseiten	130
	Parsen von HTML-Dokumenten	130
	Beispiel: O&apos	132
	Verwenden von APIs	137
	JSON (und XML)	137
	Eine nicht authentifizierte API verwenden	138
	APIs finden	139
	Beispiel: Verwenden der Twitter-APIs	140
	Zugriff auf die APIs erhalten	140
	Twython verwenden	141
	Weiterführendes Material	143
	Kapitel 10 – Arbeiten mit Daten	145
	Erkunden Ihrer Daten	145
	Erkunden eindimensionaler Daten	145
	Zwei Dimensionen	147
	Mehrere Dimensionen	149
	Bereinigen und Umformen	151
	Manipulieren von Daten	153
	Umskalieren	157
	Hauptkomponentenanalyse	158
	Weiterführendes Material	164
	Kapitel 11 – Maschinelles Lernen	165
	Modellieren	165
	Was ist maschinelles Lernen?	166
	Overfitting und Underfitting	167
	Genauigkeit	169
	Der Kompromiss zwischen Bias und Varianz	172
	Extraktion und Auswahl von Eigenschaften	173
	Weiterführendes Material	175
	Kapitel 12 – k-Nächste-Nachbarn	177
	Das Modell	177
	Beispiel: bevorzugte Programmiersprachen	179
	Der Fluch der Dimensionalität	183
	Weiterführendes Material	189
	Kapitel 13 – Naive Bayes-Klassifikatoren	191
	Ein wirklich primitiver Spam-Filter	191
	Ein anspruchsvollerer Spam-Filter	192
	Implementierung	194
	Testen des Modells	195
	Weiterführendes Material	198
	Kapitel 14 – Einfache lineare Regression	199
	Das Modell	199
	Anwenden des Gradientenverfahrens	202
	Maximum-Likelihood-Methode	203
	Weiterführendes Material	203
	Kapitel 15 – Multiple Regression	205
	Das Modell	205
	Weitere Annahmen bei der Methode der kleinsten Quadrate	206
	Anpassen des Modells	207
	Interpretation des Modells	208
	Anpassungsgüte	209
	Exkurs: Bootstrapping	210
	Standardfehler von Regressionskoeffizienten	211
	Regularisierung	213
	Weiterführendes Material	215
	Kapitel 16 – Logistische Regression	217
	Die Aufgabe	217
	Die logistische Funktion	220
	Anwendung des Modells	222
	Anpassungsgüte	223
	Support Vector Machines	224
	Weiterführendes Material	228
	Kapitel 17 – Entscheidungsbäume	229
	Was ist ein Entscheidungsbaum?	229
	Entropie	231
	Die Entropie einer Partition	233
	Einen Entscheidungsbaum erzeugen	234
	Verallgemeinerung des Verfahrens	237
	Random Forests	239
	Weiterführendes Material	240
	Kapitel 18 – Neuronale Netzwerke	241
	Perzeptrons	241
	Feed-forward-Netze	243
	Backpropagation	246
	Beispiel: Bezwingen eines CAPTCHA	247
	Weiterführendes Material	252
	Kapitel 19 – Clustering	253
	Die Idee	253
	Das Modell	254
	Beispiel: Meetups	255
	Die Auswahl von k	258
	Beispiel: Clustern von Farben	259
	Agglomeratives hierarchisches Clustering	261
	Weiterführendes Material	266
	Kapitel 20 – Linguistische Datenverarbeitung	267
	Wortwolken	267
	N-Gramm-Modelle	269
	Grammatiken	272
	Exkurs: Gibbs-Sampling	274
	Themenmodellierung	276
	Weiterführendes Material	281
	Kapitel 21 – Graphenanalyse	283
	Betweenness-Zentralität	283
	Eigenvektor-Zentralität	288
	Matrizenmultiplikation	288
	Zentralität	291
	Gerichtete Graphen und PageRank	292
	Weiterführendes Material	295
	Kapitel 22 – Empfehlungssysteme	297
	Manuelle Pflege	298
	Empfehlen, was beliebt ist	298
	Nutzerbasiertes kollaboratives Filtern	299
	Gegenstandsbasiertes kollaboratives Filtern	302
	Weiterführendes Material	304
	Kapitel 23 – Datenbanken und SQL	305
	CREATE TABLE und INSERT	305
	UPDATE	307
	DELETE	308
	SELECT	308
	GROUP BY	310
	ORDER BY	312
	JOIN	313
	Subqueries	316
	Indexstrukturen	316
	Optimierung von Anfragen	317
	NoSQL	317
	Weiterführendes Material	318
	Kapitel 24 – MapReduce	319
	Beispiel: Wörter zählen	319
	Warum MapReduce?	321
	MapReduce verallgemeinert	322
	Beispiel: Statusmeldungen analysieren	323
	Beispiel: Matrizenmultiplikation	324
	Eine Randbemerkung: Combiners	326
	Weiterführendes Material	326
	Kapitel 25 – Gehet hin und praktizieret Data Science	329
	IPython	329
	Mathematik	330
	Nicht bei null starten	330
	NumPy	331
	pandas	331
	scikit-learn	331
	Visualisierung	331
	R	332
	Finden Sie Daten	332
	Data Science in der Praxis	333
	Hacker News	333
	Feuerwehrautos	333
	T-Shirts	334
	Und Sie?	335
	Index	337
	Über den Autor/Übersetzer/Kolophon	347
	www.oreilly.de	0

Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python

von: Joel Grus

Einführung in Data Science - Grundprinzipien der Datenanalyse mit Python

Kategorien

eBooks