© S&S Media GmbH
Buchtipp

Buchtipp: Einstieg in Data Science mit R


Die Programmiersprache R ist per se eine durchaus alte Technologie, die im Bereich der statistischen Analyse seit Jahr und Tag Verwendung findet. Angesichts des Data-Science- und AI-Booms werden diese Techniken heute immer wichtiger, weshalb es sich auszahlen kann, als Entwickler Zeit mit dem Werkzeug zu verbringen. Der an sich für sehr lange Bücher bekannte Rheinwerk Verlag bietet nun ein Werk an, das die Grundlagen der Arbeit mit R auf rund 250 Seiten zu erklären sucht.

Im Interesse der Kompaktheit beschränkt sich der Autor, Benjamin Matuzak, dabei auf „Middle Data“. Sehr komplexe mathematische Prozesse oder die Verarbeitung enormer Datenmengen kommen nicht vor, wie er in der Einleitung offen zugibt. Ebenda führt Matuzak zudem eine Abgrenzung zwischen Statistik und Data Science ein, um danach die Installation der R-Basissprache nebst der in diesem Bereich weit verbreiteten IDE R Studio zu demonstrieren. Im Interesse besserer Nutzbarkeit geht das Lehrbuch auf Windows, Linux und macOS ein. Da Matuzak in der Einleitung verspricht, dass man die Programmiersprache R mit seinem Buch auch komplett ohne Vorkenntnisse erlernen kann, sind die darauffolgenden Kapitel sowohl zur Syntax der Programmiersprache als auch zur statistischen Datenanalyse stellenweise etwas „fußgeherisch“ aufgestellt. Wer, wie der Rezensent, umfangreiche Programmiererfahrung hat, kann einige Seiten mehr oder weniger überfliegen. Das bedeutet allerdings nicht, dass die Vorstellung von Syntax und mathematischen Statistikoperationen nicht lesens- und wiederholenswert wäre.

Statistische Modellierungssysteme leben von ihrer Fähigkeit zum Import und Export von in verschiedenen Formaten vorliegenden Informationen. Das Lehrbuch demonstriert das Einlesen von Excel- und CSV-Dateien in die R-Arbeitsumgebung, und geht auch auf die Aufbereitung der importierten Daten ein. Praktische Datensätze unterscheiden sich von ihren synthetischen Übungskollegen nur allzu häufig dadurch, dass der Analysealgorithmus mit nicht plausiblen und oft auch einfach fehlenden Werten zurechtkommen muss. In einer globalisierten Welt dürfen auch Ausführungen zur Verarbeitung von Datumsangaben nicht fehlen. Die Import-Export-Übungen sind kein Selbstzweck, denn die importierten Informationen werden danach diversen statistischen Analysen unterzogen, und zu guter Letzt erklärt der Autor die Integration zwischen R und dem Visualisierungssystem ggplot2.

Obwohl die vorherigen Kapitel schon mit mehr oder weniger praktischen Daten, bei...

Neugierig geworden?

Angebote für Teams

Für Firmen haben wir individuelle Teamlizenzen. Wir erstellen Ihnen gerne ein passendes Angebot.

Das Library-Modell:
IP-Zugang

Das Company-Modell:
Domain-Zugang