Skip to main content

Elementare Datenverarbeitung

  • Chapter
  • First Online:
R kompakt

Part of the book series: Springer-Lehrbuch ((SLB))

  • 10k Accesses

Zusammenfassung

Die folgenden Abschnitte sollen gleichzeitig die grundlegenden Datenstrukturen in R sowie Möglichkeiten zur deskriptiven Datenauswertung erläutern. Die Reihenfolge der Themen ist dabei so gewählt, dass die abwechselnd vorgestellten Datenstrukturen und darauf aufbauenden deskriptiven Methoden Schritt für Schritt an Komplexität gewinnen. Das Kapitel stellt zu Beginn dar, wie Daten einzelner Variablen systematisch ausgewählt und verändert werden können. Wie sich aus vorhandenen Variablen neue Variablen berechnen lassen, ist ein weiteres Thema. Auf statistischer Seite wird neben wichtigen Kennwerten der zentralen Tendenz und Variabilität von Daten vor allem die Auswertung der (gemeinsamen) Häufigkeiten der Stufen kategorialer Variablen vorgestellt.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Subscribe and save

Springer+ Basic
$34.99 /Month
  • Get 10 units per month
  • Download Article/Chapter or eBook
  • 1 Unit = 1 Article or 1 Chapter
  • Cancel anytime
Subscribe now

Buy Now

eBook
USD 19.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Als Indizes dürfen in diesem Fall keine fehlenden Werte (NA) oder Indizes mit positivem Vorzeichen vorkommen, ebenso darf der Indexvektor nicht leer sein.

  2. 2.

    Allgemein gesprochen werden alle Elemente in den umfassendsten Datentyp umgewandelt, der notwendig ist, um alle Werte ohne Informationsverlust zu speichern (vgl. Abschn. 1.3.5).

  3. 3.

    Mit Zufallszahlen sind hier immer Pseudozufallszahlen gemeint. Diese kommen nicht im eigentlichen Sinn zufällig zustande, sind aber von tatsächlich zufälligen Zahlenfolgen im Ergebnis fast nicht zu unterscheiden. Pseudozufallszahlen hängen deterministisch vom Zustand des die Zahlen produzierenden Generators ab. Wird sein Zustand über set.seed( \(\langle\) Zahl \(\rangle\) ) festgelegt, kommt bei gleicher \(\langle\) Zahl \(\rangle\) bei späteren Aufrufen von Zufallsfunktionen immer dieselbe Folge von Werten zustande.

  4. 4.

    Für x kann auch eine Matrix übergeben werden, deren jeweils z-transformierte Spalten dann die Spalten der ausgegebenen Matrix ausmachen (vgl. Abschn. 3.7).

  5. 5.

    Vergleiche auch Desc() aus dem Paket DescTools.

  6. 6.

    Hier ist zu beachten, dass x tatsächlich ein etwa mit c(...) gebildeter Vektor ist: Der Aufruf mean(1, 7, 3) gibt nämlich anders als mean(c(1, 7, 3)) nicht den Mittelwert der Daten 1,7,3 aus. Stattdessen ist die Ausgabe gleich dem ersten übergebenen Argument.

  7. 7.

    Als Alternative ließe sich cov.wt() verwenden (vgl. Abschn. 3.7.7).

  8. 8.

    Allgemein gesprochen werden alle Elemente in den umfassendsten Datentyp umgewandelt, der notwendig ist, um alle Werte ohne Informationsverlust zu speichern (vgl. Abschn. 1.3.5).

  9. 9.

    Da Matrizen numerisch effizienter als Objekte der Klasse data.frame verarbeitet werden können, sind sie dagegen bei der Analyse sehr großer Datenmengen vorzuziehen.

  10. 10.

    Der == Operator eignet sich nicht zur Prüfung auf fehlende Werte, da das Ergebnis von \(\langle\) Wert \(\rangle\) == NA selbst NA ist.

  11. 11.

    Eine so ermittelte Matrix kann auch nicht positiv semidefinit sein, und ist dann keine Kovarianzmatrix bzw. Korrelationsmatrix im engeren Sinne.

  12. 12.

    Das Paket stringr (Wickham; 2010) stellt für viele der im Folgenden aufgeführten Funktionen – und für einige weitere Aufgaben – Alternativen bereit, die den Umgang mit Zeichenketten erleichtern und konsistenter gestalten sollen.

  13. 13.

    Für die Auswertung von Zeitreihen vgl. Shumway und Stoffer (2011) sowie den Abschn. Time Series Analysis der CRAN Task Views (R Development Core Team; 2015a).

  14. 14.

    Für eine einführende Behandlung der vielen für Zeitangaben existierenden Subtilitäten vgl. Grothendieck und Petzoldt (2004) sowie ?DateTimeClasses. Der Umgang mit Zeit- und Datumsangaben wird durch Funktionen des Pakets lubridate (Grolemund & Wickham; 2011) erleichtert.

  15. 15.

    Vergleiche ?strptime für weitere mögliche Elemente des Format-String. Diese Hilfe-Seite erläutert auch, wie mit Namen für Wochentage und Monate in unterschiedlichen Sprachen umzugehen ist.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Daniel Wollschläger .

Rights and permissions

Reprints and permissions

Copyright information

© 2016 Springer-Verlag Berlin Heidelberg

About this chapter

Cite this chapter

Wollschläger, D. (2016). Elementare Datenverarbeitung. In: R kompakt. Springer-Lehrbuch. Springer Spektrum, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-49102-7_3

Download citation

Publish with us

Policies and ethics