Statistikschulungen

Aktuelle Schulungen in Statistik, Data-Mining und maschinellem Lernen für Bodenwissenschaftler(innen), Agrarwissenschaftler(innen), Umweltwissenschaftler(innen) & Naturwissenschaftler(innen) in 2019


Hintergrundinformationen zu Schulungen (bzw. Seminaren, Fortbildungen u. Weiterbildungen) in angewandter Statistik, Data-Mining und maschinellem Lernen

In den Medien und Fachzeitschriften unterschiedlicher Disziplinen wird immer wieder auf fehlerhafte Forschungen aufgrund unzureichender Statistik-Kenntnisse hingewiesen (siehe z.B. Ainsworth (2007, Nature 448, 849)). Möglicherweise gibt es in vielen Bereichen, in denen statistische Auswertungen notwendig sind, einen Bedarf nach statistischer Weiterbildung.

Das Fachgebiet Umweltchemie bietet regelmäßig Schulungen in angewandter Statistik, Data-Mining und maschinellem Lernen für Bodenwissenschaftler(innen), Agrarwissenschaftler(innen), Umweltwissenschaftler(innen) & Naturwissenschaftler(innen) an. Im Folgenden werden Problemfelder und Schulungsangebote für unterschiedliche Teilgebiete vorgestellt:

I   Grundlagen der Statistik & Einführung in R
II  Explorative Statistik: Statistische Modellierung und Regressionen mit R
III Varianzanalysen mit R
IV Multivariate Statistik I: PCA, PCR und PLSR mit R
V Multivariate Statistik II, Data-Mining & maschinelles Lernen

I. Grundlagen der Statistik & Einführung in R

Typische Problemfelder in den angewandten Wissenschaften könnten z.B. (I) hypothesenfreie Forschung, (II) ungeeignete Versuchsdesigns, (III) ein fehlendes Verständnis von Pseudoreplikation, (IV) ein ungeeigneter Umgang mit Ausreißern, (V) fehlende Überprüfungen von Bedingungen für
Hypothesentests und (VI) eine ungenügende Beschreibung der statistischen Analysen in Publikationen sein. Wichtige Schulungsthemen im Grundlagenbereich sind daher:

  • Grundlagen der deskriptiven (beschreibenden) Statistik
    • Boxplots, Histogramme & QQ-Plots
    • Verteilungen
    • Skalen
  • Versuchsdesigns
    • Grundsätze der Versuchsplanung
    • Echte Wiederholungen vs. Pseudoreplikate
    • Umgang mit Pseudoreplikation
  • Grundlagen der induktiven (inferentiellen, schließenden) Statistik
    • Population & Stichprobe
    • Tests auf Normalverteilung (z.B. der Shapiro-Wilk-Test) und Varianzhomogenität (z.B. der F-Test)
    • Konfidenzintervalle
    • klassische Tests
      • Tests für eine Stichprobe (t-Test, Wilcoxon-Vorzeichen-Rangtest)
      • Tests für zwei unabhängige Stichproben (Zweistichproben-t-Test,
        Welch-Test, Wilcoxon-Rangsummentest)
      • Tests für verbundene Stichproben (gepaarter t-Test, Wilcoxon-Test für Paardifferenzen)
  • Korrelationen für Variablen mit metrischen oder ordinalskalierten Daten (Pearson-Korrelation, Rangkorrelation nach Spearman)
  • Partielle Korrelationen
  • Chi-Quadrat-Homogenitätstest & Chi-Quadrat-Anpassungstest

R und RStudio sind mächtige Auswertungswerkzeuge im Bereich der angewandten Statistik. Wichtige Schulungsthemen sind der Umgang mit Skalaren, Vektoren, Matrizen und Datenrahmen; das Einlesen und Schreiben von Daten und das Durchführen der oben genannten Tests.

Literaturauswahl

  • Crawley, M.J. 2012. The R Book. Second Edition. Wiley, West Sussex.
  • Dalgaard, P. 2008. Introductory Statistics with R. Springer, New York.
  • Ludwig, B., Linsler, D., Höper, H., Schmidt, H., Piepho, H.-P., Vohland, M. 2016. Pitfalls in the use of middle-infrared spectroscopy: representativeness and ranking criteria for the estimation of soil properties. Geoderma 268, 165-175.
  • Piepho, H.P., Möhring, J., Williams, E.R. 2013. Why randomize agricultural experiments? Journal of Agronomy and Crop Science 199, 374-383.

Nach oben


II. Explorative Statistik: Statistische Modellierung und Regressionen mit R

Typische Problemfelder in diesem Bereich könnten z.B. (I) Unkenntnis der Bedeutung von Residuenüberprüfungen, (II) ein fehlendes Verständnis der
Unterschiede zwischen einem minimal adäquaten Modell und einem maximalen Modell, (III) Unkenntnis der Unterschiede zwischen einer Kalibrierung, Kreuzvalidierung und einer Validierung eines Modells & (IV) fehlende Kenntnisse bei wichtigen Spezialthemen, wie z.B. die Durchführung von Box-Cox-Transformationen, polynomischen und logistischen Regressionen und Modellvergleichen sein. Wichtige Schulungsthemen sind daher:

  • Vergleich von Korrelation und Regression
  • einfache und multiple lineare Regressionen
    • Residuenüberprüfungen
    • Modellvereinfachungen
    • Modellkritik
  • Statistische Modellierung: gesättigtes, maximales, minimal adäquates und Nullmodell
  • "Lack of fit"-Test
  • Transformationen (z.B. Box-Cox-Transformation)
  • Modellformulieren in R
  • Umgang mit Variabilität und Vorhersagen
  • Lineare Modelle und Matrizen
  • Nicht-lineare Regression
  • Logistische Regression

Literaturauswahl

  • Crawley, M.J. 2012. The R Book. Second Edition. Wiley, West Sussex.
  • Linsler, D., Nüsse, A., Buchen, C., Helfrich, M., Piepho, H.-P., Ludwig, B. 2018. Effects of chemical and physical grassland renovation on the temporal dynamics of organic carbon stocks and water-stable aggregate distribution in a temperate grassland soil, Soil Use Manage., in press. 
  • Mead, R., Curnow, R.N., Hasted, A.M. 2002. Statistical Methods in Agriculture and Experimental Biology. Third Edition. Chapman & Hall/CRC, Boca Raton.
  • Piepho, H.P. 2009. Data transformation in statistical analysis of field trials with changing treatment variance. Agronomy Journal 101, 865-869.

Nach oben


III. Varianzanalysen mit R

Typische Problemfelder im Bereich der Varianzanalysen könnten z.B. (I) ein fehlendes Verständnis der großen Bedeutung der statistischen
Unabhängigkeit der Daten als Bedingung der Varianzanalysen (Umgang mit räumlich und/oder zeitlich abhängigen Daten), (II) Unkenntnis der Bedeutung der Residuenanalysen und des Umgangs mit fehlender Normalverteilung oder Varianzheterogenität, (III) hypothesenfreie Forschung mit Schwerpunkt auf mechanisch durchgeführten Post-Hoc-Analysen, (IV) Unkenntnis des Umgangs
mit unbalancierten Designs, (V) ein fehlendes Verständnis bei komplizierteren Designs (Spaltanlage - split plot) und (VI) Ungenauigkeiten bei Faktorformulierungen sein. Schulungsthemen sind daher:

  • Grundlagen der einfaktoriellen Varianzanalyse (ANOVA)
    • Voraussetzungen und Berechnung
    • Aufbau von ANOVA-Tabellen
    • Residuenüberprüfungen
  • Post-Hoc Tests
    • Multiple Mittelwertvergleiche (paarweise t-Tests mit Korrektur
      für multiples Testen, Tukey HSD-Test, Fisher LSD-Test)
    • Problematik der multiplen Mittelwertvergleiche und möglicher hypothesenfreier Forschung
  • Welch-ANOVA & Kruskal-Wallis Test
  • Mehrfaktorielle ANOVA
    • Berücksichtigung von Blockeffekten
    • Bedeutung der Interaktionen von Faktoren
    • Modellvereinfachungen
  • Kontraste anstatt multipler Mittelwertvergleiche
  • Faktorformulierungen & unbalanciertes Modell
  • Gemischte Varianz- und Regressionsanalyse
  • Spaltanlagen (split-plot)
  • Einführung in gemischte Modelle    

Literaturauswahl

  • Bretz, F., Hothorn, T., Westfall, P. 2011. Multiple comparisons using R. CRC Press, Boca Raton.
  • Crawley, M.J. 2012. The R Book. Second Edition. Wiley, West Sussex.
  • Kozak, M., Piepho, H.P. 2017. What's normal anyway? Residual plots are more telling than significance tests when checking ANOVA assumptions. Journal of Agronomy and Crop Science 203.
  • Mead, R., Curnow, R.N., Hasted, A.M. 2002. Statistical Methods in Agriculture and Experimental Biology. Third Edition. Chapman & Hall/CRC, Boca Raton.
  • Onofri, A., Carbonell, E.A., Mortimer, M., Piepho, H.P. 2010. Current statistical issues in weed research. Weed Research 50, 5-24.
  • Vormstein, S., Kaiser, M., Piepho, H.P., Joergensen, R.G., Ludwig, B. 2017. Effects of the concentration, size, and distribution of beech fine roots on the C turnover in homogenized and minimally disturbed top- and subsoil material of a sandy Cambisol. European Journal of Soil Science 68, 177-188.

Nach oben


IV. Multivariate Statistik I: PCA, PCR & PLSR mit R

Typische Problemfelder im Bereich der multivariaten Statistik könnten z.B. (I) ein fehlendes Verständnis der Möglichkeiten und Grenzen multivariater Ansätze und (II) eine ungenügende Beschreibung der multivariaten Analysen in Publikationen sein. Schulungsthemen sind daher:

  • Matrizenoperationen
  • Berechnung von Eigenwerten & Eigenvektoren
  • Zentrierung & z-Transformation
  • Varianz-Kovarianz & Korrelation
  • Hauptkomponentenanalyse (PCA)
    • Berechnungen, Darstellungen & Interpretationen
  • Hauptkomponentenregression (PCR)
  • Datenvorbehandlung (Einsatz des Savitzky-Golay-Filters)
  • Partial least squares Regression (PLSR)

Literaturauswahl

  • Everitt, B., Hothorn, T. P. 2011. An Introduction to Applied Multivariate Analysis with R. Springer, New York.
  • Ludwig, B., Vormstein, S., Niebuhr, J., Heinze, S., Marschner, B., Vohland, M. 2017. Usefulness of near infrared spectroscopy for an estimation of general soil properties and enzyme activities for two forest sites along three transects. Geoderma 288, 37-46.
  • Mark, H., Workman, J. 2007. Chemometrics in Spectroscopy. Elsevier, Amsterdam.
  • Wehrens, R. 2011. Chemometrics with R. Springer, New York.

Nach oben


V. Multivariate Statistik II, Data-Mining & maschinelles Lernen

Typische Problemfelder im Bereich der multivariaten Statistik, des Data-Minings und des maschinellen Lernens könnten z.B. (I) ein fehlendes Verständnis der Möglichkeiten und Grenzen dieser Ansätze, (II) eine zu geringe Beachtung der  Bedeutung der Stichprobenanzahl und -variabilität bei der Algorithmus-Auswahl  und (III) eine Überanpassung sein. Schulungsthemen in den Bereichen Klassifikationen und Regressionen sind daher:

  • Kovarianz, Korrelation & euklidischer Abstand
  • Clusteranalysen
  • Faktorenanalysen
  • Neuronale Netze
  • Random Forest
  • Support Vector Machine

Literaturauswahl

  • Cawley, G.C. Talbot, N.L.C. 2010. On over-fitting in model selection and subsequent selection bias in performance evaluation. Journal of Machine Learning Research 11, 2079-2107.
  • Everitt, B., Hothorn, T. P. 2011. An Introduction to Applied Multivariate Analysis with R. Springer, New York.
  • Ludwig, B., Murugan, R., Parama, V.R.R., Vohland, M. 2018. Use of different chemometric approaches for an estimation of contents of soil properties in an Indian arable field with near infrared spectroscopy. Journal of Plant Nutrition and Soil Science 181, 704-713. 
  • Wehrens, R. 2011. Chemometrics with R. Springer, New York.

Nach oben