Statistikschulungen


Hintergrundinformationen zu Schulungen (bzw. Seminaren, Fortbildungen u. Weiterbildungen) in angewandter Statistik, Data-Mining und maschinellem Lernen

In den Medien und Fachzeitschriften unterschiedlicher Disziplinen wird immer wieder auf fehlerhafte Forschungen aufgrund unzureichender Statistik-Kenntnisse hingewiesen (siehe z.B. Ainsworth (2007, Nature 448, 849)). Möglicherweise gibt es in vielen Bereichen, in denen statistische Auswertungen notwendig sind, einen Bedarf nach statistischer Weiterbildung.

Das Fachgebiet Umweltchemie bietet regelmäßig Schulungen in angewandter Statistik, Data-Mining und maschinellem Lernen für Bodenwissenschaftler(innen), Agrarwissenschaftler(innen), Umweltwissenschaftler(innen) und Naturwissenschaftler(innen) an. Im Folgenden werden Problemfelder und Schulungsangebote für unterschiedliche Teilgebiete vorgestellt:

I   Grundlagen der Statistik und Einführung in R
II  Explorative Statistik: Statistische Modellierung und Regressionen mit R
III Varianzanalysen mit R
IV Multivariate Statistik I: PCA, PCR, PLSR und Clusteranalysen mit R
V Multivariate Statistik II, Data-Mining und maschinelles Lernen

I. Grundlagen der Statistik und Einführung in R

Typische Problemfelder in den angewandten Wissenschaften könnten z.B. (I) hypothesenfreie Forschung, (II) ungeeignete Versuchsdesigns, (III) ein fehlendes Verständnis von Pseudoreplikation, (IV) ein ungeeigneter Umgang mit Ausreißern, (V) fehlende Überprüfungen von Bedingungen für
Hypothesentests und (VI) eine ungenügende Beschreibung der statistischen Analysen in Publikationen sein. Wichtige Schulungsthemen im Grundlagenbereich sind daher:

  • Grundlagen der deskriptiven (beschreibenden) Statistik
    • Boxplots, Histogramme und QQ-Plots
    • Verteilungen
    • Skalen
  • Beobachtungsstudie vs. randomisiertes, kontrolliertes Experiment
  • Versuchsdesigns
    • Grundsätze der Versuchsplanung
    • Echte Wiederholungen vs. Pseudoreplikate
    • Umgang mit Pseudoreplikation
  • Grundlagen der induktiven (inferentiellen, schließenden) Statistik
    • Population und Stichprobe
    • Tests auf Normalverteilung (z.B. der Shapiro-Wilk-Test) und Varianzhomogenität (z.B. der F-Test)
    • Konfidenzintervalle
    • klassische Tests
      • Tests für eine Stichprobe (t-Test, Wilcoxon-Vorzeichen-Rangtest)
      • Tests für zwei unabhängige Stichproben (Zweistichproben-t-Test,
        Welch-Test, Wilcoxon-Rangsummentest)
      • Tests für verbundene Stichproben (gepaarter t-Test, Wilcoxon-Test für Paardifferenzen)
  • Korrelationen für Variablen mit metrischen oder ordinalskalierten Daten (Pearson-Korrelation, Rangkorrelation nach Spearman)
  • Partielle Korrelationen
  • Chi-Quadrat-Homogenitätstest und Chi-Quadrat-Anpassungstest

R und RStudio sind mächtige Auswertungswerkzeuge im Bereich der angewandten Statistik. Wichtige Schulungsthemen sind der Umgang mit Skalaren, Vektoren, Matrizen und Datenrahmen; das Einlesen und Schreiben von Daten und das Durchführen der oben genannten Tests.

Literaturauswahl
Lehrbücher

  • Crawley, M.J. 2012. The R Book. Second Edition. Wiley, West Sussex.
  • Dalgaard, P. 2008. Introductory Statistics with R. Springer, New York.
  • Welham, S.J., Gezan, S.A., Clark, S.J., Mead, A. 2014. Statistical Methods in Biology. Design and Analysis of Experiments and Regression, CRC Press, Boca Raton.

Artikel

  • Ludwig, B., Linsler, D., Höper, H., Schmidt, H., Piepho, H.-P., Vohland, M. 2016. Pitfalls in the use of middle-infrared spectroscopy: representativeness and ranking criteria for the estimation of soil properties. Geoderma 268, 165-175.
  • Piepho, H.P., Möhring, J., Williams, E.R. 2013. Why randomize agricultural experiments? Journal of Agronomy and Crop Science 199, 374-383.

Nach oben


II. Explorative Statistik: Statistische Modellierung und Regressionen mit R

Typische Problemfelder in diesem Bereich könnten z.B. (I) Unkenntnis der Bedeutung von Residuenüberprüfungen, (II) ein fehlendes Verständnis der
Unterschiede zwischen einem minimal adäquaten Modell und einem maximalen Modell, (III) Unkenntnis der Unterschiede zwischen einer Kalibrierung, Kreuzvalidierung und einer Validierung eines Modells und (IV) fehlende Kenntnisse bei wichtigen Spezialthemen, wie z.B. die Durchführung von Box-Cox-Transformationen, polynomischen und logistischen Regressionen und Modellvergleichen sein. Wichtige Schulungsthemen sind daher:

  • Vergleich von Korrelation und Regression
  • einfache und multiple lineare Regressionen
    • Residuenüberprüfungen
    • Modellvereinfachungen
    • Modellkritik
  • Statistische Modellierung: gesättigtes, maximales, minimal adäquates und Nullmodell
  • "Lack of fit"-Test
  • Transformationen (z.B. Box-Cox-Transformation)
  • Modellformulieren in R
  • Umgang mit Variabilität und Vorhersagen
  • Lineare Modelle und Matrizen
  • Nicht-lineare Regression
  • Logistische Regression

Literaturauswahl
Lehrbücher

  • Crawley, M.J. 2012. The R Book. Second Edition. Wiley, West Sussex.
  • Mead, R., Curnow, R.N., Hasted, A.M. 2002. Statistical Methods in Agriculture and Experimental Biology. Third Edition. Chapman & Hall/CRC, Boca Raton.
  • Welham, S.J., Gezan, S.A., Clark, S.J., Mead, A. 2014. Statistical Methods in Biology. Design and Analysis of Experiments and Regression, CRC Press, Boca Raton.

Artikel

  • Linsler, D., Nüsse, A., Buchen, C., Helfrich, M., Piepho, H.-P., Ludwig, B. 2018. Effects of chemical and physical grassland renovation on the temporal dynamics of organic carbon stocks and water-stable aggregate distribution in a temperate grassland soil. Soil Use and Management 34, 490-499. 
  • Piepho, H.P. 2009. Data transformation in statistical analysis of field trials with changing treatment variance. Agronomy Journal 101, 865-869.

Nach oben


III. Varianzanalysen mit R

Typische Problemfelder im Bereich der Varianzanalysen könnten z.B. (I) ein fehlendes Verständnis der großen Bedeutung der statistischen
Unabhängigkeit der Daten als Bedingung der Varianzanalysen (Umgang mit räumlich und/oder zeitlich abhängigen Daten), (II) Unkenntnis der Bedeutung der Residuenanalysen und des Umgangs mit fehlender Normalverteilung oder Varianzheterogenität, (III) hypothesenfreie Forschung mit Schwerpunkt auf mechanisch durchgeführten Post-Hoc-Analysen, (IV) Unkenntnis des Umgangs
mit unbalancierten Designs, (V) ein fehlendes Verständnis bei komplizierteren Designs (Spaltanlage - split plot) und (VI) Ungenauigkeiten bei Faktorformulierungen sein. Schulungsthemen sind daher:

  • Grundlagen der einfaktoriellen Varianzanalyse (ANOVA)
    • Voraussetzungen und Berechnung
    • Aufbau von ANOVA-Tabellen
    • Residuenüberprüfungen
  • Post-Hoc Tests
    • Multiple Mittelwertvergleiche (paarweise t-Tests mit Korrektur
      für multiples Testen, Tukey HSD-Test, Fisher LSD-Test)
    • Problematik der multiplen Mittelwertvergleiche und möglicher hypothesenfreier Forschung
  • Welch-ANOVA und Kruskal-Wallis Test
  • Mehrfaktorielle ANOVA
    • Berücksichtigung von Blockeffekten
    • Bedeutung der Interaktionen von Faktoren
    • Modellvereinfachungen
  • Kontraste anstatt multipler Mittelwertvergleiche
  • Faktorformulierungen und unbalanciertes Modell
  • Gemischte Varianz- und Regressionsanalyse
  • Spaltanlagen (split-plot)
  • Einführung in gemischte Modelle    

Literaturauswahl
Lehrbücher

  • Bretz, F., Hothorn, T., Westfall, P. 2011. Multiple comparisons using R. CRC Press, Boca Raton.
  • Crawley, M.J. 2012. The R Book. Second Edition. Wiley, West Sussex.
  • Mead, R., Curnow, R.N., Hasted, A.M. 2002. Statistical Methods in Agriculture and Experimental Biology. Third Edition. Chapman & Hall/CRC, Boca Raton.
  • Welham, S.J., Gezan, S.A., Clark, S.J., Mead, A. 2014. Statistical Methods in Biology. Design and Analysis of Experiments and Regression, CRC Press, Boca Raton.

Artikel

  • Kozak, M., Piepho, H.P. 2017. What's normal anyway? Residual plots are more telling than significance tests when checking ANOVA assumptions. Journal of Agronomy and Crop Science 203.
  • Onofri, A., Carbonell, E.A., Mortimer, M., Piepho, H.P. 2010. Current statistical issues in weed research. Weed Research 50, 5-24.
  • Vormstein, S., Kaiser, M., Piepho, H.P., Joergensen, R.G., Ludwig, B. 2017. Effects of the concentration, size, and distribution of beech fine roots on the C turnover in homogenized and minimally disturbed top- and subsoil material of a sandy Cambisol. European Journal of Soil Science 68, 177-188.
  • Vormstein, S., Kaiser, M., Piepho, H.-P., Ludwig, B. 2020. Aggregate formation and organo-mineral association affect characteristics of soil organic matter across soil horizons and parent materials in temperate broadleaf forest. Biogeochemistry 148, 169-189.

Nach oben


IV. Multivariate Statistik I: PCA, PCR, PLSR und Clusteranalysen mit R

Typische Problemfelder im Bereich der multivariaten Statistik könnten z.B. (I) ein fehlendes Verständnis der Möglichkeiten und Grenzen multivariater Ansätze und (II) eine ungenügende Beschreibung der multivariaten Analysen in Publikationen sein. Schulungsthemen sind daher:

  • Matrizenoperationen
  • Berechnung von Eigenwerten und Eigenvektoren
  • Zentrierung und z-Transformation
  • Varianz-Kovarianz und Korrelation
  • Unüberwachtes Lernen: Hauptkomponentenanalyse (PCA)
    • Berechnungen, Darstellungen und Interpretationen
  • Kovarianz, Korrelation und euklidischer Abstand
  • Unüberwachtes Lernen: partitionierende und hierarchische Clusteranalysen

  • Überwachtes Lernen: Hauptkomponentenregression (PCR)
  • Datenvorbehandlung (Einsatz des Savitzky-Golay-Filters)
  • Überwachtes Lernen: Partial least squares Regression (PLSR)

Literaturauswahl
Lehrbücher

  • Everitt, B., Hothorn, T. P. 2011. An Introduction to Applied Multivariate Analysis with R. Springer, New York.
  • Lantz, B. 2019. Machine Learning with R. Packt Publishing, Birmingham.
  • Mark, H., Workman, J. 2007. Chemometrics in Spectroscopy. Elsevier, Amsterdam.
  • Wehrens, R. 2011. Chemometrics with R. Springer, New York.

Artikel

  • Ludwig, B., Vormstein, S., Niebuhr, J., Heinze, S., Marschner, B., Vohland, M. 2017. Usefulness of near infrared spectroscopy for an estimation of general soil properties and enzyme activities for two forest sites along three transects. Geoderma 288, 37-46.

Nach oben


V. Multivariate Statistik II, Data-Mining und maschinelles Lernen

Typische Problemfelder im Bereich der multivariaten Statistik, des Data-Minings und des maschinellen Lernens könnten z.B. (I) ein fehlendes Verständnis der Möglichkeiten und Grenzen dieser Ansätze, (II) eine zu geringe Beachtung der  Bedeutung der Stichprobenanzahl und -variabilität bei der Algorithmus-Auswahl  und (III) eine Überanpassung sein. Schulungsthemen in den Bereichen Klassifikationen und Regressionen sind daher:

  • Faktorenanalysen
  • Perzeptron
  • Hard-Margin und Soft-Margin Support Vector Machines
  • Neuronale Netze
  • Random Forest

Literaturauswahl
Lehrbücher

  • Everitt, B., Hothorn, T. P. 2011. An Introduction to Applied Multivariate Analysis with R. Springer, New York.
  • Lantz, B. 2019. Machine Learning with R. Packt Publishing, Birmingham.
  • Wehrens, R. 2011. Chemometrics with R. Springer, New York.

Artikel

  • Cawley, G.C. Talbot, N.L.C. 2010. On over-fitting in model selection and subsequent selection bias in performance evaluation. Journal of Machine Learning Research 11, 2079-2107.
  • Ludwig, B., Murugan, R., Parama, V.R.R., Vohland, M. 2018. Use of different chemometric approaches for an estimation of contents of soil properties in an Indian arable field with near infrared spectroscopy. Journal of Plant Nutrition and Soil Science 181, 704-713. 
  • Ludwig, B., Murugan, R., Parama, V.R.R., Vohland, M. 2019. Accuracy of estimating soil properties with mid-infrared spectroscopy: implications of different chemometric approaches and software packages related to calibration sample size. Soil Science Society of America Journal 83, 1542-1552.

Nach oben