0
Wähle deine Sprache aus
Nur die deutsche Version ist gültig. Alle anderen Sprachen sind maschinell übersetzt und dienen nur der Information.

Kostenlose Beratung 0800 3456-500 Mo. - Fr. von 8 bis 17 Uhr
kostenfrei aus allen deutschen Netzen.

0
Wähle deine Sprache aus
Nur die deutsche Version ist gültig. Alle anderen Sprachen sind maschinell übersetzt und dienen nur der Information.

03. August 2026

Noch Plätze frei
31. August 2026
21. September 2026
28. September 2026
19. Oktober 2026

Gerne beraten wir dich
kostenfrei und ohne Termin.

0800 3456-500

Mo. - Fr. von 8 bis 17 Uhr
Kontaktformular

Unterricht bei alfatraining

immer live mit Dozent:in
persönliche Betreuung
KI-Skills in jedem Kurs
modernste Software-Kompetenz

Big Data Engineer mit Statistik

Kostenfrei für dich durch Förderung

Big Data Engineers werden zur interdisziplinären Analyse und Konzeption von IT- und Datenbanklösungen eingesetzt. Daher führt der Lehrgang zunächst in die Grundlagen von Business Intelligence ein, beschreibt die Anforderung des Data Engineerings und erläutert Data Warehouse Modellierung und ETL. Im Anschluss wird dir Big Data anhand branchenspezifischer Software, die zum Speichern, Verarbeiten und Berechnen von großen Datenmengen dient, nähergebracht. Abschließend erweiterst du deine Kenntnisse um statistisches Fachwissen zur Erkennung von Zusammenhängen und Veriferzierung von Beobachtungen. Ergänzend wird der Einsatz Künstlicher Intelligenz (KI) im Beruf gezeigt.

Abschlussart: Zertifikat „Big Data Engineer“
Zertifikat „Statistik und Datenanalyse“
Zusatzqualifikationen: Zertifikat „Data Engineer“
Zertifikat „Big Data Specialist“
Abschlussprüfung: Praxisbezogene Projektarbeiten mit Abschlusspräsentationen
Unterrichtszeiten: Vollzeit
Montag bis Freitag von 8:30 bis 15:35 Uhr (in Wochen mit Feiertagen von 8:30 bis 17:10 Uhr)
Dauer: 12 Wochen

Data Engineer

Grundlagen Business Intelligence (ca. 2 Tage)

Anwendungsfelder, Dimensionen einer BI Architektur

Grundlagen Business Intelligence, OLAP, OLTP, Aufgaben der Data Engineers

Data Warehousing (DWH): Umgang und Verarbeitung von strukturierten, semi-strukturierten und unstrukturierten Daten

Anforderungsmanagement (ca. 2 Tage)

Aufgaben, Ziele und Vorgehensweise in der Anforderungsanalyse

Datenmodellierung, Einführung/Modellierung mit ERM

Einführung/Modellierung in der UML

· Klassendiagramme

· Use-Case Analyse

· Aktivitätsdiagramme

Künstliche Intelligenz (KI) im Arbeitsprozess

Vorstellung von konkreten KI‐Technologien

sowie Anwendungsmöglichkeiten im beruflichen Umfeld

Datenbanken (ca. 3 Tage)

Grundlagen von Datenbanksystemen

Architektur von Datenbankmanagementsystemen

Anwendung RDBMS

Umsetzung Datenmodell in RDBMS, Normalformen

Praktische und theoretische Einführung in SQL

Grenzen von Relationalen Datenbanken, csv, json

Data Warehouse (ca. 4 Tage)

Star Schema

Datenmodellierung

Erstellung Star Schema in RDBMS

Snowflake Schema, Grundlagen, Datenmodellierung

Erstellung Snowflake Schema in RDBMS

Galaxy Schema: Grundlagen, Datenmodellierung

Slowly Changing Dimension Tables Typ 1 bis 5 – Restating, Stacking, Reorganizing, mini Dimension und Typ 5

Einführung in normal, causal, mini und monster, heterogeneous und sub Dimensions

Vergleich von state und transaction oriented

Faktentabellen, Density und Storage vom DWH

ETL (ca. 4 Tage)

Data Cleansing

· Null Values

· Aufbereitung von Daten

· Harmonisierung von Daten

· Anwendung von Regular Expressions

Data Understanding

· Datenvalidierung

· Statistische Datenanalyse

Datenschutz, Datensicherheit

Praktischer Aufbau von ETL-Strecken

Data Vault 2.0, Grundlagen, Hubs, Links, Satellites, Hash Key, Hash Diff.

Data Vault Datenmodellierung

Praktischer Aufbau eines Data Vault Modells – Raw Vault, praktische Umsetzung von Hash-Verfahren

Projektarbeit (ca. 5 Tage)

Zur Vertiefung der gelernten Inhalte

Präsentation der Projektergebnisse

Big Data Specialist

Was ist Big Data? (ca. 1 Tag)

Volume, Velocity, Variety, Value, Veracity

Chancen und Risiken großer Datenmengen

Abgrenzung: Business Intelligence, Data Analytics, Data Science

Einführung in Data Mining

Rolle von KI und datengetriebenen Systemen im Big-Data-Umfeld

Einführung in Big-Data-Frameworks (ca. 2 Tage)

Big-Data-Lösungen in der Cloud (Überblick AWS, Azure, GCP)

Datenzugriffsmuster

Datenspeicherung

Einführung in Data Lakes und Data Warehouses

Überblick Apache Hadoop und Spark

Verteilte Datenverarbeitung mit Spark (ca. 3 Tage)

Grundlagen verteilter Systeme

Apache Spark (Core und SQL)

Vergleich verschiedener Ansätze der Datenverarbeitung

Verarbeitung großer Datenmengen

Einführung in einfache ML-Workflows mit Spark

Datenpipelines und Datenintegration (ca. 2 Tage)

ETL- und ELT-Prozesse

Batch- vs. Streaming-Verarbeitung

Grundlagen von Datenpipelines

Einführung in Orchestrierung (z. B. Airflow Überblick)

Datenqualität und -aufbereitung

Komponenten (ca. 2 Tage)

Kurzvorstellung von verschiedenen Tools

Datenübertragung

Überblick Ressourcenverwaltung in Big-Data-Systemen

Hadoop-Ökosystem

Apache Spark Vertiefung

Einführung in Streaming-Technologien

NoSQL und Datenspeicher (ca. 2 Tage)

CAP-Theorem

ACID und BASE

Typen von Datenbanken

HBase

Einführung dokumentenorientierter Datenbanken

Einführung in Speicherformate

Überblick Data Lakehouse-Ansätze

Big Data Visualisierung (ca. 2 Tage)

Theorien der Visualisierung

Diagrammauswahl

Neue Diagrammarten

Werkzeuge zur Datenvisualisierung

Einführung in BI-Tools (z. B. Power BI, Tableau)

Grundlagen datengetriebener Entscheidungsfindung

Data Governance und Datenschutz (ca. 1 Tag)

Grundlagen der DSGVO im Datenkontext

Datenethik und verantwortungsvoller Umgang mit Daten

Datenqualität und Governance-Konzepte

Zugriffskontrollen und Sicherheit

Grundlagen verantwortungsvoller KI-Nutzung

Projektarbeit (ca. 5 Tage)

Zur Vertiefung der gelernten Inhalte

Präsentation der Projektergebnisse

Statistik und Datenanalyse

Statistische Grundlagen (ca. 6 Tage)

Messtheoretische Grundlagen (Grundgesamtheit, Stichprobe, Stichprobenarten, Messung, Skalenniveaus)

Univariate Deskriptivstatistik (Häufigkeitsverteilungen, Zentralmaße, Streuungsmaße, Standardisierung, Histogramme, Balkendiagramme, Kreisdiagramme, Liniendiagramme, Boxplots)

Bivariate Deskriptivstatistik (Zusammenhangsmaße, Korrelationskoeffizienten, Kreuztabellen, Streudiagramme, gruppierte Balkendiagramme)

Grundlagen der induktiven Inferenzstatistik (Wahrscheinlichkeitsverteilungen, Normalverteilung, Stichprobenverteilung des Mittelwerts, Signifikanztest, Nullhypothesentest, Signifikanzniveau, Effektgröße, Parameterschätzung, Konfidenzintervalle, Fehlerbalkendiagramme, Poweranalyse, Stichprobenumfang)

Datenaufbereitung und Datenbereinigung mit geeigneter Software

Deskriptive Analyse

Visualisierung statistischer Ergebnisse

KI-gestützte Analyse und Interpretation statistischer Ergebnisse

Methoden zum Vergleich von zwei Gruppen (ca. 5 Tage)

z-Test, t-Test für eine Stichprobe

t-Test für unabhängige und verbundene Stichproben

Pretest-Posttest-Designs mit zwei Gruppen

Unterstützende Signifikanztests (Anderson-Darling-Test, Ryan-Joiner-Test, Levene-Test, Bonett-Test, Signifikanztest für Korrelationen)

Nonparametrische Verfahren (Wilcoxon-Test, Vorzeichentest, Mann-Whitney-Test)

Kontingenzanalysen (Binomialtest, Exakter Test nach Fisher, Chi-Quadrat-Test, Kreuztabellen, Assoziationsmaße)

Interpretation von Testergebnissen

KI-gestützte Ergebnisinterpretation

Grundlagen der Regressionsanalyse (ca. 2 Tage)

Lineare Regression

Modellinterpretation

KI-gestützte Modellinterpretation

Zusammenhangsanalyse

Methoden zum Mittelwertvergleich von mehreren Gruppen (ca. 3 Tage)

Einfaktorielle und zweifaktorielle Varianzanalyse (ANOVA)

Post-hoc-Analysen

Interpretation von Gruppenunterschieden

Mehrfaktorielle Varianzanalyse (Allgemeines Lineares Modell)

Feste, zufällige, gekreuzte und geschachtelte Faktoren

Mehrfachvergleichsverfahren (Tukey-HSD, Dunnett, Games-Howell)

Interaktionsanalyse

Poweranalyse bei Varianzanalysen

Einführung in die Versuchsplanung (DoE, Design of Experiments) (ca. 1 Tag)

Vollfaktorielle und teilfaktorielle Versuchspläne

Projektarbeit (ca. 3 Tage)

Zur Vertiefung der gelernten Inhalte

Präsentation der Projektergebnisse

Änderungen möglich, die Lehrgangsinhalte werden regelmäßig aktualisiert.

Für diesen Lehrgang werden Programmierkenntnisse (idealerweise Python) und Erfahrungen mit Datenbanken (SQL) vorausgesetzt.

Du beherrschst die Prozesse rund um die Zusammenführung, Aufbereitung, Anreicherung und Weitergabe von Daten. Außerdem kannst du große, unstrukturierte Datenmengen mit Hilfe von branchenspezifischer Software verarbeiten. Du verfügst über Kenntnisse im Framework Apache und weißt, wie Daten ansprechend visualisiert werden.

Auch verstehst du die Grundlagen der Statistik, kannst Daten aufbereiten, auswerten sowie statistische Datenanalysen und Ergebnisse mit Grafiken darstellen, erläutern und interpretieren.

Der Lehrgang richtet sich an Personen mit abgeschlossenem Studium in der Informatik, Wirtschaftsinformatik, BWL, Mathematik oder vergleichbarer Qualifikation.

Big Data wird in Unternehmen zur interdisziplinären Analyse und Konzeption von IT-Lösungen in Zusammenarbeit mit Entwicklungs- und Betriebsteams eingesetzt. Big Data Engineers sind sowohl bei großen als auch mittelständischen Unternehmen in Industrie, Handel, Dienstleistungs- und Finanzwesen nachgefragt.

Fundierte Kenntnisse in der Statistik stellen eine wertvolle Zusatzqualifikation dar, die in der industriellen Forschung und Entwicklung, in der Arzneimittelentwicklung, in der Betreuung medizinischer Studien, im Bereich Finanz- und Versicherungswesen, in der Informationstechnologie oder in der öffentlichen Verwaltung sehr gefragt.

Dein aussagekräftiges Zertifikat gibt detaillierten Einblick in deine erworbenen Qualifikationen und verbessert deine beruflichen Chancen.

Didaktisches Konzept

Deine Dozierenden sind sowohl fachlich als auch didaktisch hoch qualifiziert und werden dich vom ersten bis zum letzten Tag unterrichten (kein Selbstlernsystem).

Du lernst in effektiven Kleingruppen. Die Kurse bestehen in der Regel aus 6 bis 25 Teilnehmenden. Der allgemeine Unterricht wird in allen Kursmodulen durch zahlreiche praxisbezogene Übungen ergänzt. Die Übungsphase ist ein wichtiger Bestandteil des Unterrichts, denn in dieser Zeit verarbeitest du das neu Erlernte und erlangst Sicherheit und Routine in der Anwendung. Im letzten Abschnitt des Lehrgangs findet eine Projektarbeit, eine Fallstudie oder eine Abschlussprüfung statt.

Virtueller Klassenraum alfaview®

Der Unterricht findet über die moderne Videotechnik alfaview® statt - entweder bequem von zu Hause oder bei uns im Bildungszentrum. Über alfaview® kann sich der gesamte Kurs face-to-face sehen, in lippensynchroner Sprachqualität miteinander kommunizieren und an gemeinsamen Projekten arbeiten. Du kannst selbstverständlich auch deine zugeschalteten Trainer:innen jederzeit live sehen, mit diesen sprechen und du wirst während der gesamten Kursdauer von deinen Dozierenden in Echtzeit unterrichtet. Der Unterricht ist kein E-Learning, sondern echter Live-Präsenzunterricht über Videotechnik.

Die Lehrgänge bei alfatraining werden von der Agentur für Arbeit gefördert und sind nach der Zulassungsverordnung AZAV zertifiziert. Bei der Einreichung eines Bildungsgutscheines oder eines Aktivierungs- und Vermittlungsgutscheines werden in der Regel die gesamten Lehrgangskosten von deiner Förderstelle übernommen.
Eine Förderung ist auch über den Europäischen Sozialfonds (ESF), die Deutsche Rentenversicherung (DRV) oder über regionale Förderprogramme möglich. Als Zeitsoldat:in besteht die Möglichkeit, Weiterbildungen über den Berufsförderungsdienst (BFD) zu besuchen. Auch Firmen können ihre Mitarbeiter:innen über eine Förderung der Agentur für Arbeit (Qualifizierungschancengesetz) qualifizieren lassen.

Gerne beraten wir dich kostenfrei.

0800 3456-500 Mo. - Fr. von 8 bis 17 Uhr
kostenfrei aus allen deutschen Netzen.

Kontakt

Gerne beraten wir dich kostenfrei. 0800 3456-500 Mo. - Fr. von 8 bis 17 Uhr kostenfrei aus allen deutschen Netzen.