Home / Allgemein / Curriculum – Ideen für einen
Lehrplan für Data Scientists

Curriculum – Ideen für einen
Lehrplan für Data Scientists

Holm Landrock, Senior Advisor der Experton Group, hat sich Gedanken über die Ausbildungsinhalte für den Beruf des Data Scientist gemacht. Er schlägt eine Querschnitt orientierte Weiterbildung vor, in der Informatik-Kenntnisse genauso vermittelt werden, wie Wissen über Unternehmensführung, Technik, Psychologie und Medien. Da Landrock wenig vom Theoretisieren hält, macht er ganz praktische Vorschläge für die Lehrinhalte und macht sich stark für ein praxisorientiertes Programm, das zum Teil in Unternehmensprojekten abgearbeitet werden soll. 

Holm Landrock, Senior Advisor der Experton Group

Holm Landrock, Senior Advisor der Experton Group. Er schreibt regelmäßig im Newsletter des Analystenhauses zu Themen wie Cloud oder Big Data.

Mit dem Begriff „Big Data“ tauchten auch die Begriffe Data Scientist und Data Analyst auf. So vielfältig wie Definitionen für Big Data sind auch die Definitionen für diese neuen Rollen.

Der Data Scientist muss sich hauptsächlich mit den Daten und deren Interpretation beschäftigen und mit diesen „jonglieren“ wie ein Künstler. So kann er beispielsweise unbekannte Verknüpfungen zwischen Datensätzen finden, deren Auswertung zu neuen Erkenntnissen führen kann. Dabei geht es vor allem darum, dass die Data-Scientists kreativ, frei und möglichst bereichsübergreifend, mit den Daten arbeiten dürfen. Dies erfordert aber bei vielen Unternehmen ein massives Umdenken auch hinsichtlich der Hierarchien und Hoheitsgebiete, da Abteilungsegoismen überwunden werden müssen. Solche Mitarbeiter müssen gute statistische Kenntnisse haben und viel von Mathematik verstehen – in erster Linie aber Menschen sein, die „über den Tellerrand blicken“ können.

Der Data-Scientist könnte als Alternative zur Hochschulausbildung beispielsweise im Rahmen einer Berufsausbildung oder beruflichen Weiterbildung nach Abschluss eines affinen Ausbildungsberufes geschaffen werden. Er benötigt eine Querschnitts-Ausbildung, beispielsweise mit Kenntnissen über Mathematik, Statistik, Informationstechnik (hier insbesondere  Programmierung und Programmiersprachen, Datenbanken und Datenbanksprachen sowie Kenntnisse über Netzwerke), Unternehmensstrukturen und Unternehmensführung, Psychologie, Technik (z.B. Verkehr, Medizin, Food & Beverage) und Medien. In gewisser Hinsicht ist der Data Scientist Fachinformatiker mit zusätzlichen Kenntnissen über Mathematik, Statistik und Geschäftsprozesse.

Das vorgestellte Curriculum vermittelt aufbauende Kenntnisse und Erfahrungen zu Big-Data-relevanten Informatik-, Statistik- und Wirtschaftsthemen mit dem Ziel der Abstraktion und des Transfers in neuartige Fragestellungen, die sich bei einer übergreifenden, LOB- (Line-of-Business- / Fachabteilung-) unabhängigen Sicht auf Daten ergeben – wirkt also nur vordergründig IT-lastig. Es wird angestrebt, für die Beurteilung von Datenquellen und Fachverfahren das Verständnis für Sach- und / oder Werturteile zu entwickeln und darzustellen sowie vorhandene Verfahren zu reflektieren und falls erforderlich zu revidieren. Aufgrund des  Wissens zu komplexen Sachverhalten und Zusammenhängen sollen Data Scientists die geeigneten Fachmethoden selbstständig planen und in Zusammenarbeit mit Softwareentwicklern und Fachabteilungen durchführen, um durch die Analyse von Big Data zu neuen Erkenntnissen und Folgerungen zu gelangen.

Vor-/Grundkenntnisse: Abschluss in einem IHK-Ausbildungsberuf (z.B. Fachinformatiker oder Produktionstechnologen, aber auch Mechatroniker und Elektroniker), Berufsakademie (z.B. Wirtschaftsinformatik), Studium (naturwissenschaftlich, z.B. Informatik – Mathematik – Wirtschaftsinformatik) und etwa fünf bis zehn Jahre Berufserfahrung in einem Unternehmen der freien Wirtschaft.

Entwurf eines Curriculums

Organisation von Betriebsabläufen wie bspw. Montage, Bearbeitung/Erstellung/Aktualisierung von Arbeitsplänen, Produktionstechnologie, Enterprise Resource Planning – 4 mal 6 Unterrichtsstunden: Der Geruch von Bohremulsion und Öl in der Nase schafft ein grundlegendes Verständnis über die Abläufe in einer der wichtigsten Branchen, der Industrie. Kaum ein Ablauf in der Industrie findet heute losgelöst von der Informationstechnik statt. Für das Verständnis der IT-Abläufe ist ein Verständnis der praktischen Arbeit in den Unternehmen erforderlich. Um die Steuerung von Produktionsabläufen durch fortgeschrittene IT-Lösungen zu verstehen, sind Kenntnisse über die Arbeitsvorbereitung und Produktionssteuerung an der Basis essenziell. Durch den konkreten Unterricht zur Arbeitsorganisation und der optionalen Ergänzung durch ein Praktikum im Bereich Arbeitsvorbereitung wird das grundlegende Verständnis von Unternehmenszielen aufgebaut, die durch neue Erkenntnisse aus Big-Data-Analysen schneller, einfacher oder in einer neuen Qualität erreicht werden bzw. neu definiert werden sollen.

Geschichte der Informationsverarbeitung (von der Lochkarte zum Cloud Computing), Mainframes, Superminicomputer, Mainframe-Betriebssysteme, Multiuser-Betriebssysteme, Client-Server-Betriebssysteme, virtueller Speicher, Echtzeitsysteme (RTOS) – 40 mal 2 Unterrichtsstunden: Wie selbstverständlich wächst die Generation Y mit Spielekonsolen und Gigabytes auf. Selbst einfachste Programme nehmen auf einem Desktop-Computer heute mehrere Dutzend Mega- oder Gigabytes ein. Um zu verstehen, wie heutige Computersysteme im Gigabytebereich agieren, ist ein detaillierter Blick auf die Geschichte der Datenverarbeitung hilfreich. Als Data Scientist ist ein geschultes Auge für das einzelne Bit, für das Muster im Hex-Dump, für die verschiedenen Arten der Speicherorganisation wichtig. So können in der Tätigkeit als Data Scientist die Zusammenhänge zwischen anscheinend nicht zusammenhängenden Daten-Repositories aller Art leichter entdeckt werden. So können Datenströme zwischen Systemen gedacht werden. Ebenfalls wird hier bereits ein Bewusstsein für Informationen geschaffen, die aus Legacy-Systemen stammen oder in Langzeit-Archiven vergraben sind.

Rechenzentrumsorganisation, Rechenzentrumsadministration, Systembetrieb – 40 mal 2 Unterrichtsstunden: Vermittlung der IT-Infrastrukturen und der Unternehmens-IT-Architektur zum Verständnis der verschiedenen Organisationsformen, Arten von Datenhaltung, Organisationsformen, Hierarchien und Abläufe in einem Rechenzentrum.

Programmierung Maschinensprachen, z.B. Assembler – 10 mal 2 Unterrichtsstunden: Grundlagen bzw. eine Auffrischung in der maschinennahen Programmierung verschaffen dem Data-Scientist das erforderliche Know-how, um beispielsweise den ETL-Prozess von BI/DW-Systemen zu verstehen und gegebenenfalls zu hinterfragen. Es werden vor allem die Kenntnisse vermittelt, die zum Verstehen der IT beitragen.

Programmierung klassische, prozedurale Hochsprachen – 40 mal 2 Unterrichtsstunden: Anhand einer oder mehrere klassischer prozeduraler Programmiersprachen (zum Beispiel Pascal oder PL/I) sowie C als einer weiteren Hochsprache werden die Kenntnisse vermittelt, um die Grundstruktur von Programmen durch ein Lesen des Quellcodes zu erkennen. Dabei liegt der Schwerpunkt auf dem Identifizieren von Datenströmen.

Interpretersprachen, Commandline-Sprachen (z.B. Shell) – 10 mal 2 Unterrichtsstunden: In Ergänzung zum Programmierwissen sollen die spezifischen Merkmale von Interpretersprachen vermittelt werden, um vor allem das Verständnis von Legacy-Systemen zu verbessern.

Datenbankaufbau, Datenbankorganisation, Suchalgorithmen, Sortieralgorithmen – 40 mal 2 Unterrichtsstunden: Aufbau des Fachwissens über verschiedene Formen der Datenbankorganisation und der Programmierung von Datenbanken. Ziel ist hier vor allem die Befähigung zur Analyse von Datenbankstrukturen aller Art.

SQL-Aufbaukurs – 20 mal 2 Unterrichtsstunden: Aufbaukurs SQL einschließlich des praktischen Übens von Abfragen mit einem Schwerpunkt auf der Analyse von Datenbankinhalten.

Neue Abfragesprachen und Programmiersprachen – 10 mal 4 Unterrichtsstunden: Befähigung zum Formulieren von Abfragen auf zeitgenössische Datenbanksysteme mit heutigen Programmier- und Abfragesprachen. Grundlagen von NO-SQL-Datenbanken und zugehöriger Abfragesprachen.

Statistik, Wahrscheinlichkeitsrechnung – 80 mal 2 Unterrichtsstunden: Ein Schwerpunkt der Arbeit des Data-Scientists besteht darin, statistisch relevante Zusammenhänge zu erkennen. Um diese Zusammenhänge zu prüfen, zu bewerten und um gegebenenfalls mit Kollegen aus der IT und der Programmierung entsprechende Algorithmen zu entwickeln, ist dieses Wissen essenziell.

Grundlagen der Volkswirtschaftslehre / Grundlagen der Betriebswirtschaftslehre – 40 mal 2 Unterrichtsstunden: Vermittlung von Kenntnissen über die moderne Produktentwicklung und Unternehmensführung mit dem Ziel eines tieferen Verständnisses über Unternehmensziele und deren Umsetzung mit Big Data Technologien.

Semantik, Semiotik, Hermeneutik, Kunstgeschichte, Philosophie – 40 mal 2 Unterrichtsstunden: Vermittlung von Grundlagen zur Deutung von Symbolen, Mustern, Strukturen und der Anwendung dieser Verfahren auf Muster in Daten und Informationen.

Kybernetik, Cyber-physische Systeme, Internet of Things – 40 mal 2 Unterrichtsstunden: Industrie 4.0 beschreibt die Konvergenz von Kybernetik und Informatik, die alle Fertigungsbereiche durchdringt und dabei intelligente, sich selbst konfigurierende und steuernde Produktionssysteme entstehen lässt.

Fakultativ können Kurse in verteilter Rechentechnik (Netzwerk-Schichtenmodell, Netzwerkadministration, Virtualisierungstechniken), Entwickeln eines Betriebssystems etc. angeboten werden. Ergänzend sollte das Curriculum je fünf Tage Hospitanz im Vertrieb eines technischen Unternehmens sowie in der Organisation eines Online-Handelsunternehmens umfassen.

Im Idealfall wird das Curriculum „Data Scientist“ praxisorientiert begleitet, das heißt, wesentliche Bestandteile des Lehrstoffes werden in Partnerunternehmen in Form von Praxisprojekten anhand realer Aufgabenstellungen durchgeführt.

Share

Leave a Reply