Funktionen

Print[PRINT]
.  Home  .  Lehre  .  Vorlesungen  .  Sommersemester 2020  .  Data analytics

Infrastructure for Advanced Analytics and Machine Learning

Blockvorlesung im Sommersemester 2020

Prof. Dr. D. Kranzlmüller
Dr. Andre Luckow
Maximilian Höb

Aktuelles

  • 15.09.2020:Oral Exam: The exam will take place on October 2, 2020 in the afternoon. Registrations for exam is opened from September 16 to 26, 2020.
  • 18.07.2020:Topic Assigments published
  • 11.07.2020:Project Work published
  • 05.07.2020:Instead of an written exam, there will be a practical programming exercise. On July 11, 10 am, there will be a Zoom conference discussion the details.
  • 06.04.2020: New Dates: The lecture will take place remote via Zoom from April 14, 2020 to April 18, 2020, 9 am s.t. to 5 pm.
  • 10.04.2020: Please pay attention to the Rules for Online Teaching.

Inhalt

The ongoing data deluge driven by the increasing digitalization of science, society and industry, leads to a significant increase in demand for data storage, processing and analytics within several industrial domains. Sciences and industry are overwhelmed by the need to store large amounts of transactional and machine-generated data resulting from the customer, service and manufacturing processes. Examples of machine- generated data are server logs as well as sensor data that is generated in finer granularities and frequencies. Further, datasets are often enriched with web and open data from social media, blogs or other open data sources. The Internet of Things (IoT) will further blur the boundaries between the physical and the digital world causing an even further increase in the digital footprint of the world. In this course, we will learn about data applications and their requirements. Further, we will discuss the core infrastructure necessary to handle the large data volumes and analytical problems. As part of the exercises students will utilize different frameworks, e.g. MapReduce and Spark to implement different algorithms.

This class will cover the following topics:
  • Data Applications in Industry and Sciences
  • Resource Management: YARN, Mesos and Kubernetes
  • Data Processing Engines: Spark, Flink
  • SQL on Hadoop: Hive, Spark-SQL, Presto
  • Stream Processing: Kafka, Spark Streaming, Flink, Heron
  • Machine Learning (Methods & Tools, Scikit-Learn, MLLib)
  • Deep Learning: Convolutional Neural Networks (Tensorflow, Keras)
  • Natural Language Processing: Word Embeddings, Language Models (RNNs, LSTMs, Transformers)
  • Scalable Machine Learning: Distributed Training
  • The course will be offered as a block lecture.

Hörerkreis

Die Vorlesung richtet sich an Master- und Bachelor-Studenten der Informatikstudiengänge.

Regeln zur Online-Lehre

Sehr viele Lehrveranstaltungen finden während der Schließung der LMU online statt. Als Dozenten bitten wir um Nachsicht, falls Dinge nicht immer perfekt laufen und hoffen auf Ihre konstruktive Mitarbeit. In dieser Situation gelten zudem online einige Regeln, die im realen Leben ohnehin klar wären, auf die wir hier aber explizit hinweisen möchten:

  • In Live-Veranstaltungen bitten wir um einen disziplinierten Umgang mit Audio (normalerweise aus) und Bandbreite (Video nach Bedarf)
  • Die Aufzeichnung oder Weiterleitung von Veranstaltungen durch Teilnehmer sind nicht erlaubt.
  • Die Verteilung von Inhalten (Video, Audio, Bilder, PDFs, etc.) in anderen Kanälen als den vom Autor vorgesehenen ist nicht erlaubt.

Wer eine dieser Regeln verletzt, muss damit rechnen, von der fraglichen Veranstaltung ausgeschlossen zu werden und wir behalten uns weitere Schritte vor. Mit allen anderen freuen wir uns auf das gemeinsame Experiment "Online-Semester".

Rules for Online Teaching

While LMU is closed, most teaching happens currently online. As teachers, we ask you to be forgiving if things should not work perfectly right away, and we hope for your constructive participation. In this situation, we would also like to explicitly point out some rules, which would be self-evident in real life:

  • In live meetings, we ask you to responsibly deal with audio (off by default) and bandwidth (video as needed).
  • Recording or redirecting streams by participants is not allowed.
  • Distributing content (video, audio, images, PDFs, etc.) in other channels than those foreseen by the author is not allowed.

If you violate one of these rules, you can expect to be expelled from the respective course, and we reserve the right for further action. With all others, we are looking forward to the joint experiment of an "online semester".

Übungen

Aufgaben und Code zur Übung sind unter: https://github.com/scalable-infrastructure/exercise-students-2020 verfügbar.

Umfang und Prüfung

Die Vorlesung ist zweistündig und besitzt eine Übungen (6 ECTS).

Die Endnote der Veranstaltung wird mit einer schriftlichen Prüfung ermittelt. Für die Zulassung zur Prüfung ist die Übung zu bestehen. Für den Erfolg der Vorlesung müssen muss mindestens die Note 4 erreicht werden.

Due to COVID-19 related restrictions, the final grade will be determined based on a programming project and an oral exam with focus on that project.

Vorkenntnisse

Besuch der Vorlesungen Rechnernetze und verteilte Systeme, Betriebssysteme, Rechnerarchitektur oder vergleichbare Kentnisse erforderlich.
Programmierkenntnisse in Python und Umgang mit Linux Kommandozeile erforderlich.

Zeit und Ort

Zeit: 14. - 18. April 2020, 09 am s.t. to 5 pm.

Ort: Zoom (Invite will be send to all participants)

Anmeldung: Die Plätze werden über UniWorX vergeben werden: Uni2Work-Bewerbung.
Wir bitten Sie in der Bewerbung Ihre Vorkenntnisse zu beschreiben und Ihre Teilnahme zu motivieren.

Hinweise zur Online Veranstaltung

Die Lehrveranstaltung findet online statt. Als Dozenten bitten wir um Nachsicht, falls Dinge nicht immer perfekt laufen und hoffen auf Ihre konstruktive Mitarbeit. In dieser Situation gelten zudem online einige Regeln, die im realen Leben ohnehin klar wären, auf die wir hier aber explizit hinweisen möchten:

  • Wir bitten um einen disziplinierten Umgang mit Audio (normalerweise aus)
  • Die Aufzeichnung oder Weiterleitung von Veranstaltungen durch Teilnehmer sind nicht erlaubt
  • Die Verteilung von Inhalten (Video, Audio, Bilder, PDFs, etc.) in anderen Kanälen als den vom Autor vorgesehenen ist nicht erlaubt.
Wer eine dieser Regeln verletzt, muss damit rechnen, von der fraglichen Veranstaltung ausgeschlossen zu werden und wir behalten uns weitere Schritte vor. Mit allen anderen freuen wir uns auf das gemeinsame Experiment "Online-Semester".

Downloads

Introduction, HPC, Hadoop
Distributed Execution Engines: Spark and SQL
Data Science, Machine Learning, Deep Learning (Computer Vision)
NLP, Scalable ML, ML Benchmarks, MLOps
Complete slides (with some annotations)
Exercise Solutions
Project Work (with updated datasets)
Project Work Introduction Video

Contact

For questions or inquiries please contact Andre Luckow.