Rückblick INFORMATIK2017 in Chemnitz


Vom 25. bis 29. September fand in Chemnitz die Jahrestagung der Gesellschaft für Informatik, dieses Jahr die INFORMATIK2017, statt. Ich war als Gast vor Ort und habe an einigen Workshops teilgenommen, zu welchen ich meine Notizen digitalisiert und im Folgenden sortiert habe. Das Programm der INFORMATIK2017 ist auch online zu finden! Einen Rückblick gibt es ebenfalls, sowie den Verweis auf die INFORMATIK2018 am 26./27. September 2018 in Berlin.

Datenschutz: Recht und Technik

Besonderer Fokus lag hier auf der neuen EU-initiierten DSGVO (Datenschutzgrundverordnung) von 2016. In dieser wurde die Verarbeitung von persönlichen Daten durch kommerzielle Institutionen neu geregelt und modernisiert. Die Umsetzung ist auch in Deutschland bereits im Gange, endgültig durchgesetzt wird die Verordnung im Mai 2018.

Blockchain und DSGVO

Die Blockchain-Technologie soll vor allem in Anwendungen mit einem hohen Bedarf an Integrität unterstützen. Nationale Beispiele sind hier z.B. Schweden und Estland, die bereits nationale Register mit der neuen Technologie erproben. Allerdings tritt die Blockchain mit der neuen DSGVO in Konflikt:

  • Speicherbegrenzung: die Daten müssen veränderbar bzw. korrigierbar sein. Außerdem ist das Recht auf Vergessen zu implementieren, d.h. die Blockchain muss manipulierbar sein. Hier gibt es den Ansatz der „Narben“, die einen Hinweis bei nachträglich veränderten Blöcken in der Blockchain speichern. Somit würde eine Änderung von Blöcken weiterhin nachvollziehbar.
  • Vertraulichkeit: je nach Einsatzgebiet müssten Blockchains auf einen eingeschränkten, kontrollierbaren Teilnehmerkreis beschränkt werden können. Stichwort ist hier auch „permissioned blockchain“.
  • Rechenschaftspflicht: Wer ist für Transaktionen in einer Blockchain verantwortlich? Wer ist z.B. verantwortlich für eine Überweisung bei Bitcoin? Durch die Kooperation vieler Teilnehmer kann keine Einzelperson für die Vorgänge festgelegt werden.

Fazit: die deutsche DSGVO ist nur für Teilfunktionen der Blockchain erfüllbar. Die dezentrale Verarbeitung von Blöcken ist eines der zentralen Herausforderungen.

PrivacyScore

Mit Hilfe von PrivacyScore können Websites auf deren Sicherheitseinstellungen untersucht werden. Es stellt sich heraus, dass bspw. eine Stadtseite für Sozialhilfe mit Trackern gespickt ist - in diesem Kontext von Besuchern sicher nicht erwünscht! Ein ähnliches Projekt kommt aus Schweden und nennt sich Webbkoll. Webbkoll nutzte teilweise Stadtrivalitäten als Anreiz zu Verbesserungen aus.

PrivacyScore geht einen ähnlichen Weg, indem sie die Testresultate veröffentlichen und somit schlecht konfigurierte Seiten „angeprangert“ werden. Die Entwicklung erfolgt unter GPLv3, die gesammelten Daten werden als Open Data zum Download zur Verfügung gestellt, so dass auch andere die Daten auswerten können. Checks sind unterschiedlich detailiert und haben verschiedene Features, die auch vom Nutzer selbst hinterlegt werden können.

Im Laufe des Projekts kam Widerstand von Websitebetreibern: durch den öffentlichen Score werden Sicherheitslücken der Websites sichtbar gemacht. Es handelt sich bei der Reaktion von Seite der Betreiber um den Versuch, Security by Obscurity aufrecht zu erhalten. Es wurde auch klargestellt, dass Betreiber die Scans nicht verbieten dürfen (allerdings können, wie im Nachhinein an IP-Range-Blocks zu sehen war). Die Nachfrage, ob die Ergebnisse als eine rechtliche Bewertung verwendet werden könnten, wurde verneint: die Anwendung von PrivacyScore auf eigene Seiten ersetzt keinen ordentlichen Datenschutzbeauftragten.

PRIVACY-AVARE

Das Projekt PRIVACY-AVARE unter dem Motto „Digitaler Selbstdatenschutz und Datensouveränität“ zielt auf die Erstellung einer App, die gerätübergreifend Datenschutzeinstellungen vornimmt.

Die bisherigen Einstellungen bei gängigen Apps auf Android und iOS sind für diesen Einsatz nicht feingranular genug. Allerdings ist der Eingriff in Apps auch nicht zulässig, wenn z.B. Schutzapps den laufenden Programmcode anderer Apps manipulieren, um Einstellungen vorzunehmen. Hier geht es sogar um Begriffe wie Lauterkeit und Wettbewerbseingriff.

AVARE greift nun also nicht in die App ein, sondern wickelt diese in eine Sandbox. Ein Reference Monitor überwacht die Zugriffe der isolierten App und kann z.B. beim Zugriff auf das Adressbuch Daten filtern oder sogar Fake-Daten liefern. Ein erster Prototyp wird 2018 erwartet und wird voraussichtlich auf Github veröffentlicht.

Die anschließende Diskussion griff u.a. den Punkt auf, dass Selbstdatenschutz verständliche Erläuterung benötigt und nicht hinten runterfallen sollte. Im Kontext des DSGVO gilt für Apps auch das Kopplungsverbot, d.h. eine App darf bei Einsatz nicht als Gegenzug die persönlichen Daten der Anwender verlangen.

MyneData

Das letzte Projekt des Tages war MyneData. Motto: „Datenreichtum dank Datenschutz – Projekt zur selbstbestimmten Datenverwertung“. MyneData versucht durch die Sammlung von persönlichen Daten auf einer vertraulichen Plattform, einem "Datenhub", Datenverwertern eine zentrale Anlaufstelle anzubieten. Die Motivation dahinter ist eine Monetarisierung von Daten mit Micropayments. D.h. praktisch, wenn ich als Person meine Daten auf der Plattform hinterlege, und ein Datenverwerter wie z.B. eine Werbefirma möchte für Analysen Teile meiner Daten nutzen, kriege ich Vergütung.

Ein konzeptuelles Problem ist die initiale Befüllung einer solchen Plattform. Hier könnte eine Kombination von mehreren Quellen zur schnelleren Vervollständigung von Daten dienen, was allerdings bedeuten würde, dass die entsprechenden Daten bereits irgendwo hinterlegt sind und auch vom jeweiligen Betreiber exportierbar sein müssen.

Rechtlich gesehen ist das Betreiben einer solchen Datensammelstelle schwierig, da sich die Datensätze in Quelle, Art und Zweck unterscheiden und entsprechend unterschiedlich behandelt werden müssen. Bei der Diskussion kam auf, dass es zum Projekt auch noch kein solides Geschäftsmodell gibt, was z.B. einen Aufkauf durch einen großen Datensammler sehr wahrscheinlich macht, sobald die gesammelten Daten lukrativ genug sind. Letztendlich ist auch nicht ausschließbar, dass MyneData selbst wieder ein Datenverwerter ist und somit sich nicht unbedingt von anderen Plattformen abhebt.

Ein gesellschaftliches Problem könnte auch eintreten, wenn sog. "Datenprostitution" greift, d.h. wenn Menschen sehr private Daten auf der Plattform verkaufen, weil sie das Geld brauchen. Auch sollte die Verantwortung, die der Betreiber eines solchen Datenhubs übernimmt, nicht unterschätzt werden.

Hochschule 2027

Einführung eines Campus-Management-Systems (RWTHonline)

Die RWTH Aachen hat mit RWTHonline einen zentralen Campus-Verwaltungs- und Support-Plattform geschaffen, bei der alle verwaltungstechnischen Prozesse der Uni zusammenlaufen. Die Stelle hat mittlerweile über 10 feste Mitarbeiter, bietet Ausbildungsplätze und ist ISO9001-zertifiziert. Die neue Struktur sollte besonders alte Schwächen beseitigen, wie z.B. unklare Zuständigkeiten. Das System baut auf dem Projekt CampusOnline der TU Graz auf und es wird ein Chat-Tool getestet, welches durchaus Zustimmung erfährt. Die Protokolle dieser Chats landen zusammen mit allen anderen Fall-relevanten Daten im Ticketsystem.

Bei der Einführung kam Kritik, dass durch das neue System weniger „miteinander geredet wird“, da Augenmerk auf IT-Prozesse gelegt wurde - d.h. Menschen, die Support benötigen können nun nicht mehr schnell wo anklopfen, sondern landen in einem Ticketsystem. Vorteil dabei ist natürlich die bessere Dokumentation und der transparentere Prozessstatus. Darüber hinaus können anhand der Tickets Statistiken erstellt und Probleme erkannt werden, was langfristig gesehen bessere Planung ermöglicht.

Visualizing Learning Behaviour as Spatio-Temporal Trajectories

Ich hab den Titel mal original übernommen, weil ich damit erst gar nichts anfangen konnte. Die Idee ist aber wie ich finde sehr interessant!

Grundannahme ist: Teilnehmende in Onlinekursen verhalten sich unterschiedlich und lernen mit eigenen Geschwindigkeiten. Wenn man gewisse Merkmale, wie z.B. „Fachgebiet des Kurses“, „Schwierigkeit der Übung“ oder „Zeit bis Abschluss“, als Dimensionen in einem n-dimensionalen Raum darstellt, entsteht für alle im Laufe der Benutzung ein Pfad durch diesen Raum. So kann man bspw. Menschen erkennen, die sich schnell durch die Kurse arbeiten. Oder ähnlich Lernende gruppieren.

Hierfür werden die Kursmodule mit ihren Inhalten mit Features/Metadaten verknüpft und dann mit GIS-Werkzeugen ausgewertet. Im Paper dazu gibt es eine Darstellung.

Meine Idee dazu war noch, dass man anhand der Pfade auch dynamisch Kurse zusammenbauen könnte. Wenn ich z.B. jemanden kenne, dessen Skillset ich interessant finde, könnte ich mir dessen Lernpfad vorgeben lassen und so auf der gleichen Spur lernen.

Prozessdokumentation für IT-Governance-Effektivität

Hintergrund sind mehrere CIO-Studien zu IT-Governance im Hinblick auf die Effektivität je nach Einsatz und Qualität. Bei der Untersuchung der circa 400 Hochschulen in Deutschland wurden erhebliche Größenunterschiede zwischen diesen festgestellt und es ist erkennbar, dass die kleinen Hochschulen sich die Organisationsstruktur mit CIO und Beiräten nicht leisten können.

Wenig überraschend stellte sich also heraus, dass Hochschulen mit Budget für gut bezahltes und ausgebildetes IT-Personal auch die Dokumentation die beste Qualität vorwies. Außerdem sei es wichtig, dass die IT ihren Beitrag zur Qualitätssteigerung erkennt und kennt, klare Prozesse sind ein zusätzlicher Bonus für die Qualität der Versorgung.

Sozio-technische Infrastruktur für digitale Lehre

Die Uni Paderborn setzt auf digitale Partizipation ihrer Studierenden und so ist im Laufe der Zeit eine Best-Practice-Datenbank für Lehr-Projekte entstanden, in welcher Menschen mit neuen Ideen für Projekte Lösungsvorschläge abrufen können. Es gibt außerdem ein E-Tutoren-Programm, welches Studierende im E-Learning ausbildet und somit die Einstiegshürde zu Online-Lehre verringert.

Erfahrungen haben gezeigt, dass Blended-Learning, d.h. eine Mischung aus Präsenz- und Online-Veranstaltungen weiterhin die vielversprechenste Kursart sei; der persönliche Kontakt zu Lehrenden sei ein großer Faktor für den Lernfortschritt.

Es gibt wohl an der TU Darmstadt ein ähnliches Programm, ein E-Learning-Zertifikat, welches als Vorbild diente.

Digitaler Journalismus in postfaktischen Zeiten

Der Vortragende sieht den Wandel des Journalismus vom analogen Print- zum interaktiven Digitalmedium aus Sicht eines Journalisten. Schwerpunkt des Vortrags lag auf den neuen Multimedia-Inhalten, die nach und nach Einzug in die Online-Ableger der Printmedien erlangte. Es stand die These im Raum, dass „Print eine Teilmenge des Online-Journalismus“ sei.

Klar ist, Multimedia wie Video und Audio leben von der Emotion. Es lassen sich mit Hilfe von Videos sehr viel besser Geschichten erzählen als im Vergleich zu reinem Text. Als eines der ersten erfolgreichen Storys wurde Snow Fall von der NYT gezeigt. Auch ein deutsches Beispiel wurde gezeigt, die Reportage zu Haldern Pop des WDR. Hier vermischen sich Bilder, Texte und Video-Interviews in eine Story. Nebenbei bemerkt sei dies ein gutes Beispiel für einen guten Einsatz der Rundfunkgebühren, da diese dem WDR ermöglichen als Early Adopter Investitionen in neue Medien zu tätigen - ohne Angst vor existenzbedrohenden Verlusten.

Generell ließe sich sagen, dass Print versus Online weiterhin ein aktives Feld sei. Es ist jedoch erkennbar, dass "alte" Marken mehr und mehr ins Digitale übertragen werden und sich anpassen.

Ein paar Kritikpunkte sollten auch nicht unter den Tisch fallen: für manche Gimmicks, z.B. das Laden von kleinen Videos nur um eine Flagge wehen zu lassen, ist vor allem die mobile Bandbreite eigentlich zu schade. Außerdem ist noch nicht absehbar wie sich neue Medien, welche mit Emotionen arbeiten, gegen die Anfälligkeit für Fake News wehren können.

Im Kontext der Multimedia gibt es auch noch VR, Virtual Reality. Als Beispiel wurde das Projekt Polarsea 360 von ARTE gezeigt (benötigt Flash Player…). Auch der WDR hat hier ein Projekt vorzuweisen, den Kölner Dom in 360 für Oculus und Steam VR.

Weiteres Thema des Workshops waren Live-Berichte und Mitmachmedien. Tools wie Periscope, Facebook und Youtube Live erlauben es, vor Ort direkt vom Smartphone Videos im Netz zu streamen und somit eine sehr authentische Berichterstattung in Echtzeit zu liefern. Natürlich sind aber auch diese Kanäle anfällig für konstruierte Narrative, auch wenn es durch die geringe Zeitverzögerung so scheint, als hätte das Medium keine Zeit für eigene Darstellungen. Auch gilt hierbei die Beachtung von Persönlichkeitsrechten, was z.B. beim Streamen von Demonstrationen wichtig zu beachten ist.

Zum Schluss noch ein Verweis auf das Projekt OpenDataCity, welches im Kontext des Datenjournalismus erwähnt wurde.

Modellierungsfragen in den Digitalen Geisteswissenschaften

Der Workshop „Modellierung4DH“ klang erstmal etwas kryptisch–zumal man als Fachfremder „DH“ nicht gleich mit „Digital Humanities“ übersetzen kann–, erwies sich jedoch als ein sehr erfrischender Einblick in die digitalisierten Geisteswissenschaften. Ich habe nur eine von vier Sessions besucht, daher nur ein kurzer Auszug.

NoSQL-/Graph-DB und Crowdsourcing, Beispiel Flurnamenarchiv

Flurnamen sind in der Geographie Bezeichnunen für sehr kleine definierbare Flächen, z.B. Grundstücke, Felder, Berge usw. Im Projekt ging es nun darum, anhand von historischen Aufzeichnungen ein Flurnamenarchiv für Mecklenburg zusammenzustellen. Mit diesem digitalen Archiv lassen sich dann Veränderungen von Grenzen, demographische Entwicklungen u.ä. darstellen.

Es stellte sich heraus, dass analoge Aufzeichnungen sich trotz standardisierter Richtlinien unterscheiden: Schriftstile, Kartenstile und verteilte Verfasser mit je eigenen Datensätzen können bei der Archivierung Herausforderungen sein. Hier half der Einsatz von CrowdSourcing mit dem Tool CrowdGuru. Die Fehlerrate lag zwar bei 5%-10%, z.B. weil Menschen Probleme beim Entziffern von Sütterlin hatten, aber dennoch kamen sehr viele Daten zusammen. Problematische Datensätze wurden an Menschen vor Ort übergeben, ganz im Sinne des Citizen Science.

In der Diskussion kam noch auf, ob es bei der Forschung Verknüpfungen zur Ahnenforschung gäbe.

Bibliographische Metadaten in nicht-/relationalen Datenbanken

Hier ging es um das Experiment, das in die Jahre gekommene MARC-Protokoll durch neue Technologien abzulösen. Es wurden praktische Umsetzungen mit Postgres, XML (Basex), JSON (Mongo) und column-based databases (Cassandra) getestet.

Zum gleichen Kontext gehört auch die Contextual Query Language (CQL).

NoXML für Digital Humanities

Unter der Leitannahme „Markup is interpretation“ ging es um den Denkansatz eine Alternative zu XML zu finden. XML als Markupsprache wäre laut dem Autor anfällig für Verfälschung, eben weil es sich bei der Organisation von Daten in einem Markup bereits um eine Interpretation dieser handelt. Hier sei auch auf die Text Encoding Initiative (TEI) und das Buch Graphdatenbanken für die textorientieren e-Humanities verwiesen.

Es kam anschließend natürlich Widerspruch, da XML als weitverbreiteter Standard verteidigt wird. Mit RDF, OWL und ausgereiften Toolsets wäre XML weiterhin die sinnvollste Sprachbasis.

GUI or no GUI?

Menschen in den Humanities begrüßen Oberflächen, mit denen sie Programme bedienen können. Hier trat der Kontrast zwischen Geisteswissenschaftlern und den entwickelnden Programmierern auf, welche meist die Workflows für die tägliche Arbeit gestalten. Vor allem sollten GUIs nicht die Komplexität eines Themas verstecken, jedoch die Nutzer auch nicht überfrachten mit Optionen. Hier ist also eine entsprechende Kooperation nötig.

Geworben wurde hier auch für z.B. Python- und R-Kurse, die es Geisteswissenschaftlerinnen ermöglicht, selbst Datenverarbeitung zu gestalten. Beispiel hierzu das Projekt QuaDramA mit einem R-Package für Drama Analysis.

Danke für's Lesen, Anmerkungen gerne per Mail an mich – bis nächstes Jahr in Berlin!
OG image credit to https://gi.de