Bern Data Science Day begründet

Datenwissenschaftliche Forschung ist an der Universität Bern auf dem Vormarsch. Für eine erste Bestandsaufnahme der laufenden Projekte in verschiedenen Fakultäten wurde kürzlich der erste Data Science Day abgehalten. Nach dem grossen Erfolg der Pilotveranstaltung soll das Event nun jährlich stattfinden.

(Mai 2021)

Im März wurde das Center for Artificial Intelligence in Medicine (CAIM) offiziell eröffnet, im April fand erstmals der Bern Data Science Day (BDSD) statt, ein virtuelles Treffen, an dem fast 200 Forschende aus den Bereichen Data Science, Machine Learning und Künstliche Intelligenz teilnahmen.

„Datenintensive und simulationsgetriebene Forschung hat ein enormes Potential und ergreift immer mehr Disziplinen,“ sagt Co-Initiantin des BDSD, Prof. Dr. Christiane Tretter aus dem Mathematischen Institut MAI. „Die rasanten Entwicklungen in den drei "Sciences of Data Science" - Mathematik, Statistik und Computer Science - und die Aktivitäten des Science IT Support, ScITS, an der Phil.-nat Fakultät haben klar gezeigt, dass es ein wissenschaftliches Forum für diese Themen an der Universität braucht.“ Das sei der Grund gewesen, zusammen mit Raphael Sznitman (ARTORG) aus der Medizinischen Fakultät sowie dem Koordinator des ScITS, Sigve Haug den Bern Data Science Day ins Leben zu rufen.

„Mit mehr Daten und besseren Rechenkapazitäten beeinflusst Datenanalyse heute zunehmend lebensverändernde Entscheidungen,“ sagte Tamara Broderick, Massachusetts Institute of Technology (MIT) in ihrer Keynote Speech am Bern Data Science Day. Immer mehr Disziplinen an der Universität Bern entdecken die Datenwissenschaften für sich, darunter die Biologie, die Chemie und die Pharmazie, aber auch die Medizin, Weltraumforschung, Wirtschaftswissenschaften und die Sozial- und Geisteswissenschaften. Sie alle waren am ersten Bern Data Science Day vertreten.

„Wir waren von der Resonanz überwältigt,“ sagt Mauricio Reyes, Forschungsleiter für Medical Imaging Analysis (MIA) am ARTORG Center, über die Anzahl der Teilnehmenden, viele von ihnen mit KI-Projekten zu medizinischen Herausforderungen, die Grundlage für das neue Zentrum für KI in der Medizin (CAIM) sind. John Anderson Garcia Henao, PostDoc im MIA Lab, fügt hinzu: „Es war eine tolle Veranstaltung, um Kollegen und potenzielle Partner kennenzulernen, Wissen auszutauschen und Input für die eigene Forschung in den ersten Projektphasen zu bekommen. Ich denke, wir können viel voneinander lernen, wir können Methoden extrapolieren und uns gegenseitig inspirieren. Diese Art von Veranstaltung lädt die Energien wirklich wieder auf!”

„Ziel des Bern Data Science Day war es, über Fakultätsgrenzen hinweg bislang getrennte Wissenschaftswelten zusammenzubringen,“ sagt auch Christiane Tretter. „Was mir dabei am meisten Spass gemacht hat, war die Vielfältigkeit dessen, was an Forschung in diesem Bereich an der Universitaet Bern bereits gemacht wird, und die Begeisterung der vor allem jungen Forschenden unter den etwa 170 Teilnehmern  – dieser Aspekt kommt sonst manchmal etwas kurz im Uni-Alltag!“

Corona-Pandemie, Dialekterforschung, Transportwesen

Datenwissenschaften untersuchen abstrakte Strukturen – ob sie nun einen Hintergrund in der Physik, der Biologie oder der Medizin haben. Daher ist es wichtig, dass Datenexpert*innen eingebettet in den jeweiligen Anwendungsfeldern arbeiten. So können Datenwissenschaften auf Fragestellungen aus den unterschiedlichsten Anwendungsgebieten eine Lösung bieten, so etwa darauf, welcher Patient vermutlich „long covid“ entwickelt, wie sich Schweizerdeutsche Dialekte über die Zeit verändern oder wie Waren am resourcensparendsten von A nach B kommen. Drei Forschungsbeispiele an der Uni Bern.

SNF Covid-19 Projekt: AI-multi-omics-based Prognostic Stratification of COVID-19 Patients in Acute and Chronic State (Insel Gruppe und Universität Bern)

“During the current pandemic, physicians have to take important therapy decisions for several patients fast. But for each patient the virus causes different symptoms. In this project with the Radiology Department of the Inselspital we want to answer two questions: How severe is the current infection? And: How likely will a patient suffer from chronic lung damage? This is not an easy engineering task, because as data scientists we need a lot of data to train robust algorithms. But, as the disease is so new, there isn’t a lot of data available yet. This is why we will be working together with Yale University and the University of Parma to get around 2400 COVID-cases. We will apply a multi-omics approach combining medical imaging with lab and clinical data to yield an individualized risk assessment. We use Natural language Processing to parser the lab data into a mathematical representation and it will combine with radiomic features to classify lung lesions using Artificial Intelligence."

John Anderson Garcia Henao, Postdoc Medical Image Analysis lab, ARTORG Center

SNF Excellenza Projekt: Language Variation and Change in German-speaking Switzerland: 1950 vs. 2020 (Universität Bern)

“My role in the project is that of the data scientist. Our challenge was to reduce the number of survey sites from which to study Swiss German dialects from over 600 to just 125. But we needed to make sure these 125 were representative of how the dialects evolved over the past 70 years. For this, we took a digitized subset of the original database, categorized variants and then calculated linguistic distance matrixes instead of the previously employed geographical distances. After that we were able to apply clustering procedures and appoint candidate survey sites. We took more than 100 linguistic items from the original questionnaire and represented their differences in a multidimensional space between all surveyed locations. Using Partitioning Around Medoids (PAM), we could make sure that a resulting central location in any given cluster was objective. Only then we added a linguistic qualitative check and socio-geographic check to see if the proposed center was justified despite the 70 years that have elapsed since the original study.”

Péter Jeszenszky, Postdoc Center for the Study of Language and Society

Optimal Transport Distance in a Machine Learning Context

“I have a scientific background in mathematics. Through my current work in a multidisciplinary environment, I got familiar with machine learning (ML), a domain that has a multitude of connections with mathematics. I found that Optimal Transport Theory (OTT), a tool that I have worked with in my PhD, is a promising approach to improve performance of neural networks. The first question on this matter was aiming to calculate the optimal transport routes of military goods from warehouses to different battlefields during the French Revolution. The theory that grew out of this ever since, proved to be valuable in several real-life applications in economics, physics, biology, meteorology, image processing and optics. Because many phenomena in these domains happen in an optimal way (minimizing efforts or maximizing benefits), to describe these in the abstract language of mathematics OTT can be used. ML algorithms often yield probability distributions which can be more or less accurate. If you want to measure how good your ML model is or how far your prediction is from the desired value, you can apply optimal transport distance. Although there are other tools to quantify the proximity of probability distributions, optimal transport distance has a certain stability that others lack. So there is a good chance that in specific neural networks optimal transport distance can perform better than others do.”

Kinga Sipos, Mathematikerin am Science IT Support, Institut für Mathematik

Euclidean vs. Wasserstein interpolation. Kinga Sipos’ project is situated in an interdisciplinary domain. Such projects can have a big potential as researchers open towards new domains. Moving out of classic scientific paradigms, they can observe and integrate new aspects into their main expertise, potentially even shaping new scientific fields. (© Kinga Sipos, Institute of Mathematics, University of Bern)