Data Scientist im Interview: Wie künstliche Intelligenz zu besseren Forschungsergebnissen führt
24.04.2020 von Chris Schneider
In einem Büro mit Ausblick über die Hafenanlagen von Amsterdam trafen wir Georgios Tsatsaronis, Vice President of Data Science bei Elsevier. Wir sprachen mit ihm über das transformative Potenzial von künstlicher Intelligenz, maschinellem Lernen, Computerlinguistik und Datenwissenschaft. Als Leiter der Datenwissenschaft von Elsevier hat Tsatsaronis das Geschäftsmodell des Verlags ausgebaut. KI und Big-Data-Analysen verfügen seiner Ansicht nach über beträchtliches Potenzial, Forschern an Universitäten und in der Pharmaindustrie einen messbaren Mehrwert zu verschaffen.
Wie werden bei Elsevier Big-Data-Analysen, KI und maschinelles Lernen eingesetzt?
Tsatsaronis: Elsevier ist in der glücklichen Lage, über einen der weltweit bedeutendsten und hochwertigsten Bestände an wissenschaftlichen Inhalten zu verfügen. Big-Data-Analysen und insbesondere maschinelles Lernen sowie hochentwickelte Computerlinguistik werden eingesetzt, um die Inhalte dieser Publikationen zu verstehen und die verschiedensten Elemente daraus zu extrahieren. Im Endeffekt sind wir dann in der Lage, unseren Nutzern die Ergebnisse über unsere Plattformen anzubieten, damit sie ihre Arbeit effizienter erledigen können.
Wie wichtig sind diese Methoden für Ihre tägliche Arbeit?
Tsatsaronis: Sie sind außerordentlich wichtig. Durch diese Methoden sind wir aktuell in der Lage, unseren Nutzern all jene Mittel an die Hand zu geben, die sie zur Erzielung besserer Ergebnisse, zum Verständnis ihrer Tätigkeitsfelder und des Forschungsbereichs, aber auch für einen tieferen Einblick in ihre Praktiken und ihre Branche benötigen. Dadurch können sie einen umfassenderen Überblick über die Entwicklung des Expertenwissens gewinnen. Durch KI, maschinelles Lernen und Computerlinguistik können wir unseren Nutzern den wahrscheinlich besten Service bieten, damit sie ihre Karriere und auch die wissenschaftliche Entwicklung insgesamt vorantreiben können.
Können Sie uns einige Beispiele dafür nennen, wie Sie KI und Big Data nutzen?
Tsatsaronis: Ein wichtiger Anwendungsbereich sind Förderungen. Zahllose Wissenschaftler forschen heute in vielen verschiedenen Disziplinen und die wichtigste Grundlage für eine erfolgreiche Forschungstätigkeit sind ausreichende Finanzmittel. In der Forschungslandschaft gibt es jede Menge Förderquellen. Den Forschern fällt es jedoch schwer, zur richtigen Zeit die für ihr Forschungsgebiet am besten geeigneten Quellen zu finden. Einer der bedeutendsten Anwendungsfälle besteht deshalb in der Sammlung, Aggregation und Verknüpfung von Daten zu Förderquellen, die wir aus Publikationen und von den Fördergebern selbst beziehen. Dann speisen wir all das in einen Knowledge Graph ein und bieten unseren Nutzern diese Informationen in einer gut aufbereiteten Form an. So können sie schnell die besten Fördermöglichkeiten ermitteln.
Im Gesundheitsbereich stellt unser Health Graph einen wichtigen Anwendungsfall dar. Dafür werten wir strukturierte und nicht strukturierte Inhalte mit Text- und Data-Mining-Methoden aus und kombinieren die Ergebnisse so, dass wir damit Antworten auf die wichtigsten Fragen unserer Wissenschaftler geben können. Zum Beispiel: Welche sind die wichtigsten Medikamente zur Erreichung eines bestimmten Behandlungsziels oder welche sind die wichtigsten Symptome einer bestimmten Erkrankung? Wir können aber auch einen Schritt weiter gehen und prädiktive Analysen anbieten. Daraus können sich Vorschläge ergeben wie: „Hier ist eine neue Hypothese, mit der Sie in Ihrem Biologie-Fachbereich in den nächsten Jahren arbeiten können. Vielleicht kann mit diesem Medikament auch jene Erkrankung behandelt werden, zu der Sie forschen.“
Wie haben diese Entwicklungen traditionelle Arbeitsmethoden verändert?
Tsatsaronis: Früher gingen die Forscher einfach zu den großen Anbietern einschlägiger Inhalte, um die neuesten Publikationen zu einem Medikament oder Protein zu durchforsten. Dies war eine sehr mühsame Arbeit, bei der man viel lesen und eine große Menge an Publikationen systematisch durchgehen musste. Heute werden täglich Tausende solcher Publikationen veröffentlicht, die von einem Forscher nicht alle manuell bearbeitet werden können. Die Plattformen von Elsevier ermöglichen Forschern einen schnellen Zugriff auf die wichtigsten Informationen in diesen Publikationen. So können sie rasch herausfinden, welche für ihre Forschung und ihren Fortschritt am relevantesten sind.
Wie setzen Sie Datenanreicherung ein?
Tsatsaronis: Wir bieten zusätzlich zu unseren Basis-Inhalten verschiedene Anreicherungsmöglichkeiten an. Wichtige Anreicherungen beziehen sich auf die Ermittlung von Förderquellen. Wir beschäftigen uns auch intensiv mit Themenmodellierung und mit der Extraktion wissenschaftlicher Konzepte aus unseren Artikeln. So haben wir etwa eine Initiative gestartet, die wir „Elsevier ScienceDirect Topic Pages“ genannt haben. Man kann sich das als eine Art Wikipedia für wissenschaftliche Konzepte vorstellen. Nur ist darin das Wissen von Fachleuten und nicht von beliebigen Personen gespeichert. All das Wissen, das wir auswerten, stammt aus äußerst hochwertigen Büchern, die wir bei Elsevier veröffentlichen, und es handelt sich daher um sehr hochwertiges Material für unsere Forscher.
Wie haben diese Entwicklungen das Geschäftsmodell von Elsevier verändert?
Tsatsaronis: In den vergangenen Jahren hat sich unser Tätigkeitsbereich erweitert. Wir haben unser Geschäftsmodell über unser Verlagsgeschäft hinaus ausgebaut und es umfasst nun auch zahlreiche Lösungen zur Informationsanalyse. Dazu zählen Plattformen, die unsere Inhalte bearbeiten und auswerten. Die Informationen werden den Nutzern dann über unsere Schnittstellen in sehr komprimierter und hochwertiger Form zur Verfügung gestellt. Zusätzlich extrahieren wir Informationen mittels hochentwickelter Computerlinguistik und maschinellen Lernens. Meiner Meinung nach haben wir zusätzlich zu unserem traditionellen Verlagsgeschäft einen erheblichen Mehrwert geschaffen.
Wie gehen Sie mit Ethikfragen im Rahmen der Nutzung von Daten und Technologie um?
Tsatsaronis: Ethik im Zusammenhang mit KI ist ein sehr wichtiges Thema und umfasst zahlreiche Aspekte. Im Hinblick auf die Datenwissenschaftler bei Elsevier geht es oft darum, wie wir die Modelle für die Zusammenarbeit mit den Fachleuten nutzen, aber auch darum, wie wir unterschiedliche Verzerrungseffekte ermitteln, die beim Training solcher Modelle auftreten können. Wir arbeiten intensiv daran und kooperieren etwa mit Stanford und Google Brain, um den bestmöglichen Umgang mit Problemen, die sich aktuell aus der Nutzung von KI ergeben, zu finden. Dabei stellen wir Fragen wie: „Kennen wir alle rechtlichen Rahmenbedingungen oder Richtlinien, die den Umgang mit den Risiken im Zusammenhang mit solchen Publikationen regeln?“
Erzählen Sie uns etwas über die Aufgaben eines Datenwissenschaftlers.
Tsatsaronis: In den letzten zehn bis 15 Jahren hat die Zahl der Datenwissenschaftler stetig zugenommen. Heute benötigen Datenwissenschaftler eine ganze Reihe von Fähigkeiten, die von der Softwareentwicklung bis zu sehr guten Kenntnissen im Bereich hochentwickelter Analysemethoden und des maschinellen Lernens reichen. Moderne Datenwissenschaftler müssen die End-to-End-Verarbeitung von Daten beherrschen, die geschäftlichen Anforderungen verstehen und dafür Lösungen entwickeln können. Sie müssen in der Lage sein, die besten auf KI oder maschinellem Lernen basierenden Lösungen zu finden. Im Grunde genommen ist die wichtigste Fragestellung in der Informatik: Wie stelle ich alle meine geschäftlichen Anforderungen in Form eines bekannten Algorithmus oder Lösungsansatzes dar? Finde ich darauf eine gute Antwort, rückt die Lösung des Problems schon ein gutes Stück näher. Datenwissenschaftler müssen über diese Fähigkeiten verfügen, um mit der Komplexität und der großen Datenmenge sowie mit immer komplexer werdenden Anwendungsfällen umgehen zu können.
Welche Rolle spielen die Vielfalt der Datenquellen sowie Daten von Dritten?
Tsatsaronis: Beides ist äußert wichtig. Was wissenschaftliche Publikationen betrifft, ist Elsevier weltweit der größte Verlag. Für Forscher sind jedoch auch andere Inhalte wie Patente, klinische Studien, Rohdaten, Whitepapers, technische Berichte oder sogar Vorabdrucke von Publikationen wichtig. Eine Zusammenstellung und Kombination dieses Wissens ermöglicht Forschern einen wesentlich besseren Einblick in den Forschungsstand in den verschiedenen Bereichen und informiert sie über die besten Methoden sowie leistungsfähigsten Algorithmen und die wichtigsten Protokolle, die aktuell verwendet werden. Man muss seinen Kunden also einen umfassenden Überblick bieten. Zahlreiche andere Verlage vertrauen Elsevier ihre wissenschaftlichen Inhalte an, damit wir sie verarbeiten und sie zusammen mit den Metadaten ihrer Publikationen in ihre Plattformen integrieren. In diesem Sinne könnte man Elsevier auch als die Weltbank der Metadaten und der wissenschaftlichen Inhalte bezeichnen.
Elsevier und LexisNexis sind Teil der RELX Group.
Herr Tsatsaronis, herzlichen Dank für das Gespräch.
Das Interview führte Chris Schneider.
Zur Person
Chris Schneider Associated Head of Sales

Chris Schneider war Associated Head of Sales bei der LexisNexis GmbH. Seit über acht Jahren ist er im Data & Analytics-Umfeld tätig und verfügt über einen großen Erfahrungsschatz hinsichtlich der Betreuung von Compliance-Projekten in der Finanz- und Bankenbranche. Er war bei zahlreichen Corporate-Projekten involviert.
- Möchten Sie ein unverbindliches Angebot anfragen?
- Benötigen Sie weitere Informationen zum Produkt?
- Möchten Sie einen unverbindlichen Blick live ins Tool werfen und einen Termin für eine kostenlose Online-Demo vereinbaren?
Wir freuen uns auf Ihre Kontaktaufnahme!