yourSHOUTER

Crowdgestützte Suchmaschine für Veranstaltungen Wir entwickeln mit Unterstützung der EFRE.NRW und des MWEIMH.NRW eine vertikalen Suchmaschine für Veranstaltungs- und Locationdaten auf Basis einer deutschlandweiten, themenübergreifenden, mit Hilfe von crowdgestüztem maschinellem Lernen aufgebauten Datenbank

Logo des OP EFRE.NRW 2014-2020  Logo des OP EFRE.NRW 2014-2020

Auf dieser Seite informieren wir über den Verlauf des Forschungs-Projekts und die dabei gesammelten Erfahrungen und Erkenntnisse in den Bereichen Crowd-Sourcing, Big-Data und Maschinelles Lernen.

Weitere Hintergrundinformationen und Erfahrungsberichte sammeln wir in unserem Blog auf der Technik-Plattform juplo.de. Die zu den jeweiligen Arbeitsabschnitten gehörenden Blog-Artikel sind thematisch gebündelt in der Übersicht auf dieser Seite verlinkt.

Letzte Aktualisierung: 22. Januar 2017

Auf dieser Seite:

Projektübersicht

Das Ziel dieses Forschungs-Projekts ist es, zu zeigen, dass eine qualitativ hochwertige, zentrale Datenbank für Veranstaltungs- und Locationdaten durch das maschinelle Zusammenführen von frei verfügbaren Datenquellen und die anschließende Aufbereitung der Daten mit Hilfe von Maschinellem Lernen anhand von via Crowdsourcing gesammelten Trainingsdaten möglich ist.

Eine über eine freie API öffentlich verfügbare zentrale Datenbank ermöglicht viele innovative Anwendungen, die heute aufgrund der fehlenden zentralen Anlaufstelle nicht möglich sind. Exemplarisch soll dies gezeigt werden, indem auf Basis der aufgebauten Datenbank eine vertikale Suchmaschine für Veranstaltungen und Locations implementiert wird.

Das Projekt glieder sich in vier Themenschwerpunkte:

  1. Maschinelle Erfassung und Zusammenführung frei verfügbarer Datenquellen
  2. Erfassung von Trainingsdaten über Umgekehrtes Crowdsourcing
  3. Datenaufbereitung mit Hilfe von Maschinellem Lernen
  4. Implementierung einer vertikale Suchmaschine für Veranstaltungen und Locations

Zurück zur Inhaltsübersicht

Grafische Übersicht in Form eines Erklär-Posters

Erklär-Poster zu dem Forschungs-Projekt

Zurück zur Inhaltsübersicht

Projekt-Ziel

Das von der EFRE.NRW geförderte Projekt zur Entwicklung einer vertikalen Suchmaschine für Veranstaltungs- und Locationdaten auf Basis einer deutschlandweiten, themenübergreifenden, mit Hilfe von crowdgestüztem maschinellem Lernen aufgebauten Datenbank ist als Machbarkeits-Studie angelegt. Bei erfolgreichem Abschluss des Projekts wird die yourSHOUTER UG das Konzept zu einem marktreifen Produkt weiterentwickeln. Geplant ist eine Markteinführung innerhalb von einem Jahr nach Abschluss des Forschungs-Projekts.

Zurück zur Inhaltsübersicht

Themenschwerpunkt 1:
Maschinelle Erfassung und Zusammenführung frei verfügbarer Datenquellen

Im Rahmen dieses Themenschwerpunkts sollen exemplarisch mehrere Datenquellen maschinell erfasst und in einer zentralen Datenbank zusammengeführt werden. Dafür muss ein einheitliches Meta-Datenmodell entwickelt werden, das es ermöglicht, alle relevanten Attribute der Daten zu erfassen.

Eine besondere Herausforderung bei der maschinellen Erfassung und Zusammenführung der Daten stellt die möglichst fehlerfreie Zusammenführung doppelter Datensätze dar. Daher muss sichergestellt werden, dass die exemplarisch erfassten Daten hinreichendes Material bieten, um die technische Umsetzbarkeit dieses Aspekts im Rahmen diese Themenschwerpunkts aufzuzeigen.

Zurück zur Inhaltsübersicht

Arbeitspaket 1a: Entwicklung eines Facebook-Crawlers

In diesem Arbeitspaket soll ein Algorithmus entwickelt werden, der öffentlich zugängliche Veranstaltungs- und Locationdaten über die von Facebook bereitgestellte Graph-API automatisiert ausliest. Der Algorithmus soll sich die über die Graph-API verfügbaren Daten automatisch erschließen und erfasste Datensätze in regelmäßigen Abständen auf Änderungen kontrollieren. Dabei sollen/müssen zunächst nur Daten ausgelesen werden, die sich auf den Raum Deutschland beziehen.

  • Arbeitsbeginn: 01. Oktober 2015
  • Arbeitsende: 08. Dezember 2015

Das Paket wurde erfolgreich abgeschlossen.

Weitere Informationen und Erfahrungsberichte zu dem Arbeitspaket 1a „Entwicklung eines Facebook-Crawlers“ finden Sie in unserem Blog unter dem Stichwort „facebook-crawler“.

Zurück zur Inhaltsübersicht

Arbeitspaket 1b: Entwicklung eines Focused-Web-Crawlers

In diesem Arbeitspaket soll ein Programm entwickelt werden, dass automatisiert Veranstaltungs- und Locationdaten aus einer HTML-Website auslesen kann, die diese Inhalte nach dem Rich-Snippets-Standard auszeichnet. Das Programm soll sich die Daten ausgehend von einer vorgegebenen Domain automatisch erschließen. Z.B. über das Auslesen einer XML-Sitemap. Die erfassten Datensätze sollen automatisch in regelmäßigen Abständen auf Änderungen kontrolliert werden. Das automatisierte Erschließung weiterer Datenquellen (crawling von verlinkten Websites) ist zunächst nicht vorgesehen.

  • Arbeitsbeginn: 20. April 2016
  • Arbeit (vorläufig) unterbrochen: 28. April 2016
  • Abbruch der Arbeiten an diesem Paket im Rahmen des Projekts: 31. Oktober 2016

Um das Erreichen der Ziele des Forschungsprojekts sicherzustellen, mussten die Arbeiten an diesem Arbeitspaket eingestellt werden, da die eingeplante Zeit benötigt wurde, um die Arbeiten an dem Arbeitspaket 1d trotz des unvorhergesehen zusätzlichen Arbeitsaufwands abschliessen zu können.

Weitere Informationen und Erfahrungsberichte zu dem Arbeitspaket 1b „Entwicklung eines Focused-Web-Crawlers“ finden Sie in unserem Blog unter dem Stichwort „web-crawler“.

Zurück zur Inhaltsübersicht

Arbeitspaket 1c: Entwicklung von Schnittstellen für den Import von XML-Daten

In diesem Arbeitspaket soll ein Mechanismus entwickelt werden, über den im XML-Format vorliegende Daten aus frei zugänglichen Datenbanken in die zentrale Datenbank importiert werden können. Dabei muss sichergestellt werden, dass die importierten Datensätze an einem eindeutigen Kriterium (in der Regel eine von dem Datenbankbetreiber vergebenen eindeutige ID) wiedererkannt werden können, so dass ein Import beliebig oft wiederholt werden kann, um Aktualisierungen zu erfassen, ohne dass dadurch doppelte Einträge entstehen.

Im Rahmen dieses Forschungs-Projekts soll der Import-Mechanismus am Beispiel und auf Basis der von der Stiftung kulturserver.de gGmbH erfassten Daten entwickelt werden.

  • Arbeitsbeginn: 02. Mai 2016
  • Arbeitende: 16. Juni 2016
  • Arbeitsbeginn (zusätzliche Schnittstelle): 31. Oktober 2016
  • Arbeitende (zusätzliche Schnittstelle): 10. Dezember 2016

Um sicherzustellen, dass trotz des Abbruchs des Arbeitspakets 1b genügend Daten vorliegen, um im Rahmen des Forschungs-Projekts die Machbarkeit der maschinellen Zusammenführung der erfassten Daten aufzeigen zu können, wurde der entwickelte Mechanismus für den Import von Daten aus einer weiteren, im Rahmen des Projekts frei verfügbaren Datenquelle erweitert.

Das Paket wurde erfolgreich abgeschlossen.

Weitere Informationen und Erfahrungsberichte zu dem Arbeitspaket 1c „Entwicklung von Schnittstellen für den Import von XML-Daten“ finden Sie in unserem Blog unter dem Stichwort „xml-import“.

Zurück zur Inhaltsübersicht

Arbeitspaket 1d: Zusammenführung doppelter Datensätze (Record-Linkage)

Das Ziel dieses Arbeitspakets ist die Zusammenführung der erfassten Daten in einer zentralen Datenbank ohne doppelte Einträge. Dafür muss in einem ersten Schritt ein gemeinsames Meta-Datenmodell entwickelt werden, dass alle wesentlichen Attribute der Datensätze aus den erfassten Datenquellen abbilden kann. In einem zweiten Arbeitsschritt sollen dann doppelte Datensätze in der zentralen Datenbank automatisch ermittelt und zusammengeführt werden.

Das Arbeitspaket 1d führt die Ergebnisse aus dem Themenschwerpunkt 1 in einer ersten Roh-Version der geplanten zentralen Datenbank zusammen. Der Themenschwerpunk 1 kann nur dann erfolgreich abgeschlossen werden, wenn dieses Arbeitspaket zufriedenstellend umgesetzt werden kann.

  • Arbeitsbeginn: 20. Juni 2016
  • Arbeit (vorläufig) unterbrochen: 01. September 2016
  • Arbeit wieder aufgenommen: 12. Dezember 2016
  • Arbeitsende: vorassichtlich Mitte Februar 2017

Während der Arbeiten an diesem Arbeitspaket hat sich gezeigt, dass in dem Projektplan nicht genügend Zeit dafür vorgesehen wurde, das Meta-Datenmodell für die zentrale Datenbank zu entwickeln. Diese Aufgabe hat sich als wesentlich aufwändiger als vorhergesehen gezeigt, da die Datenmodelle der erfassten Quellen unerwartet stark voneinander abweichen.

Da die technische Zusammenführung der Daten in einer gemeinsamen Datenbank eine notwendige Voraussetzung für die anschließende automatisierte Zusammenführung doppelt erfasster Veranstaltungs- und Locationdaten ist, ohne die das Projekt-Ziel der maschinellen Datenaufbereitung nicht erreicht werden kann, wurde das Arbeitspaket 1b frühzeitig abgebrochen, um Zeit für den insgesamt erfolgreichen Abschluss des Themenschwerpunkts 1 zu gewinnen.

Die Arbeiten an diesem Arbeitspaket sind noch nicht abgeschlossen.

Weitere Informationen und Erfahrungsberichte zu dem Arbeitspaket 1d „Zusammenführung doppelter Datensätze“ finden Sie in unserem Blog unter dem Stichwort „record-linkage“.

Zurück zur Inhaltsübersicht

Themenschwerpunkt 2:
Erfassung von Trainingsdaten über Umgekehrtes Crowdsourcing

Das Ziel des Themenschwerpunkts 2 ist die Erfassung von Trainingsdaten mit Hilfe von Umgekehrtem Crowdsourcing. Mit Hilfe dieser Trainingsdaten sollen dann später im Rahmen des Themenscherpunkts 3 die Daten der im Themenschwerpunkt 1 aufgebauten Datenbank mittels Maschinellem Lernen aufgewertet werden.

Unter dem Stichwort Umgekehrtes Crowdsourcing wird dabei der Ansatz verstanden, die mit Hilfe der Nutzer zu erfassenden Daten dort abzuholen, wo sie von den Nutzern ohnehin eingegeben werden. Damit soll die Schwierigkeit umgangen werden, dass Crowdsourcing-Projekte nur dann erfolgreich funktionieren können, wenn der Aufwand, den die Nutzer aufbringen müssen, (deutlich) geringer ist, als der Nutzen, den sie sich davon versprechen.

Dieses Konzept soll anhand einer Facebook-App exemplarisch überprüft werden. Die App soll es Facebook-Nutzern ermöglichen, die Veranstaltungs- und Locationdaten, die sie auf der sozialen Plattform veröffentlichen, möglichst ohne zusätzlichen Aufwand an die in diesem Forschungs-Projekt aufgebaute zentrale Datenbank weiterzuleiten. D.h., die App ermöglicht es den Nutzern, ihre Daten über weitere Veröffentlichungs-Kanäle zu verbreiten, ohne dass sie diese dafür erneut eingeben müssen. Da durch die Verwendung der App so gut wie kein Aufwand entsteht, wird erwartet, dass der neue Verbreitungs-Kanal auch dann genutzt wird, wenn sich die Nutzer zu Beginn noch keinen großen Nutzen von der zunächst noch unbekannten Plattform versprechen.

Weitere Informationen und Erfahrungsberichte zu dem Themenschwerpunkt 2 „Erfassung von Trainingsdaten über Umgekehrtes Crowdsourcing“ finden Sie in unserem Blog unter dem Stichwort „facebook-app“.

Zurück zur Inhaltsübersicht

Arbeitspaket 2a: Entwicklung eines Prototypen der Facebook-App

In diesem Arbeitspaket soll zunächst ein Prototyp der App entwickelt werden, der, abgesehen von der benötigten Zustimmung des Nutzers zu der Weiterverbreitung der von ihm eingegebenen Daten, von dem Nutzer keinerlei weitere Interaktion abverlangt. Nach der Installation soll die App von dem Benutzer neu angelegte Termine automatisch an die zentrale Datenbank weiterleiten, über die diese dann weiter verbreitet werden können.

  • Arbeitsbeginn: 09. Dezember 2015
  • Arbeitsende: 10. März 2016

Das Paket wurde erfolgreich abgeschlossen.

Zurück zur Inhaltsübersicht

Arbeitspaket 2b: Anbindung an RCE-Event

In diesem Arbeitspaket soll ein Mechanismus implementiert werden, über den Daten aus der aufgebauten zentralen Datenbank an das Terminerfassungssytem RCE-Event der Firma RCE weitergeleitet werden können. Die App kann dann damit beworben werden, dass sie die erfassten Daten an die über das RCE-Netzwerk erreichbaren Partner (z.B. meinestadt.de, coolibri.de usw.) weiterreicht.

  • Arbeitsbeginn: 14. März 2017
  • Arbeitsende: 20. April 2017

Das Paket wurde erfolgreich abgeschlossen.

Zurück zur Inhaltsübersicht

Arbeitspaket 2c: Erfassung von Metadaten

In diesem Arbeitsschritt soll die in Arbeitsschritt 1a entwickelte App um Möglichkeiten erweitert werden, Metadaten zu den angelegten Terminen zu erfassen. Z.B. soll der Benutzer den in Facbook eingetragenen Terminen eine Rubrik zuordnen können. Die erfassten Metadaten werden dann zusammen mit den Termindaten an die zentrale Datenbank übermittelt.

  • Arbeitsbeginn: voraussichtlich Mitte Februar 2016
  • Arbeitsende: voraussichtlich Mitte/Ende März 2016

Zurück zur Inhaltsübersicht

Arbeitspaket 2d: Bidirektionale Kommunikation (Rückmeldungen)

In diesem Arbeitsschritt soll die App in Kooperation mit RCE so weiterentwickelt werden, dass eine bidirektionale Kommunikation zwischen den Veranstaltern und Mitarbeitern einer Terminredaktion, an die die Termindaten über das System RCE-Event weitergeleitet wurden, möglich ist. Die Terminredakteure sollen die Möglichkeit erhalten, über die Termindetailseite eines Termins aus dem Backend des Systems Nachrichten an die Veranstalter zu übermitteln, wenn z.B. die Termindaten unvollständig oder uneindeutig sind. Diese Nachrichten sollen über das Netzwerk an die Facebook-App weitergeleitet und dort angezeigt werden.

Das Ziel dieses Arbeitspakets ist es, die Nützlichkeit der App für ihre Nutzer weiter zu steigern, um so ihre Verbreitung weiter zu vereinfachen.

  • Mit den Arbeiten an diesem Arbeitspaket kann im Rahmen des Forschungs-Projekts voraussichtlich nicht mehr begonnen werden.

Zurück zur Inhaltsübersicht

Themenschwerpunkt 3:
Datenaufbereitung mit Hilfe von Maschinellem Lernen

In diesem Arbeitspaket soll ein Algorithmus entwickelt werden, der die über das Umgekehrte Crowdsourcing erfassten Trainingsdaten dazu verwendet, die in diesen Daten definierten Veranstaltungs-Rubriken mit Hilfe von Maschinellem Lernen auf den gesamten erfassten Datenbestand zu übertragen.

Dazu muss zunächst ein geeigneter ML-Algorithmus ausgewählt werden. Dieser soll dann zunächst auf der Grundlage eines fixen Beispiel-Datensatzes entsprechend angepasst und parametrisiert werden. Anschließend soll der so angepasste ML-Algorithmus in ein System integriert werden, dass in periodischen Abständen die in den Trainingsdaten enthaltene Kategorisierung auf den gesamten Datenbestand überträgt und dadurch die Qualität der in der zentralen Datenbank erfassten Veranstaltungs- und Locationdaten aufwertet.

  • Arbeitsbeginn: voraussichtlich Mitte/Ende März 2017
  • Arbeitsende: voraussichtlich August 2017

Weitere Informationen und Erfahrungsberichte zu dem Themenschwerpunkt 3 „Datenaufbereitung mit Hilfe von Maschinellem Lernen“ finden Sie in unserem Blog unter dem Stichwort „machine-learning“.

Zurück zur Inhaltsübersicht

Themenschwerpunkt 4:
Implementierung einer vertikalen Suchmaschine für Veranstaltungen und Locations

Als Demonstration des Innovations-Potentials das eine frei zugängliche zentrale Datenbank für Veranstaltungs- und Locationdaten bietet, soll in diesem Themenschwerpunkt eine vertikale Suchmaschine entwickelt werden, die nutzern eine themen- und regionenübergreifende zentrale Anlaufstelle für die Planung ihrer Freizeitgestaltung bietet.

Weitere Informationen und Erfahrungsberichte zu dem Themenschwerpunkt 4 „Implementierung einer vertikalen Suchmaschine für Veranstaltungen und Locations“ finden Sie in unserem Blog unter dem Stichwort „vertical-search-engine“.

Zurück zur Inhaltsübersicht

Arbeitspaket 4a: Entwicklung eines Prototypen der Benutzer-Schnittstelle

In diesem Arbeitspaket soll eine erste Version der Benutzer-Schnittstelle für die vertikale Suchmaschine entwickelt werden, die auf dem Stand der Ergebnisse nach dem erfolgreichen Abschluss des Themenschwerpunkts 1 aufsetzt. Dabei sollen die Besonderheiten des spezifischen Anwendungsfalls gegenüber einer allgemeinen horizontalen Suchmaschine dafür genutzt werden, die Usability der Schnittstelle zu steigern. Z.B. soll es schon vor Eingabe einer Textsuche möglich sein, die Suche über die Auswahl eines Datums und/oder Zeitraums oder über die Wahl einer Region bzw. Stadt oder die Bestimmung der aktuellen geografischen Position einzuschränken.

  • Arbeitsbeginn: 05. September 2016
  • Arbeitsende: 27. Oktober 2016

Das Paket wurde erfolgreich abgeschlossen.

Zurück zur Inhaltsübersicht

Arbeitspaket 4b: Erweiterung des Prototypen um Filterung nach Rubriken

In diesem Arbeitspaket soll die in Arbeitspaket 4a entwickelte Benutzer-Schnittstelle entsprechend der nach dem erfolgreichen Abschluss des Themenschwerpunkts 3 zusätzlich in der zentralen Datenbank verfügbaren Informationen erweitert werden. D.h., dass zusätzlich zu den bestehenden Filtermöglichkeiten eine Filterung nach Rubriken eingeführt werden soll.

  • Arbeitsbeginn: voraussichtlich Ende September / Anfang Oktober 2017
  • Arbeitsende: voraussichtlich Mitte Oktober 2017

Zurück zur Inhaltsübersicht

Chronologischer Ablauf der Arbeiten

Übersicht über den chronologischen Ablauf der Arbeiten im Rahmen des Forschungs-Projekts.

Beginn Ende Arbeitspaket Status
01.10.2015 08.12.2015 1a: Entwicklung eines Facebook-Crawlers abgeschlossen
09.12.2015 10.03.2016 2a: Entwicklung eines Prototypen der Facebook-App abgeschlossen
14.03.2016 20.04.2016 2b: Anbindung an RCE-Event abgeschlossen
20.04.2016 28.04.2016 1b: Entwicklung eines Focused Web-Crawlers abgebrochen
02.05.2016 16.06.2016 1c: Entwicklung von Import-Schnittstellen abgeschlossen
20.06.2016 01.09.2016 1d: Zusammenführung doppelter Datensätze unterbrochen
05.09.2016 27.10.2016 4a: Entwicklung eines Prototypen der Benutzer-Schnittstelle abgeschlossen
31.10.2016 08.12.2016 1c: Entwicklung von Import-Schnittstellen abgeschlossen
12.12.2016 Mitte Februar 1d: Zusammenführung doppelter Datensätze in Arbeit
Stand der Arbeiten (16. Januar 2017)
Mitte Februar Mitte/Ende März  2c: Erfassung von Metadaten geplant
Mitte/Ende März August 3: Datenaufbereitung mit Hilfe von Maschinellem Lernen geplant
September/Oktober  Mitte Oktober 4b: Erweiterung des Prototype um Filterung nach Rubriken geplant
2d: Bidirektionale Kommunikation entfällt

Zurück zur Inhaltsübersicht