Helge Holzmann, Gerhard Gossen, Nina Tahmasebi

fokas: Formerly Known As - A Search Engine Incorporating Named Entity Evolution

Published in: COLING 2012 (demos)

PDF

Online demo

Paper about underlying algorithm NEER

Abstract

High impact events, political changes and new technologies are reflected in our language and lead to constant evolution of terms, expressions and names. This makes search using standard search engines harder, as users need to know all different names used over time to formulate an appropriate query. The fokas search engine demonstrates the impact of enriching search results with results for all temporal variants of the query. It uses NEER, a method for named entity evolution recognition. For each query term, NEER detects temporal variants and presents these to the user. A chart with term frequencies helps users choose among the proposed names to extend the query. This extended query captures relevant documents using temporal variants of the original query and improves overall quality. We use the New York Times corpus which, with its 20 year timespan and many name changes, constitutes a good collection to demonstrate NEER and fokas.

German abstract / Zusammenfassung in Deutsch

Wichtige Ereignisse, politische Veränderungen und neue Technologien spiegeln sich in unserer Sprache wieder und führen zu einer ständigen Evolution von Begriffen, Ausdrücken und Namen. Dies erschwert die Suche mit herkömmlichen Suchmaschinen, da Nutzer zur Formulierung einer Anfrage sämtliche Namen kennen müssen, die im Laufe der Zeit verwendet wurden. Die Suchmaschine fokas zeigt den Einfluss des Anreicherns der Suchergebnisse mit den Ergebnissen für allen zeitlichen Varianten des Suchbegriffs. Sie verwendet NEER, eine Methode zur Erkennung von Namensevolution. NEER erkennt für jeden Suchbegriff alle zeitlichen Varianten und präsentiert diese dem Nutzer. Ein Termfrequenz-Diagramm ergänzt die Ergebnisse, um Nutzern bei der Wahl zwischen den vorgeschlagenen Namen zur Erweiterung der Anfrage zu unterstützen. Diese erweiterte Anfrage findet relevante Dokumente, die nur eine zeitliche Variante der ursprünglichen Anfrage verwenden, und verbessert dadurch die Gesamtqualität. Wir verwenden den Korpus der New York Times, der mit seiner Zeitspanne von 20 Jahren und vielen Namensänderungen eine gute Kollektion zur Demonstration von NEER und fokas ist.

BibTeX

@INPROCEEDINGS{fokas2012,
  author    = {Helge Holzmann and
               Gerhard Gossen and
               Nina Tahmasebi},
  title     = {fokas: Formerly Known As - A Search Engine Incorporating
               Named Entity Evolution},
  year      = {2012},
  month     = dec,
  pages     = {215-222},

  editor    = {Martin Kay and Christian Boitet},
  booktitle = {Proceedings of the 24th International Conference on 
               Computational Linguistics: Demonstration Papers (Coling 2012)},
  address   = {Mumbai, India},
  publisher = {Indian Institute of Technology Bombay},
  url       = {http://L3S.de/neer-dataset/fokas.html}
}