Zum Hauptinhalt springen

Studierendenprojekte

Was Sprache über Autos verrät

Analyse von ADAC Autoreviews mit Natural Language Processing

Seit über 35 Jahren veröffentlicht der Allgemeine Deutsche Automobil Club (ADAC) regelmäßig Test Reviews zu neu erschienenen Fahrzeugen aller Klassen. Diese Reviews wurden im Laufe der Zeit detaillierter und umfangreicher. Ein aktueller Testbericht hat zwischen zehn bis vierzehn Seiten bestehend aus einer textuellen und numerischen Bewertung der Fahrzeuge in bis zu 29 unterschiedlichen Kategorien wie beispielsweise Fahrstabilität, Kindersicherheit oder Sitze. Durch diesen großen Umfang an Fließtext und den zugehörigen numerischen Bewertungen bieten diese Testberichte eine sehr gute Basis für eine Analyse mittels verschiedener Natural Language Processing (NLP) Methoden.


Ziel dieses Projekts war basierend auf unterschiedlichen Analysen ein erweitertes Verständnis der Fahrzeugreviews zu erlangen. Dabei soll ein automatisierter Vergleich von Fahrzeugen, eine Überprüfung der Testberichte auf Subjektivität und die Analyse einer Korrelation der numerischen mit der textuellen Bewertung ermöglicht werden.
Um die genannnten Ziele zu erreichen, wurden bei diesem Research and Development Projekt unterschiedliche Komponenten entwickelt. Eine dieser Komponenten ist der Crawler, der automatisiert die Autoreviews als PDF -Dateien von der ADAC Seite (https://www.adac.de/infotestrat/tests/auto-test/alltests.aspx) herunterlädt. Durch eine weitere Komponente, den Parser, werden alle relevanten Informationen aus den PDF-Dateien extrahiert und in eine PANDAS Datenstruktur abgelegt. Dadurch wird eine Basis für unterschiedliche Analysen mittels Python geschaffen. 


Basierend auf diesen Daten wurden eine Worthäufigkeitsanalyse, ein Auto- oder Klassenvergleich mittels Document Term Matrix und unterschiedliche Sentiment Analysen durchgeführt. Zusätzlich wurde ein Bag of Words Classifier angewandt und zur verständlichen Datenrepräsentation verschiedene Wordclouds erstellt. Anhand dieser Analysemethoden wurde eine Korrelation zwischen den numerischen und textuellen Autobewertungen bewiesen, was als Grundlage für eine Score-Vorhersage mit Textbasis verwendet werden kann. Ebenso wurde mit Hilfe der Sentiment Analyse gezeigt, dass die Autoren des ADAC die Fahrzeuge sehr objektiv bewerten. Darüber hinaus ist anhand von einzelnen Analysen erkennbar, dass ein Zusammenhang zwischen den numerischen Autobewertungen und einzelnen Fahrzeugherstellern sowie Fahrzeugklassen gegeben ist.
Die verwendeten Analysen sind nicht nur für dieses Bereich anwendbar. Für andere Reviews, wie beispielsweise Produktbewertungen, Film- oder Buchkritiken sowie Restaurantrezensionen, können diese Analysen ebenso verwendet werden und würden höchstwahrscheinlich ganz andere Ergebnisse liefern.

Weiterführende Links

 

Facts:
Projekt-BetreuerDI Cornelia Ferner
Typ: R&D-Projekt
Projekt-Team: David Fingerlos, Stjepan Bijelonjic und Vanessa Winklbauer
Studiengang: Master Informationstechnik & System-Management

Foto: FH Salzburg/ADAC