Catégories
Général

Prototype – Auditer une application sur Google Play Store

Google Play Store permet aux utilisateurs d’applications mobiles de partager leurs feedbacks en notant et en commentant leur expérience. Ces informations peuvent être récupérées de manière automatisée grâce à des techniques de scraping en vue d’un audit ou d’une analyse de la perception des utilisateurs du service.

Le prototype

Google Play Analysis (code source) est un prototype embarqué dans une application Streamlit me permettant de tester l’outil avant un passage en production. La collecte de données s’effectue au travers de la librairie Google Play Scraper, me permettant de récupérer facilement les métadonnées d’une application mobile présente sur Google Play Store et la liste des dernières reviews publiques.

Les principales fonctionnalités

A partir des métadonnées de l’application, on dispose d’informations générales décrivant son modèle économique et son usage.

A partir de la liste des reviews collectées, on peut dresser une tendance de la perception générale de l’application. Attention, ces chiffres sont soumis à vérification car le scraping ne retourne pas toujours l’exhaustivité des commentaires.

Le développeur de l’application peut répondre aux commentaires d’un utilisateur, par exemple pour assurer un dépannage. Le taux de réponse est un indicateur pertinent pour évaluer l’appréciation de l’application.

Les commentaires sont ensuite échantillonnés en deux jeux de données selon leur polarité (positifs / négatifs). L’objectif est de pouvoir distinguer les critères d’appréciation des pain points lors de l’utilisation de l’application. Les messages sont nettoyés et lemmatisés pour produire différentes analyses. Premièrement, on identifie les termes spécifiques à chaque corpus à l’aide du TF-IDF.

Ensuite, on effectue une classification non supervisée (Topic Modeling) en ajustant automatiquement le nombre de sujets selon la taille du corpus. Notre échantillon est ainsi classé selon une série de sujets soumis à interprétation.

Les verbatims les plus pertinents pour chaque sujet sont ensuite consultables. Il est possible aussi de télécharger l’ensemble des commentaires pour des analyses complémentaires.

Limites connues

Cet outil est un prototype qui me sert simplement à faire la preuve de concept de traitements NLP sur des corpus rapidement constitués. Il présente naturellement des limites :

  • La collecte de données est réalisé par scraping, une méthode qui n’est pas toujours fiable selon le volume de données à capturer
  • Performance : les traitements appliqués ne sont pas complètement optimisés et peuvent être chronophages pour des corpus de grande taille
  • Polarité : les commentaires sont qualifiés de positifs ou négatifs selon la note attribuée par l’utilisateur à l’app. Il y a corrélation mais pas toujours causalité : le texte du commentaire peut être négatif alors que la note attribuée à l’application est élevée.
  • Echantillonnage : afin de réduire les temps de traitement, l’outil analysera au maximum 1000 commentaires positifs et 1000 commentaires négatifs sélectionnés aléatoirement parmi les publications du dernier trimestre.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *