Google Lens est désormais capable de reconnaître un milliard de produits

L’outil d’analyse d’images fête sa première année d’existence et se montre capable d’identifier une quantité très importante d’objets disponibles à l'achat sur le web.
Le logo Google.
Le logo Google. LOIC VENANCE / AFP

C’est une belle première année qui vient de se clore pour Google Lens. D’abord restreint à quelques smartphones et aux applications Assistant et Photos, il a fait son apparition à la rentrée dans le moteur de recherche de Google. Il a aussi énormément progressé en matière d’identification. A son lancement, il était capable de reconnaître des personnes, des animaux ou des végétaux mais seulement 250 000 produits au sein de la base de données du site de e-commerce et comparateur de prix Google Shopping, selon The Verge. Aujourd’hui, il est en mesure de distinguer plus d’1 milliard d’objets différents, toujours tirés de la même plate-forme. Une avancée qui doit tout à l’apprentissage automatique et à la vision par ordinateur.

Google est récemment revenu sur cette performance dans un post sur son blog officiel. Tout part de l’exploitation des milliards de requêtes des internautes dans son moteur de recherche et des images qui y sont associées. Ensuite, Lens utilise TensorFlow, le framework d’apprentissage automatique open source de Google, pour associer les images à des caractéristiques et ainsi les étiqueter. Ces étiquettes sont enfin nourries par le Knowledge Graph de Google, qui contient des dizaines de milliards de faits, portant aussi bien sur des stars du cinéma que des races de chiens.

Lens a du apprendre à lire

Par ailleurs, il a fallu apprendre à lire à Lens car beaucoup d'utilisateurs s'en servent pour copier-coller du texte  : recettes, listes de courses ou horaires de bus. Pour cela, Google a développé un moteur de reconnaissance optique de caractères (OCR) combiné à la compréhension du langage issu de la recherche et du Knowledge Graph. Les algorithmes d’apprentissage automatique ont été formés en utilisant différents caractères, langues et polices, et en s’appuyant sur des sources comme les livres numérisés de Google Books. Ce moteur OCR est aussi utilisé pour la lecture des étiquettes de produits. Et c’est ce qui a permis en partie à Lens de passer un cap et d’identifier aujourd’hui autant de produits. Le défaut d'une telle méthode est d'exclure quantité d'objets anciens, artisanaux ou en édition limitée.

Tout n’est donc pas encore efficient avec Google Lens. Sans compter que ce dernier peut se tromper lourdement. Google souligne que le problème vient souvent de la façon dont les utilisateurs prennent leur photo. L’angle, la lumière, le cadre de ces clichés pris sur le vif et parfois maladroitement avec un smartphone diffèrent énormément de ceux des photos de ses bases de données qui sont réalisées de façon plus posée et avec des appareils professionnels. Ce qui explique que Lens ne fasse pas toujours les bons rapprochements. L’idée est maintenant d’entraîner les algorithmes avec le même type de photos que celles qui sont prises via les objectifs des smartphones.