Un document de recherche d’Apple décrit comment la société a développé Ferret-UI, un système d’IA générative spécialement conçu pour donner un sens aux écrans d’applications.
Le document est quelque peu vague sur les applications potentielles de cela – probablement délibérément – mais la possibilité la plus excitante serait d’alimenter un Siri beaucoup plus avancé…
Les défis pour aller au-delà de ChatGPT
Les grands modèles linguistiques (LLM) sont le moteur des systèmes comme ChatGPT. Le matériel de formation correspondant est constitué de textes, principalement tirés de sites Web.
Les MLLM – ou Multimodal Large Language Models – visent à étendre la capacité d’un système d’IA à donner également un sens aux informations non textuelles : images, vidéo et audio.
Les MLLM ne sont actuellement pas très efficaces pour comprendre le résultat des applications mobiles. Il y a plusieurs raisons à cela, à commencer par la plus banale : les formats d’image de l’écran du smartphone diffèrent de ceux utilisés par la plupart des images d’entraînement.
Plus précisément, la plupart des images qu’ils doivent reconnaître, comme les icônes et les boutons, sont très petites.
De plus, plutôt que de comprendre les informations d’un seul coup, comme ils le feraient lors de l’interprétation d’une image statique, ils doivent pouvoir interagir avec l’application.
L’interface utilisateur Ferret d’Apple
Ce sont les problèmes que les chercheurs d’Apple pensent avoir résolus avec le système MLLM qu’ils appellent Ferret-UI (l’UI signifiant interface utilisateur).
Étant donné que les écrans d’interface utilisateur présentent généralement un rapport hauteur/largeur plus allongé et contiennent des objets d’intérêt plus petits (par exemple, des icônes, des textes) que les images naturelles, nous incorporons « n’importe quelle résolution » au-dessus de Ferret pour agrandir les détails et exploiter des fonctionnalités visuelles améliorées (…)
Nous rassemblons méticuleusement des échantillons de formation à partir d’une vaste gamme de tâches élémentaires de l’interface utilisateur, telles que la reconnaissance d’icônes, la recherche de texte et la liste de widgets. Ces échantillons sont formatés pour le suivi des instructions avec des annotations de région afin de faciliter une référence et une mise à la terre précises. Pour augmenter la capacité de raisonnement du modèle, nous compilons en outre un ensemble de données pour des tâches avancées, notamment une description détaillée, des conversations de perception/interaction et l’inférence de fonctions.
Le résultat, disent-ils, est meilleur que celui de GPT-4V et des autres MLLM existants axés sur l’interface utilisateur.
Du développement de l’interface utilisateur à un Siri très avancé
Le document décrit ce qu’ils ont réalisé, plutôt que la manière dont cela pourrait être utilisé. C’est typique de nombreux documents de recherche, et cela peut être dû à plusieurs raisons.
Premièrement, les chercheurs eux-mêmes ne peuvent pas savoir comment leur travail pourrait finir par être utilisé. Ils se concentrent sur la résolution d’un problème technique et non sur les applications potentielles. Il faudra peut-être un spécialiste du produit pour voir les moyens potentiels de l’utiliser.
Deuxièmement, surtout en ce qui concerne Apple, il peut leur être demandé de ne pas divulguer l’utilisation prévue ou de rester délibérément vague à ce sujet.
Mais nous pourrions voir trois façons potentielles d’utiliser cette capacité…
Premièrement, cela pourrait être un outil utile pour évaluer l’efficacité d’une interface utilisateur. Un développeur pourrait créer une version préliminaire d’une application, puis laisser Ferret-UI déterminer si elle est facile ou difficile à comprendre et à utiliser. Cela pourrait être à la fois plus rapide et moins coûteux que les tests d’utilisabilité humaine.
Deuxièmement, il pourrait avoir des applications d’accessibilité. Plutôt qu’un simple lecteur d’écran lisant tout ce qui se trouve sur l’écran d’un iPhone à une personne aveugle, par exemple, il résume ce que l’écran affiche et répertorie les options disponibles. L’utilisateur peut alors dire à iOS ce qu’il veut faire et laisser le système le faire à sa place.
Apple en fournit un exemple, où Ferret-UI se voit présenter un écran contenant des émissions de podcast. Le résultat du système est le suivant : « L’écran est destiné à une application de podcast où les utilisateurs peuvent parcourir et lire de nouveaux podcasts remarquables, avec des options pour lire, télécharger et rechercher des podcasts spécifiques. »
Troisièmement – et le plus excitant de tous – il pourrait être utilisé pour alimenter une forme très avancée de Siri, dans laquelle un utilisateur pourrait donner à Siri une instruction telle que « Vérifiez les vols de JFK à Boston demain et réservez une place sur un vol qui m’amènera. là-bas avant 10 heures du matin avec un tarif total inférieur à 200 $. Siri interagirait ensuite avec l’application de la compagnie aérienne pour effectuer la tâche.
Merci, AK. Image composite 9to5Mac de Solen Feyissa sur Unsplash et Pomme.
FTC : Nous utilisons des liens d’affiliation automatique générateurs de revenus. Plus.