Le problème des modèles de langage de grande échelle (LLMs) est qu’ils racontent parfois n’importe quoi ! Leurs « hallucinations » rendent une exploitation à grande échelle hasardeuse pour une entreprise. Pour surmonter cet obstacle, il est nécessaire d’améliorer la qualité des données et donc… des réponses.
La technique mise au point s’appelle RAG, retrieval augmented generation ou génération augmentée de récupération. Il s’agit d’une méthode permettant d’optimiser les performances des modèles de langage de grande échelle (LLMs).
Le RAG utilise une base de connaissances externe et fiable (la vôtre), en plus des données d'entraînement initiales, pour améliorer les réponses générées par les LLMs. Les LLMs traitent de grandes quantités de données et fonctionnent avec des milliards de paramètres pour accomplir des tâches telles que la réponse à des questions, la traduction de langues et la complétion de phrases.
Le RAG les améliore en les adaptant à des domaines spécifiques (ou à la base de connaissances interne d'une entreprise), sans nécessiter de ré-entraînement. Cette technique est économique et vise à rendre les résultats des LLMs plus cohérents, précis et donc, utiles.
Les données peuvent provenir d'API, de bases de données ou de documents pdf, par exemple. Après les avoir traitées et transformées en base de données vectorielles, vous disposez d’une base de connaissances qui pourra être utilisée par les modèles d'IA générative.
Attention toutefois ! Même si on utilise des bases de connaissances spécifiques et externes au modèle, la qualité des données reste une composante majeure de la qualité des messages. En d’autres termes, si vos bases de données/connaissances contiennent des erreurs ou des données obsolètes, le résultat sera mauvais. C’est ici qu’une autre complexité apparaît avec l’évolution des données dans le temps. Il est, en effet, souvent indispensable de les maintenir à jour, et donc de les actualiser, pour préserver la qualité de l’outil.
Le principe de technique du fonctionnement du RAG est le suivant :
• La récupération (retrieval) : la recherche des informations pertinentes, au regard de la requête, dans la base de connaissance.
• La génération : une réponse plus pertinente et précise, basée sur les informations issues de la recherche.
Cette méthode présente de nombreux avantages et nécessite une expertise en matière de traitement de la donnée.
Comme toujours, des solutions alternatives existe et la première d’entre elle est le prompt engineering car il est aussi possible de fournir au LLM des exemples et des précisions dans un prompt. Il est aussi possible de développer son propre GPT lorsqu’on est abonné payant à ChatGPT.
Le RAG apporte une solution opérationnelle pour développer de la valeur grâce aux IA génératives. Les entreprises peuvent développer de nouveaux cas d’usage internes et externes dans un contexte sécurisant dans lequel les données sont contrôlées.
Pour aller plus loin contactez omestra.
Kommentarer