Google a publié un document de recherche sur un nouveau type d'ensemble de données pour former un modèle de langage afin de récupérer des phrases qui répondent exactement à une question dans un dialogue ouvert.
Nous ne savons pas si Google utilise cet ensemble de données. Mais les chercheurs affirment qu'il surpasse les modèles formés sur d'autres ensembles de données.
De nombreux articles de recherche, comme celui publié pour LaMDA, ne mentionnent pas de contextes spécifiques sur la façon dont il pourrait être utilisé.
Par exemple, le document de recherche LaMDA (PDF) conclut vaguement :
Par exemple, le document de recherche LaMDA (PDF) conclut vaguement :PDF
"LaMDA est un pas de plus vers des systèmes de dialogue ouverts pratiques et sûrs , qui peut à son tour débloquer un large éventail d'applications utiles. »
"LaMDA est un pas de plus vers des systèmes de dialogue ouverts pratiques et sûrs , qui peut à son tour débloquer un large éventail d'applications utiles. »
Ce document de recherche indique que le problème qu'ils résolvent est de savoir comment créer un ensemble de données pour former une machine à un dialogue ouvert en sélectionnant une phrase d'une page Web.
Pourquoi cet ensemble de données est important
Ce qui rend ce document de recherche intéressant, c'est que les chercheurs concluent qu'il pourrait être utilisé pour étayer factuellement les résultats de l'IA générative , comme ce qui est vu dans la nouvelle expérience générative de recherche de Google.
Étant donné que le document de recherche a été présenté lors d'une conférence sur la recherche d'informations (Actes de la 45e conférence internationale ACM SIGIR sur la recherche et le développement), il est assez sûr de deviner que cet algorithme est lié à la recherche d'informations, ce qui signifie recherche.
Un La dernière chose à noter est que la recherche sur ce nouveau type d'ensemble de données a été présentée l'année dernière en 2022, mais elle est apparemment passée inaperçue… Jusqu'à présent.
Ce que Google a entrepris de réaliser avec le nouvel ensemble de données
Les chercheurs expliquent ce sur quoi ils se concentrent :
"Dans cet article, nous nous concentrons sur les dialogues ouverts : deux parties conversent à tour de rôle sur un certain nombre de sujets sans aucune restriction quant à la changements de sujet et type de discussion sur chaque sujet.
De plus, le dialogue n'est pas fondé sur un document spécifique, contrairement au cadre utilisé dans certains travaux antérieurs…
La tâche nous nous occupons de récupérer des phrases à partir de certains corpus de documents qui contiennent des informations utiles pour générer (soit automatiquement, soit par des humains) le prochain tour du dialogue.
Nous notons que les tours de dialogue peuvent être des questions, des requêtes, des arguments, déclarations, etc."
"Dans cet article, nous nous concentrons sur les dialogues ouverts : deux parties conversent à tour de rôle sur un certain nombre de sujets sans aucune restriction quant à la changements de sujet et type de discussion sur chaque sujet.
De plus, le dialogue n'est pas fondé sur un document spécifique, contrairement au cadre utilisé dans certains travaux antérieurs…
La tâche nous nous occupons de récupérer des phrases à partir de certains corpus de documents qui contiennent des informations utiles pour générer (soit automatiquement, soit par des humains) le prochain tour du dialogue.
Nous notons que les tours de dialogue peuvent être des questions, des requêtes, des arguments, déclarations, etc."
Un nouveau type d'ensemble de données pour la formation de modèles de langage
Le problème que les chercheurs résolvent est de savoir comment récupérer un phrase d'une page Web comme réponse à une question ouverte, un type de question qui nécessite plus qu'une réponse par oui ou par non.
Le document de recherche explique que ce qui manque pour que cette capacité se produise dans un machine est un jeu de données conversationnel approprié.
Ils expliquent que les jeux de données existants sont utilisés pour deux raisons :
Ils expliquent que les jeux de données existants sont utilisés pour deux raisons :
Pour évaluer les réponses de dialogue par une IA générative mais pas pour l'entraîner à récupérer les informations pertinentes pour cette réponse.
Ensembles de données à utiliser par un moteur de recherche ou une réponse aux questions, axés sur un seul passage d'une question et d'une réponse.
Pour évaluer les réponses de dialogue par une IA générative mais pas pour l'entraîner à récupérer les informations pertinentes pour cette réponse.
Ensembles de données à utiliser par un moteur de recherche ou une réponse aux questions, axés sur un seul passage d'une question et d'une réponse.
Ils expliquent les lacunes des jeux de données existants :
Ils expliquent les lacunes des jeux de données existants :
"... dans la plupart de ces ensembles de données, les résultats de recherche renvoyés ne sont pas considérés comme faisant partie du dialogue.
... dans les ensembles de données de récupération de passage conversationnel et d'assurance qualité conversationnelle, il y a est un utilisateur qui pose des questions ou des requêtes qui reflètent des intentions explicites avec des besoins d'information, par opposition aux dialogues naturels où les intentions peuvent n'être représentées qu'implicitement, par exemple, dans des déclarations affirmatives.
En résumé, les ensembles de données conversationnels existants ne se combinent pas conversations humaines-humaines naturelles avec des annotations pertinentes pour les phrases extraites d'un grand corpus de documents.
Nous avons donc construit un tel jeu de données… »
"... dans la plupart de ces ensembles de données, les résultats de recherche renvoyés ne sont pas considérés comme faisant partie du dialogue.
... dans les ensembles de données de récupération de passage conversationnel et d'assurance qualité conversationnelle, il y a est un utilisateur qui pose des questions ou des requêtes qui reflètent des intentions explicites avec des besoins d'information, par opposition aux dialogues naturels où les intentions peuvent n'être représentées qu'implicitement, par exemple, dans des déclarations affirmatives.
En résumé, les ensembles de données conversationnels existants ne se combinent pas conversations humaines-humaines naturelles avec des annotations pertinentes pour les phrases extraites d'un grand corpus de documents.
Nous avons donc construit un tel jeu de données… »
Comment le nouvel ensemble de données a été créé
Les chercheurs ont créé un ensemble de données qui peut être utilisé pour former un algorithme capable de récupérer une phrase qui est la réponse correcte dans un dialogue ouvert.
L'ensemble de données se compose de conversations Reddit qui ont été mises en correspondance avec des réponses de Wikipédia, ainsi que des annotations humaines (évaluations de pertinence) de ces paires de questions et de réponses.
Les données Reddit ont été téléchargées depuis Pushshift.io, une archive des conversations Reddit (FAQ Pushshift).
"Pour aborder une portée plus large de cette tâche où n'importe quel type de dialogue peut être utilisé, nous avons construit un ensemble de données qui comprend des dialogues ouverts de Reddit, des phrases candidates de Wikipedia pour chaque dialogue et des annotations humaines pour les phrases.
L'ensemble de données comprend 846 dialogues créés à partir de fils Reddit .
Pour chaque dialogue, 50 phrases ont été extraites de Wikipédia à l'aide d'une méthode de récupération initiale non supervisée.
Ces phrases ont été jugées par les crowd workers pour leur pertinence, c'est-à-dire si elles contenaient des informations utiles pour générer le prochain tournant dans le dialogue. »
"Pour aborder une portée plus large de cette tâche où n'importe quel type de dialogue peut être utilisé, nous avons construit un ensemble de données qui comprend des dialogues ouverts de Reddit, des phrases candidates de Wikipedia pour chaque dialogue et des annotations humaines pour les phrases.
L'ensemble de données comprend 846 dialogues créés à partir de fils Reddit .
Pour chaque dialogue, 50 phrases ont été extraites de Wikipédia à l'aide d'une méthode de récupération initiale non supervisée.
Ces phrases ont été jugées par les crowd workers pour leur pertinence, c'est-à-dire si elles contenaient des informations utiles pour générer le prochain tournant dans le dialogue. »
"Plus simplement par Neil deGrasse Tyson : 'Qui est venu en premier : la poule ou l'œuf ? L'œuf pondu par un oiseau qui n'était pas une poule.'"
Méthodologie de récupération
Pour la partie de récupération, ils citent des recherches antérieures sur les modèles de langage et d'autres méthodes et se contenter d'une approche de supervision faible.
Ils expliquent :
Ils expliquent :
"Le réglage fin des modèles de récupération nécessite des étiquettes de pertinence pour les exemples de formation dans une tâche cible.
Ceux-ci sont parfois rares ou indisponibles.
Une approche pour contourner cela consiste à générer automatiquement des étiquettes et à former un modèle faiblement supervisé sur ces annotations.
… Nous suivons le paradigme de la supervision faible dans notre formation de modèle, avec un nouvel annotateur Reddit faible pour la récupération dans un dialogue contexte."
"Le réglage fin des modèles de récupération nécessite des étiquettes de pertinence pour les exemples de formation dans une tâche cible.
Ceux-ci sont parfois rares ou indisponibles.
Une approche pour contourner cela consiste à générer automatiquement des étiquettes et à former un modèle faiblement supervisé sur ces annotations.
… Nous suivons le paradigme de la supervision faible dans notre formation de modèle, avec un nouvel annotateur Reddit faible pour la récupération dans un dialogue contexte."
L'ensemble de données est-il un succès ?
Google et d'autres organisations publient de nombreux articles de recherche qui démontrent différents niveaux de réussite.
Certaines recherches conclut avec un succès limité, déplaçant l'état de l'art d'un peu, voire pas du tout.
Les documents de recherche qui m'intéressent (pour moi) sont ceux qui réussissent clairement et surpassent l'état actuel de l'art.
C'est le cas avec le développement de cet ensemble de données pour la formation d'un modèle de langage pour récupérer des phrases qui servent précisément de tour dans un dialogue ouvert.
Ils indiquent comment un modèle BERT formé avec cet ensemble de données devient encore plus puissant.
Ils écrivent :
Ils écrivent :
"En effet, alors que RANKBERTMS surpasse tous les modèles non affinés, le modèle RANKBERTMS→R, qui a été affiné à l'aide de notre ensemble d'entraînement faiblement supervisé, améliore les performances.
Cette méthode atteint les performances les plus élevées, tous les gains de performances par rapport aux autres méthodes étant statistiquement significatifs.
Ce résultat démontre également l'efficacité de notre annotateur faible et de notre ensemble d'entraînement faiblement supervisé , montrant que les performances peuvent être améliorées sans annotation manuelle pour la formation. »
"En effet, alors que RANKBERTMS surpasse tous les modèles non affinés, le modèle RANKBERTMS→R, qui a été affiné à l'aide de notre ensemble d'entraînement faiblement supervisé, améliore les performances.
Cette méthode atteint les performances les plus élevées, tous les gains de performances par rapport aux autres méthodes étant statistiquement significatifs.
Ce résultat démontre également l'efficacité de notre annotateur faible et de notre ensemble d'entraînement faiblement supervisé , montrant que les performances peuvent être améliorées sans annotation manuelle pour la formation. »
Ailleurs, les chercheurs rapportent :
Ailleurs, les chercheurs rapportent :
"Nous montrons qu'un système de classement neuronal qui a été affiné à l'aide de notre ensemble d'entraînement faiblement supervisé surpasse tous les autres modèles testés, y compris un classeur neuronal affiné sur l'ensemble de données de récupération de passage MS Marco. »
"Nous montrons qu'un système de classement neuronal qui a été affiné à l'aide de notre ensemble d'entraînement faiblement supervisé surpasse tous les autres modèles testés, y compris un classeur neuronal affiné sur l'ensemble de données de récupération de passage MS Marco. »
Ils écrivent également que, aussi réussie que soit cette approche, ils souhaitent approfondir encore plus l'état de l'art que ils l'ont déjà.
Le document de recherche conclut :
Le document de recherche conclut :
« Dans les travaux futurs, nous aimerions concevoir des modèles de récupération basés sur le BERT qui soient formé sur la seule base d'une supervision faible, en utilisant un BERT pré-formé, sans avoir besoin de grands ensembles de formation annotés comme MS Marco.
Nous aimerions également ancrer des modèles de langage génératif avec nos modèles de récupération et étudier les conversations qui émergent d'un tel ancrage. »
« Dans les travaux futurs, nous aimerions concevoir des modèles de récupération basés sur le BERT qui soient formé sur la seule base d'une supervision faible, en utilisant un BERT pré-formé, sans avoir besoin de grands ensembles de formation annotés comme MS Marco.
Nous aimerions également ancrer des modèles de langage génératif avec nos modèles de récupération et étudier les conversations qui émergent d'un tel ancrage. »
Cette approche pourrait-elle être En cours d'utilisation ?
Google confirme rarement quand une recherche spécifique est utilisée. Il y a des cas, comme avec BERT, où Google confirme qu'ils l'utilisent.
Mais en général, la réponse standard est que juste parce que Google publie un document de recherche ou un brevet ne signifie pas qu'ils l'utilisent dans leur algorithme de recherche.
juste parce que Google publie un document de recherche ou un brevet ne signifie pas qu'ils l'utilisent dans leur algorithme de recherche
Cela dit, le document de recherche, qui date de mi-2022, a indiqué qu'une direction future était d'étudier comment les modèles de langage génératifs (qui sont comme Bard et Google's Search Generative Experience) peuvent être fondés dessus.
Un L'expérience de chat générative de l'IA peut entraîner une invention de la sortie de l'IA, ce qui est techniquement connu sous le nom d'hallucination.
La mise à la terre signifie ancrer la sortie du chat de l'IA avec des faits, généralement provenant de sources en ligne, pour aider à prévenir les hallucinations.
Bing utilise un système appelé Bing Orchestrator qui vérifie les pages Web pour fonder la sortie GPT sur des faits.
La mise à la terre de la sortie AI permet de la maintenir ancrée sur des faits, ce que cet ensemble de données peut être capable de faire, en plus de sélectionner des phrases à partir de pages Web dans le cadre d'une réponse.