Une étude révèle des problèmes de confiance liés aux modèles GPT, les questions de protection de la vie privée et de biais restent à résoudre.

robot
Création du résumé en cours

La recherche sur l'évaluation de la confiance des grands modèles de langage révèle des vulnérabilités potentielles

Une étude menée en collaboration par l'Université de l'Illinois à Urbana-Champaign, l'Université de Stanford et l'Université de Californie à Berkeley a réalisé une évaluation complète de la crédibilité du modèle de transformateur pré-entraîné génératif (GPT). L'équipe de recherche a développé une plateforme d'évaluation intégrée et a détaillé ses découvertes dans le dernier article publié intitulé "DecodingTrust : Évaluation complète de la crédibilité du modèle GPT".

Les résultats de l'étude révèlent des vulnérabilités liées à la fiabilité qui n'avaient pas été publiées auparavant. Par exemple, le modèle GPT est susceptible de produire des sorties toxiques et biaisées, et il pourrait également divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Bien que dans les tests standard, GPT-4 soit généralement plus fiable que GPT-3.5, il est plus susceptible d'être attaqué face à des incitations malveillantes conçues pour contourner les mesures de sécurité. Cela pourrait être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.

L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles différents, y compris la robustesse aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de données personnelles. Par exemple, lors de l'évaluation de la robustesse aux attaques textuelles adversariales, les chercheurs ont conçu trois scénarios : des tests de référence standard, des tests sous différentes instructions de tâches, et des tests de texte adversarial plus difficiles construits par leurs soins.

En ce qui concerne la toxicité et les préjugés, les recherches montrent que les modèles GPT ont généralement peu de biais sur la plupart des sujets stéréotypés. Cependant, sous des incitations systématiques trompeuses, le modèle peut être amené à acquiescer à un contenu biaisé. Par rapport à GPT-3.5, GPT-4 est plus susceptible d'être influencé par des incitations trompeuses ciblées. Le degré de biais du modèle dépend également de la sensibilité des groupes et des sujets spécifiques mentionnés par l'utilisateur.

En ce qui concerne la protection de la vie privée, des recherches ont montré que les modèles GPT peuvent divulguer des informations sensibles présentes dans les données d'entraînement, telles que des adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle peut également divulguer des informations privées injectées dans l'historique des conversations. Dans l'ensemble, GPT-4 présente de meilleures performances que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles rencontrent des problèmes lorsqu'il s'agit de démonstrations de fuites de vie privée.

L'équipe de recherche a indiqué que ce travail d'évaluation vise à encourager davantage de chercheurs à participer et à collaborer pour créer des modèles plus puissants et plus fiables. Pour favoriser la coopération, ils ont rendu public le code de la base d'évaluation, qui est hautement extensible et facile à utiliser. Parallèlement, les chercheurs ont également partagé leurs résultats de recherche avec les entreprises concernées afin de prendre des mesures en temps opportun pour résoudre les vulnérabilités potentielles.

Cette étude offre une perspective complète sur l'évaluation de la crédibilité des modèles GPT, révélant les avantages et les inconvénients des modèles existants. Avec l'application généralisée des grands modèles de langage dans divers domaines, ces découvertes revêtent une importance cruciale pour améliorer la sécurité et la fiabilité des systèmes d'IA.

GPT-5.72%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Reposter
  • Partager
Commentaire
0/400
BlockchainTherapistvip
· Il y a 1h
Y a-t-il vraiment des gens qui croient ce que dit l'IA ?
Voir l'originalRépondre0
GateUser-4745f9cevip
· Il y a 19h
Un peu inquiet, c'est si peu sûr.
Voir l'originalRépondre0
MelonFieldvip
· Il y a 23h
Je l'ai dit plus tôt, gpt n'est pas fiable.
Voir l'originalRépondre0
NFTDreamervip
· Il y a 23h
La technologie est impressionnante, mais elle craint toujours les hackers.
Voir l'originalRépondre0
QuorumVotervip
· Il y a 23h
Eh bien, les préjugés ne se soignent tout simplement pas.
Voir l'originalRépondre0
gas_fee_traumavip
· Il y a 23h
C'est incroyable que GPT-4 fasse cela, c'est vraiment magique.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)