Microsoft am Dienstag Angekündigt dass sein KI-Modell menschenin natürliche Sprachverständnis (NLU) mit SuperGLUE-Benchmarks übertroffen hat.
Laut Microsoft ist Natural Language Understanding (NLU) eines der am längsten laufenden Ziele in KI (künstliche Intelligenz), und SuperGLUE gehört derzeit zu den anspruchsvollsten Benchmarks für die Bewertung von NLU-Modellen.
Der SuperGLUE-Benchmark besteht aus einer Vielzahl von NLU-Aufgaben, einschließlich Fragebeantwortung, natürlicher Sprachrückschluss, Co-Referenzauflösung, Wortssinn-Unklarheit und anderen. Der Tech-Riese aus Redmond nahm die kausale Argumentationsaufgabe als Beispiel.
Unter der Prämisse “das Kind wurde immun gegen die Krankheit” und der Frage “Was ist die Ursache dafür?”, wird das Modell gebeten, eine Antwort von zwei plausiblen Kandidaten zu wählen: 1) “er vermied die Exposition gegenüber der Krankheit” und 2) “er erhielt den Impfstoff für die Krankheit.”
Während es für einen Menschen einfach ist, die richtige Antwort zu wählen, ist es eine Herausforderung für ein KI-Modell. Um die richtige Antwort zu erhalten, muss das Modell den kausalen Zusammenhang zwischen der Prämisse und diesen plausiblen Optionen verstehen.
Um Benchmarks besser handhaben zu können, aktualisierte Microsoft das DeBERTa-Modell (Decoding-enhanced BERT with Disentangled Attention), indem es eine größere Version trainierte, die aus 48 Transformer-Schichten mit 1,5 Milliarden Parametern besteht.
DeBERTa ist ein Transformer-basiertes neuronales Sprachmodell, das auf große Mengen von Rohtextkorpora mit selbstüberwachtem Lernen trainiert wird. Wie andere PLMs soll DeBERTa universelle Sprachdarstellungen erlernen, die an verschiedene nachgelagerte NLU-Aufgaben angepasst werden können.
Das DeBERTa-Modell der KI erreicht nun in SuperGLUE zum ersten Mal 89,9 Punkte in Bezug auf die makro-durchschnittliche Punktzahl, während das Ensemblemodell mit 3,2 Milliarden Parametern 90,3 Punkte erzielt, die die menschliche Basis um eine ordentliche Marge übertreffen (90,3 gegenüber 89,8). Das Modell steht auch an der Spitze des GLUE-Benchmark-Rankings mit einer makro-durchschnittlichen Punktzahl von 90,8.
Es ist nicht das erste Mal, dass ein KI-Modell die menschlichen Grundlinien übertrifft. Googles 11-Milliarden-Parameter “T5 + Meena”-Modell übertraf am 5. Januar mit einer Punktzahl von 90,2 die menschliche Basislinie, die am 6. Januar vom DeBERTa-Modell von Microsoft übertroffen wurde.
Microsoft integriert DeBERTa in die nächste Version des Microsoft Turing Natural Language Representation Model (Turing NLRv4). Das Modell wird in großem Maßstab zur Unterstützung von Produkten wie Bing, Office, Dynamics und Azure Cognitive Services geschult, um eine Vielzahl von Szenarien zu unterstützen, die Mensch-Maschine und Mensch-Mensch-Interaktionen über natürliche Sprache (wie Chatbot, Empfehlung, Fragebeantwortung, Suche, persönliche Unterstützung, Automatisierung des Kundensupports, Inhaltsgenerierung und andere) betreffen, um Hunderten von Millionen von Benutzern über Microsoft zu profitieren. KI im Maßstab Initiative.
Laut Microsoft ist der 1,5-Milliarden-Parameter DeBERTa im Vergleich zu Googles T5-Modell, das aus 11 Milliarden Parametern besteht, viel energieeffizienter zu trainieren und zu warten, und es ist einfacher zu komprimieren und auf Apps mit verschiedenen Einstellungen bereitzustellen.
“DeBERTa übertrifft die menschliche Leistung bei SuperGLUE und ist ein wichtiger Meilenstein in Richtung allgemeiner KI. Trotz seiner vielversprechenden Ergebnisse auf SuperGLUE erreicht das Modell keineswegs die Intelligenz der NLU auf menschlicher Ebene. Menschen sind sehr gut darin, das Wissen aus verschiedenen Aufgaben zu nutzen, um eine neue Aufgabe ohne oder ohne kleine aufgabenspezifische Demonstration zu lösen. Dies wird als kompositorische Verallgemeinerung bezeichnet, die Fähigkeit, auf neue Kompositionen (neue Aufgaben) bekannter Bestandteile (Unteraufgaben oder grundlegende Problemlösungsfähigkeiten) zu verallgemeinern. In Zukunft lohnt es sich zu erforschen, wie DeBERTa kompositorische Strukturen auf eine explizitere Weise integrieren kann, was es ermöglichen könnte, neuronale und symbolische Berechnung natürlicher Sprache ähnlich dem, was Menschen tun, zu kombinieren”, fügte das Unternehmen hinzu.
Microsoft hat das 1,5-Milliarden-Parameter-DeBERTa-Modell und die Quellcode für die Öffentlichkeit.