Measuring short-form factuality in large language modelsJason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus
Publikationsdatum:
|
![]() |

Zusammenfassungen
We present SimpleQA, a benchmark that evaluates the ability of language models to answer short, fact-seeking questions. We prioritized two properties in designing this eval. First, SimpleQA is challenging, as it is adversarially collected against GPT-4 responses. Second, responses are easy to grade, because questions are created such that there exists only a single, indisputable answer. Each answer in SimpleQA is graded as either correct, incorrect, or not attempted. A model with ideal behavior would get as many questions correct as possible while not attempting the questions for which it is not confident it knows the correct answer. SimpleQA is a simple, targeted evaluation for whether models "know what they know," and our hope is that this benchmark will remain relevant for the next few generations of frontier models.
Von Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus im Text Measuring short-form factuality in large language models (2024)
Dieser Text erwähnt ...
![]() Personen KB IB clear | OpenAI | ||||||||||||||||||
![]() Begriffe KB IB clear | ![]() ![]() | ||||||||||||||||||
![]() Texte |
|
Dieser Text erwähnt vermutlich nicht ... 
![]() Nicht erwähnte Begriffe | Chat-GPT, GMLS & Bildung |
Zitationsgraph (Beta-Test mit vis.js)
Anderswo finden
Volltext dieses Dokuments
![]() | ![]() ![]() ![]() ![]() ![]() |
Anderswo suchen 
Beat und dieser Text
Beat hat Dieser Text erst in den letzten 6 Monaten in Biblionetz aufgenommen. Er hat Dieser Text einmalig erfasst und bisher nicht mehr bearbeitet. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Aufgrund der wenigen Einträge im Biblionetz scheint er es nicht wirklich gelesen zu haben. Es gibt bisher auch nur wenige Objekte im Biblionetz, die dieses Werk zitieren.