/ en / Traditional / help

Beats Biblionetz - Texte

Measuring short-form factuality in large language models

Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus
Publikationsdatum:
Erste Seite des Textes (PDF-Thumbnail)
Dieses Biblionetz-Objekt existiert erst seit April 2025. Es ist deshalb gut möglich, dass viele der eigentlich vorhandenen Vernetzungen zu älteren Biblionetz-Objekten bisher nicht erstellt wurden. Somit kann es sein, dass diese Seite sehr lückenhaft ist.

iconZusammenfassungen

We present SimpleQA, a benchmark that evaluates the ability of language models to answer short, fact-seeking questions. We prioritized two properties in designing this eval. First, SimpleQA is challenging, as it is adversarially collected against GPT-4 responses. Second, responses are easy to grade, because questions are created such that there exists only a single, indisputable answer. Each answer in SimpleQA is graded as either correct, incorrect, or not attempted. A model with ideal behavior would get as many questions correct as possible while not attempting the questions for which it is not confident it knows the correct answer. SimpleQA is a simple, targeted evaluation for whether models "know what they know," and our hope is that this benchmark will remain relevant for the next few generations of frontier models.
Von Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus im Text Measuring short-form factuality in large language models (2024)

iconDieser Text erwähnt ...


Personen
KB IB clear
OpenAI

Begriffe
KB IB clear
Generative Machine-Learning-Systeme (GMLS)computer-generated text , Halluzination
icon
Texte
Jahr  Umschlag Titel Abrufe IBOBKBLB
2023 local web  GPT-4 (OpenAI) 2 7 0 0

iconDieser Text erwähnt vermutlich nicht ... Eine statistisch erstelle Liste von nicht erwähnten (oder zumindest nicht erfassten) Begriffen, die aufgrund der erwähnten Begriffe eine hohe Wahrscheinlichkeit aufweisen, erwähnt zu werden.

icon
Nicht erwähnte Begriffe
Chat-GPT, GMLS & Bildung

iconZitationsgraph (Beta-Test mit vis.js)

iconAnderswo finden

icon

iconVolltext dieses Dokuments

Auf dem WWW Measuring short-form factuality in large language models: Artikel als Volltext (lokal: PDF, 398 kByte; WWW: Link OK )

iconAnderswo suchen  Auch im Biblionetz finden Sie nicht alles. Aus diesem Grund bietet das Biblionetz bereits ausgefüllte Suchformulare für verschiedene Suchdienste an. Biblionetztreffer werden dabei ausgeschlossen.

iconBeat und dieser Text

Beat hat Dieser Text erst in den letzten 6 Monaten in Biblionetz aufgenommen. Er hat Dieser Text einmalig erfasst und bisher nicht mehr bearbeitet. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Aufgrund der wenigen Einträge im Biblionetz scheint er es nicht wirklich gelesen zu haben. Es gibt bisher auch nur wenige Objekte im Biblionetz, die dieses Werk zitieren.

iconBiblionetz-History Dies ist eine graphische Darstellung, wann wie viele Verweise von und zu diesem Objekt ins Biblionetz eingetragen wurden und wie oft die Seite abgerufen wurde.