Measuring short-form factuality in large language models

Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus

Publikationsdatum: 07.11.2024

Dieses Biblionetz-Objekt existiert erst seit April 2025. Es ist deshalb gut möglich, dass viele der eigentlich vorhandenen Vernetzungen zu älteren Biblionetz-Objekten bisher nicht erstellt wurden. Somit kann es sein, dass diese Seite sehr lückenhaft ist.

Zusammenfassungen

We present SimpleQA, a benchmark that evaluates the ability of language models to answer short, fact-seeking questions. We prioritized two properties in designing this eval. First, SimpleQA is challenging, as it is adversarially collected against GPT-4 responses. Second, responses are easy to grade, because questions are created such that there exists only a single, indisputable answer. Each answer in SimpleQA is graded as either correct, incorrect, or not attempted. A model with ideal behavior would get as many questions correct as possible while not attempting the questions for which it is not confident it knows the correct answer. SimpleQA is a simple, targeted evaluation for whether models "know what they know," and our hope is that this benchmark will remain relevant for the next few generations of frontier models.

Von Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus im Text Measuring short-form factuality in large language models (2024)

Dieser Text erwähnt ...

Personen
KB IB clear

OpenAI

Begriffe
KB IB clear

Generative Machine-Learning-Systeme (GMLS)

computer-generated text , Halluzination

Texte

Jahr		Umschlag	Titel	Abrufe	IB	OB	KB	LB
2023			GPT-4 (OpenAI)		2	7	0	0

Dieser Text erwähnt vermutlich nicht ...

Nicht erwähnte Begriffe

Chat-GPT, GMLS & Bildung

Zitationsgraph (Beta-Test mit vis.js)

Anderswo finden

Volltext dieses Dokuments

Measuring short-form factuality in large language models: Artikel als Volltext ( lokal

, 398 kByte; WWW

)

Anderswo suchen

Beat und dieser Text

Beat hat Dieser Text erst in den letzten 6 Monaten in Biblionetz aufgenommen. Er hat Dieser Text einmalig erfasst und bisher nicht mehr bearbeitet. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Aufgrund der wenigen Einträge im Biblionetz scheint er es nicht wirklich gelesen zu haben. Es gibt bisher auch nur wenige Objekte im Biblionetz, die dieses Werk zitieren.

Beats Biblionetz - Texte