
Der Bullshit Benchmark: Was passiert, wenn KI-Modelle auf Unsinn hereinfallen
55 Fragen, jede einzelne davon Unsinn. Und die meisten Sprachmodelle haben brav geantwortet, als wäre alles völlig plausibel. Peter Gostev, AI Capability Lead bei Arena, hat mit seinem „Bullshit Benchmark“ etwas sichtbar gemacht, das ich seit 2022 in jeder Schulung predige: Die gefährlichste Eigenschaft von Sprachmodellen ist nicht, dass sie




























