AI показа ниска ефективност при спортни залози, загуби всички пари по мачове в английската Първа лига.
Кратко за резултата от експеримента
Стартапът *General Reasoning* проведе тест с име KellyBench, в който оцениха осем водещи ИИ‑системи (Google Gemini 3.1 Pro, OpenAI ChatGPT‑4, Anthropic Claude Opus 4.6, xAI Grok 4.20 и др.) за способността им да правят залози по време на сезона на английската Първа лига 2023–2024.
На всеки агент беше предоставено пълно статистическо описание на всички отбори и минали мачове, но достъпът до интернет е забранен – моделите можеха да използват само данните, които получиха предварително.
Как се провежда тестът
1. Три опита: всяка система може да направи три серии залози за сезона.
2. Залозите: на резултатите от игрите (победа/нраво/проигрыш) и броя голове.
3. Целта: максимизиране на печалбата, управляя рисковете.
Кой спечели, а кой загуби
| ИИ‑система | Среден резултат | Забележка |
|---|---|---|
| Anthropic Claude Opus 4.6 | 11 % (приблизително безубитък в един опит) | Най‑„честният“ участник, но все пак загуби пари |
| Google Gemini 3.1 Pro | +34 % при първия опит, след това банкрут | Първо печалба, после загуба |
| xAI Grok 4.20 | Банкрутиран веднага, не завърши последващите два опита | Най‑слабият от всички |
В крайна сметка всеки модел загуби пари през сезона, а някои дори се провалиха напълно. Това потвърждава изводите на изследователите: дори най‑напредналите ИИ‑системи изпитват трудности при дългосрочно прогнозиране в реалния свят.
Какво означава това за бъдещето на ИИ
- Опасенията за замяна на човека все още изглеждат преувеличени.
- Текущите бенчмарки често използват „статични“ условия, които не отразяват хаоса и сложността на истинския живот.
- Въпреки че ИИ вече успешно решава задачи като писане на код, в повечето други сфери на човешката дейност той остава ограничен.
Следователно експериментът KellyBench демонстрира, че ИИ все още не е готов да конкурира човек в динамични, непредсказуеми задачи, като спортните прогнози.
Коментари (0)
Споделете мнението си — моля, бъдете учтиви и по темата.
Влезте, за да коментирате