ИИ‑роботите губят ефективност при дълги разговори с хора – голямото изследване на Microsoft го потвърдиха.

Изследване на Microsoft Research и Salesforce: как големите модели за изкуствен интелект губят ориентация в диалозите

Какво се изучава
Кои модели 200 000+ многократни разговори с водещи LLM GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Ключови изводи
Показател Резултат Точност при единични заявки 90 % правилни отговори (GPT‑4.1, Gemini 2.5 Pro) Точност в дълги диалози ~65 % – почти трети намалява ефективността Поведение на модела Често „преизползва“ първия си грешен отговор като основа за следващите реплики Дължина на отговорите Увеличава се с 20‑300 % в многократни разговори, което води до увеличение на галюцинации и предположения Надеждност Съкращава се до 112 % (моделите „преждевременно“ генерират отговор, без да прочетат заявката)

Защо това се случва?
1. Преизползване на грешна основа
Моделът държи първия си извод и строи последващите отговори върху него, дори ако е грешен.

2. Раздуване на контекста
При всеки нов въпрос се добавя повече текст – това увеличава броя „измислени“ факти, които моделът приема за факт.

3. Проблем с токени за мисъл
Дори модели със същестуващи “токени” (o3, DeepSeek R1) не успяха да преодолеят тази капана – те все пак генерират отговори твърде рано и без достатъчно анализ.

Какво означава това за потребителите?
- Ниска надеждност в реални разговори
ИИ може „да загуби“ темата, започвайки да говори за несуществуващи неща.

- Риск от неточна информация
Отказът от традиционните търсачки в полза на генеративни инструменти (например Google‑ИИ‑обзори) увеличава вероятността за получаване на недостоверни данни.

- Важност на качествени подсказки
Microsoft по-рано отбелязва ниския ниво на инженеринг при създаване на заявки. Неуспешните въпроси и „лошите“ подсказки могат да бъдат причина, че ИИ не разкрива потенциала си.

Извод
Технологията за големи езикови модели все още е в процес на развитие. Макар те да демонстрират висока точност при единични заявки, тяхната надеждност в многократни диалози остава проблем. За безопасно и ефективно използване на ИИ е важно:

1. Да пишете ясни, конкретни въпроси.
2. Да сте готови да коригирате отговорите на модела.
3. Да не разчитате напълно на генеративния контент без проверка на фактите.

В крайна сметка, усъвършенстването на моделите и повишаването им устойчивост в дълги разговори е ключът към това, че ИИ да стане надежден партньор за потребителите.

ИИ‑роботите губят ефективност при дълги разговори с хора – голямото изследване на Microsoft го потвърдиха.

Related news

Тиндер и други услуги ще въведат проверка на реални потребители, съобщава Уорълд Алтман относно разширяването извън криптовалутната сфера.

Microsoft Edge на Android сега възпроизвежда видеа от YouTube във фон, като заобикаля предишните ограничения.

Apple‑Car може да изглежда така: Ferrari показва интериора на електрическия автомобил Luce, разработен от Джоним Айв.

Продажбите на Mortal Kombat 1 надвишиха 8 милиона копия, но рекорда за предходната игра все още е недостъпен

Коментари (0)

Влезте, за да коментирате

ИИ‑роботите губят ефективност при дълги разговори с хора – голямото изследване на Microsoft го потвърдиха.

Related news

Тиндер и други услуги ще въведат проверка на реални потребители, съобщава Уорълд Алтман относно разширяването извън криптовалутната сфера.

Microsoft Edge на Android сега възпроизвежда видеа от YouTube във фон, като заобикаля предишните ограничения.

Apple‑Car може да изглежда така: Ferrari показва интериора на електрическия автомобил Luce, разработен от Джоним Айв.

Продажбите на Mortal Kombat 1 надвишиха 8 милиона копия, но рекорда за предходната игра все още е недостъпен

Влезте, за да коментирате

Продажбите на Mortal Kombat 1 надвишиха 8 милиона копия, но рекорда за предходната игра все още е недостъпен