Claude Opus 4.8: Вештачката интелигенција која управува со стотици агенти истовремено

Anthropic вчера официјално ја објави Claude Opus 4.8, најновата верзија на нејзиниот најмоќен јавно достапен јазичен модел. Издавањето дојде само 41 ден по Opus 4.7, темпо кое е невообичаено брзо за компанијата и веројатно е поттикнато, барем делумно, од ладниот прием што го доживеа претходниот модел кај дел од корисниците.

Opus 4.8 е достапен веднаш на сите платформи, по иста цена од 5 долари за милион влезни токени и 25 долари за милион излезни токени. Брзиот режим, кој работи 2,5 пати побрзо, е сега три пати поевтин отколку кај претходниот модел.

Dynamic Workflows: Стотици агенти во еден потег

Централна новост во ова издание е алатката Dynamic Workflows, достапна засега во истражувачки преглед за Enterprise, Team и Max планови. Системот овозможува Claude Code да планира комплексни задачи, а потоа да активира стотици паралелни суб-агенти во рамките на една сесија. По завршувањето, моделот ги верифицира резултатите пред да го информира корисникот.

Практично, ова значи дека Claude Code со Opus 4.8 може да изврши миграција на цела кодна база со стотици илјади редови код, од почеток до спојување (merge), користејќи ги постоечките тестови како мерило за успешност. Ова претставува квалитативен скок во однос на она што ВИ алатките за програмери можеа да го прават досега.

Michael Truell, ко-основач и извршен директор на Cursor, потврди: „На нашиот CursorBench, Claude Opus 4.8 ги надминува претходните Opus модели на секое ниво на напор. Повикувањето алатки е значително поефикасно, со помалку чекори за исто ниво на интелигенција, и ги завршува задачите од почеток до крај.

Поголема доверливост и помалку несигурни тврдења

Едно од истакнатите подобрувања во Opus 4.8 е зголемената интегритетност во работата. Anthropic соопштува дека раните тестери утврдиле поголема веројатност Opus 4.8 да ги означи несигурностите во своето работење и помалку веројатно дека ќе прави неподдржани тврдења. Внатрешните евалуации покажале дека новиот модел е приближно четири пати помалку склон да остави грешки во напишан код непријавени.

Извор: Anthropic

Michael Ran, виш инвестициски соработник во Bridgewater Associates, истакна: „Најголемата разлика беше тенденцијата на Opus 4.8 проактивно да ги означи проблемите со влезните и излезните податоци на анализата, нешто што другите модели редовно го пропуштаа и го оставаа на корисниците да го фатат.”

Ова е особено важно за претпријатија кои интегрираат ВИ во критични работни процеси, каде погрешно самодоверливите резултати можат да предизвикаат реални штети.

Правни и финансиски примени: Нови рекорди

Opus 4.8 остварил мерливи напредоци во специјализирани индустриски примени. Niko Grupen, раководител на применето истражување во EvenUp, изјави дека Claude Opus 4.8 го постигнал највисокиот резултат некогаш забележан на нивниот Legal Agent Benchmark и е прв модел кој го пробил прагот од 10% на all-pass стандардот. За суштинска правна работа, тоа е вид на подобрување на точноста кое директно се преведува во тоа колку реална адвокатска работа нивните клиенти можат да ја доверат на системот.

Паралелно со тоа, Kay Zhu, ко-основач и технички директор на AgentGo, потврди дека на нивниот Super-Agent бенчмарк, Claude Opus 4.8 е единствениот модел кој ги завршил сите случаи целосно, надминувајќи ги претходните Opus модели и GPT-5.5 при иста цена.

Контрола на напор и API подобрувања

Покрај Dynamic Workflows, Anthropic воведува уште неколку практични промени. Корисниците на claude.ai добиваат нов контролер за количина на напор кој Claude го вложува во одговорот. На повисоки нивоа, моделот мисли подлабоко и почесто; на пониски нивоа, одговара побрзо и го троши помалку од корисничкиот лимит.

Развивачите, пак, добиваат важно ажурирање во Messages API: системски инструкции сега може да се вметнуваат директно во низата пораки, без прекинување на кешот на промптот. Ова овозможува ажурирање на дозволите, токен буџетите или контекстот на средината во живо, додека агентот работи.

Притисокот на конкуренцијата и брзото издавање

Брзото темпо на издавање веројатно е поврзано и со конкурентниот притисок: во истиот период беа објавени значајни нови верзии на OpenAI Codex и Google Gemini Flash модел. Anthropic очигледно сака да остане во чекор со трката.

Сепак, компанијата сè уште го задржува своj најмоќен модел. Mythos Preview, дел од Project Glasswing, тековно им е достапен само на мал број организации за работа со сајбербезбедност, бидејќи таквите способности бараат посилни сајбер заштити пред да бидат достапни за широката јавност. Anthropic соопштува дека брзо напредуваат во развојот на тие заштити и очекуваат во наредните недели да ги донесат Mythos-класичните модели до сите нивни корисници.

Достапност и цени

Claude Opus 4.8 е достапен веднаш преку API со идентификаторот claude-opus-4-8, на claude.ai и на сите поддржани платформи. Цените остануваат непроменети во однос на Opus 4.7. Dynamic Workflows е достапен во истражувачки преглед за Enterprise, Team и Max планови.

За повеќе технички детали, Anthropic објави и целосна системска карта со проширен сет на евалуации и безбедносни тестови.


Оваа содржина е генерирана со помош на вештачка интелигенција, но е внимателно проверена, уредена и дополнета од уредничкиот тим на IT.mk, со цел да обезбедиме точни, релевантни и квалитетни информации за читателите.

Стани премиум член и доби пристап до сите содржини, специјален попуст на над 2.200 производи во ИТ маркет, верификуван профил и можност за огласување на ИТ Огласник. Плус ќе го поддржиш медиумот кој го градиме цели 16 години!

basic

членство

42 ден./мес

зачлени се

1337

членство

125 ден./мес

зачлени се
* плаќањето е на годишно ниво

Доколку веќе имаш премиум членство, најави се тука.

Добивај известувања
Извести ме за
guest
0 Коментари
Најнови
Најстари Со највеќе гласови
Inline Feedbacks
View all comments
види ги сите огласи на kariera.it.mk