Microsoft го претстави ASSERT, нов open-source систем за понапредно тестирање на однесувањето на AI модели

Microsoft претстави нов open-source рамковен систем наречен ASSERT, со цел да го поедностави тестирањето и евалуацијата на однесувањето на AI системите во реални, апликативни услови. Новата алатка доаѓа во момент кога индустријата сè повеќе се соочува со предизвикот не само да ги мери генералните способности на моделите, туку и нивната усогласеност со конкретни правила, цели и деловни контексти.

ASSERT, што е кратенка од Adaptive Spec-driven Scoring for Evaluation and Regression Testing, користи пристап во кој описите на посакуваното однесување на AI системите, напишани на природен јазик, автоматски се претвораат во структурирани тест сценарија. На тој начин, системот може да генерира и процени ситуации во кои се проверува дали моделот се однесува во согласност со дефинираните правила, политики и ограничувања.

Рамката работи така што најпрво ги интерпретира општите упатства за однесување, ги претвора во збир на дозволени и недозволени активности, а потоа креира тест случаи кои се извршуваат врз целниот AI систем. Дополнително, ASSERT овозможува следење на целиот процес на одлучување на моделот, вклучувајќи ги и меѓучекорите и користењето на алатки, што им дава на развивачите можност прецизно да утврдат каде настануваат грешки или отстапувања.

Развивачите можат да додадат и дополнителен контекст, како системски правила, достапни алатки или специфични ограничувања, со цел тестирањето да биде уште поприлагодено на реалната употреба на системот. Пример за ваков пристап е сценарио во кое AI агент за анализа на документи не смее да испраќа е-пошта надвор од компанијата и мора строго да ги ограничува доверливите информации на одредено ниво на менаџмент. ASSERT автоматски создава тестови кои проверуваат дали таквите правила се почитуваат во различни ситуации.

Од Microsoft појаснуваат дека алатката е дизајнирана да го пополни јазот што постои кај општите евалуации, кои често не се доволни кога системите се користат во специфични деловни или производни контексти. Според компанијата, вистинската доверливост на AI системите бара многу поширок спектар на тестирања, прилагодени на реалните сценарија во кои тие функционираат.

Сара Бирд, главен директор за одговорна вештачка интелигенција во Microsoft, истакна дека евалуацијата е клучна за разбирање на однесувањето на AI системите и за проценка дали тие ги исполнуваат организациските стандарди. Таа нагласи дека доверливите системи бараат мерење на повеќе различни, апликациски специфични аспекти, а не само општи перформанси.

ASSERT може да се користи во сите фази од развојот на AI системите, вклучувајќи ја изградбата, пост-лаунч евалуацијата и континуираното следење во продукциска средина.

Овој потег на Microsoft се вклопува во поширокиот тренд во индустријата, каде што како што AI моделите стануваат сè пософистицирани, фокусот се префрла кон систематско тестирање и регресиона анализа. Истражувачки иницијативи како Stanford HELM, MLCommons AILuminate и други независни евалуациски рамки веќе работат на развој на стандарди за мерење на однесувањето на моделите во различни услови, а ASSERT се позиционира како алатка што го проширува овој пристап кон реални, апликативни системи.

Microsoft го претстави ASSERT, нов open-source систем за понапредно тестирање на однесувањето на AI модели

By24поглед

By 24поглед

Related Post

Meta го претвора WhatsApp во бизнис платформа со нов AI агент за корисничка поддршка и продажба

Meta тестира „Series“ за Reels со цел да го олесни следењето на сериски видеосодржини на Instagram и Facebook

X воведува „React with Video“ за да го трансформира начинот на кој корисниците коментираат на објави