Samsung, pur non essendo un’azienda esclusivamente focalizzata sull’intelligenza artificiale come altre realtà del settore, sta implementando strategie a lungo termine per integrare l’AI nella maggior parte dei suoi prodotti. Un esempio significativo di questa direzione è rappresentato dalle funzionalità della Galaxy AI suite, presente in smartphone e tablet dell’azienda. In questo contesto, Samsung Research ha sviluppato un nuovo benchmark proprietario per la valutazione della produttività dell’intelligenza artificiale, denominato TRUEBench.
truebench: il benchmark di samsung per le prestazioni reali dell’AI
Il TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) è stato creato da Samsung per affrontare le limitazioni riscontrate nei benchmark attualmente disponibili. L’azienda evidenzia come gli strumenti esistenti siano troppo concentrati sulla lingua inglese e spesso si basino su strutture semplici di domande e risposte. Questo approccio limita la capacità di riflettere accuratamente l’utilizzo dell’AI in contesti lavorativi reali.
Per superare queste sfide, il TRUEBench fornisce una valutazione più completa e realistica delle prestazioni dei modelli linguistici in ambienti professionali. Il benchmark analizza le prestazioni dell’intelligenza artificiale su dieci compiti aziendali comunemente utilizzati, tra cui:
- Generazione di contenuti
- Analisi dei dati
- Riassunto
- Traduzione
Queste attività fanno parte di una vasta raccolta di 2.485 set di test suddivisi in dieci categorie e 46 sottocategorie, comprendendo scenari dialogici diversificati in dodici lingue.
sistema di valutazione che coinvolge anche umani
Per garantire punteggi affidabili e precisi, il TRUEBench adotta un sistema di valutazione collaborativa che prevede il coinvolgimento sia umano che dell’intelligenza artificiale. Inizialmente, annotatori umani stabiliscono i criteri di valutazione. Successivamente, un’AI verifica questi criteri alla ricerca di errori o contraddizioni. Gli annotatori umani affinano quindi i criteri sulla base del feedback ricevuto dall’AI, ripetendo il processo fino a ottenere uno standard sempre più preciso per la valutazione.
I campioni dati del TRUEBench e le classifiche sono stati resi disponibili sulla piattaforma open-source Hugging Face. Questa piattaforma consente a sviluppatori e ricercatori di confrontare le prestazioni ed efficienza fino a cinque modelli AI contemporaneamente. Inoltre, Samsung pubblicherà informazioni sulla lunghezza media delle risposte generate dai modelli per facilitare confronti immediati riguardo a prestazioni ed efficienza.
L’obiettivo principale del TRUEBench è quello di stabilire nuovi standard per la produttività e rafforzare la posizione tecnologica dell’azienda nel settore. Questo strumento promette metriche AI più realistiche e affidabili.
Lascia un commento