questo pezzo presenta pico, un codec di immagini basato su apprendimento automatico sviluppato da apple. grazie a una progettazione orientata alla percezione visiva, pico mira a ridurre i dati necessari mantenendo una qualità visiva elevata. l’analisi sintetica evidenzia principi di funzionamento, prestazioni sui dispositivi mobili e valutazioni di usabilità rispetto ai codec tradizionali.
pico: cos’è e come funziona
pico rappresenta un perceptual image codec che utilizza reti neurali per comprimere e ricostruire immagini. il processo di addestramento integra una percezione della qualità, una perdita di tipo GAN e funzioni specifiche per mitigare sfocature in piccoli caratteri e artefatti tipo blocchi cromatici. tali scelte mirano a preservare dettagli come fili di capelli e tessuti, rendendo la compressione più naturale agli occhi umani.
rispetto ai codec tradizionali (jpeg, png, heic), pico adotta una soluzione apprendimento-centrica che, a parità di qualità, richiede 2.3-3 volte in meno dati.
prestazioni e tempi di codifica
su iphone 17 pro max, pico è in grado di codificare una immagine da 12 megapixel in circa 230 ms e di decodificarla in circa 150 ms. la velocità si posiziona tra le più alte tra i codificatori ML operanti su gpu v100, riducendo notevolmente i tempi rispetto a soluzioni diverse.
l’implementazione prevede anche una cross-device compatibility, progettata per garantire una ricodifica corretta tra dispositivi e versioni diverse, con una parte di calcolo realizzata in forma deterministica per minimizzare le differenze tra esecuzioni float.
valutazione soggettiva della qualità visiva
per l’analisi qualitativa sono stati impiegati i set di dati clic 2020, kodak e div2k, coinvolgendo 610 valutatori chiamati a effettuare confronti tra immagini originale e ricostruite. sono state raccolte 74.925 risposte, con i punteggi espressi attraverso una scala Bayesian Elo per fornire una graduatoria oggettiva della percezione visiva tra i vari codificatori.
limiti e considerazioni finali
l’approccio pico offre una migliore qualità visiva per immagini naturali a bitrate ridotti, ma può richiedere bitrate superiori per contenuti altamente sintetici o anime al fine di raggiungere lo stesso livello di dettaglio rispetto ai codec tradizionali. la ricerca ha esplorato milioni di configurazioni di reti neurali per bilanciare compressione, qualità visiva e performanza pratica, con l’obiettivo di massimizzare l’utilità reale dell’algoritmo.
fonti primarie: apple machine learning research sul tema della compressione immagine e apprendimento automatico.













Lascia un commento