L’intelligenza artificiale (IA) è un campo in rapida evoluzione che trasforma radicalmente i modi in cui viviamo, lavoriamo e interagiamo con la tecnologia. Da assistenti virtuali a sistemi di raccomandazione, l’IA, oggi soprattutto GenIA (intelligenza artificiale generativa) permea molti aspetti della vita quotidiana.
Al cuore di questa rivoluzione tecnologica abbiamo visto differenti tecnologie, modelli e sistemi che ne permettono un corretto funzionamento. Tra gli elementi che hanno consentito gli sviluppi attuali vi sono soprattutto le reti neurali, modelli computazionali ispirati al cervello umano che apprendono da vasti set di dati. Proprio grazie a un nuovo approccio computazionale, si sta sviluppando un sistema che permette risultati inattesi e sorprendenti rispetto anche ai già incredibili passaggi raggiunti fino a oggi: si tratta dell’introduzione dei network Kolmogorov-Arnold Networks (da ora KANs). Questi modelli avanzati non solo migliorano la precisione delle previsioni dell’IA ma potrebbero anche rivoluzionare il modo in cui le macchine interagiscono con gli umani attraverso il prompt engineering.
E potrebbero, per esempio nel giornalismo, offrire nuove possibilità: dall’analizzare le preferenze e i comportamenti di lettura degli utenti per personalizzare i feed di notizie e gli articoli suggeriti, allo sviluppare strumenti avanzati di fact-checking per verificare rapidamente la veridicità delle informazioni prima della pubblicazione.
In ambito educativo invece si possono trovare soluzioni come il tutoraggio personalizzato, perché i KANs possono essere impiegati per creare sistemi che si adattano dinamicamente al livello e allo stile di apprendimento di ciascun studente, o per lo sviluppo di contenuti educativi, creando materiali che si adattano in tempo reale alle risposte e alle interazioni degli studenti.
Dalle Reti Neurali ai Multi-Layer Perceptrons
Per comprendere il salto innovativo rappresentato dai KANs (Liu, Z., Wang, Y., Vaidya, S., Ruehle, F., Halverson, J., Soljačić, M., Hou, T. Y., & Tegmark, M., 2024), è utile partire dalle basi delle reti neurali. Questi modelli sono formati da “neuroni” artificiali organizzati in strati che ricevono input, elaborano informazioni attraverso funzioni matematiche e trasmettono output agli strati successivi. Questi processi si regolano attraverso l’aggiustamento delle “pesature”, i valori numerici che influenzano quanto l’output di un neurone incide sugli altri. I Multi-Layer Perceptrons (da ora MLPs), una delle forme più comuni di reti neurali, sono stati fondamentali per l’adozione iniziale dell’IA e si basano sul teorema dell’approssimazione universale, che garantisce la loro capacità di rappresentare una vasta gamma di funzioni.
Nonostante la loro versatilità, gli MLPs hanno delle limitazioni significative. Semplificando potremmo dire che possono agire come “scatole nere” (Finn, 2018) dove i processi interni sono poco trasparenti e difficili da interpretare. Inoltre, richiedono grandi quantità di dati per l’apprendimento e faticano a gestire dati con strutture complesse o in ambienti dinamici. La loro architettura, basata su pesi fissi e funzioni di attivazione predefinite, può limitare la loro adattabilità ed efficienza.
Architettura e Innovazioni dei Kolmogorov-Arnold Networks (KANs)
I KANs rappresentano una risposta a queste sfide. Ispirati dal teorema della rappresentazione di Kolmogorov-Arnold, questi modelli innovano l’architettura delle reti neurali sostituendo i pesi fissi con funzioni di attivazione apprendibili su ogni connessione. Ciò consente a ogni “peso” nei KANs di adattarsi e ottimizzare la propria funzione in base ai dati e agli obiettivi specifici del modello, riducendo il numero complessivo di parametri necessari e aumentando la flessibilità e l’efficacia del sistema.
Con l’avvento dei KANs, anche il prompt engineering design può evolvere significativamente. Grazie alla loro capacità di modulare dinamicamente le funzioni di attivazione in risposta agli input, i KANs possono offrire un’interpretazione e una risposta ai prompt molto più sofisticata e personalizzata. Questo non solo migliora l’interazione tra l’utente e la macchina ma apre anche nuove possibilità in termini di personalizzazione e adattabilità delle interfacce di IA.
La nascita dei KANs muove dal teorema di rappresentazione di Kolmogorov-Arnold, che propone una metodologia per esprimere funzioni complesse multivariate come composizioni di funzioni di una sola variabile (Arnold, V. I., 2009). Il teorema citato fornisce la base per una nuova architettura di rete che utilizza funzioni di attivazione apprendibili su ogni connessione tra i neuroni, invece di pesi statici. Questo approccio permette ai KAN di adattarsi dinamicamente e in modo più efficiente alle specificità dei dati trattati.
Contrariamente agli MLPs, che utilizzano pesi lineari fissi e funzioni di attivazione predeterminate su ogni nodo, i KANs aboliscono i pesi lineari tradizionali a favore di funzioni parametrizzabili definite sui collegamenti tra i nodi. In pratica, ogni connessione in un KAN non è semplicemente un canale di segnale ponderato, ma un’entità computazionale capace di apprendere e trasformare i dati in ingresso attraverso una funzione specifica, che può essere ottimizzata individualmente durante il training (Liu, Z., et al., 2021).
Questa struttura permette ai KANs di modellare relazioni complesse con un numero inferiore di parametri rispetto agli MLPs, risultando in una rete più snella ed efficiente. Ogni funzione di attivazione nei KANs può essere adattata per ottimizzare le prestazioni del modello su specifici tipi di dati o compiti, offrendo un livello di flessibilità e adattabilità precedentemente irraggiungibile.
In pratica è come se ogni connessione all’interno della rete non sia solo un semplice passaggio di informazioni, ma un vero e proprio mini-cervello che può imparare e adattarsi specificamente ai dati che riceve.
Vantaggi e applicazioni
L’eliminazione dei pesi lineari traduce i KANs in modelli potenzialmente più scalabili e performanti. Questi sistemi sono capaci di adattarsi e reagire in tempo reale a nuovi pattern nei dati senza la necessità di ricalibrare intere matrici di pesi, un processo spesso oneroso e computazionalmente intensivo negli MLPs (Goodfellow, I., Bengio, Y., & Courville, A., 2016). Inoltre, i KANs offrono una maggiore interpretabilità rispetto agli MLP tradizionali, poiché è possibile isolare e analizzare le funzioni di attivazione specifiche che modulano le risposte del modello a determinati input.
Di fatto, superano diverse limitazioni fondamentali degli MLPs, offrendo miglioramenti in termini di precisione, efficienza computazionale e interpretazione dei modelli. Tradizionalmente, gli MLPs richiedono un numero elevato di parametri e grande potenza computazionale per gestire reti profonde e complesse, il che può portare a problemi di overfitting (vedi più avanti) e difficoltà nella convergenza del modello. I KANs, grazie alla loro capacità di adattare dinamicamente le funzioni di attivazione, necessitano di meno parametri per raggiungere o superare la stessa capacità di apprendimento degli MLPs, risultando in una maggiore efficienza e in una riduzione dei costi computazionali (Goodfellow et al., 2016).
Inoltre, uno dei vantaggi più significativi risiede nella loro interpretabilità. A differenza degli MLPs, dove la comprensione delle decisioni del modello può essere ostacolata dalla complessità delle interazioni tra i neuroni, i KANs offrono una visione più chiara del processo decisionale grazie alla modulazione individuale delle funzioni di attivazione. Questa caratteristica è particolarmente preziosa in campi come la medicina personalizzata e la bioinformatica, dove comprendere il “perché” dietro una previsione può essere tanto importante quanto la previsione stessa (Holzinger et al., 2019).
Le potenzialità applicative dei KANs diventano quindi vastissime, spaziando dalla visione artificiale al data processing del linguaggio naturale. Grazie alla loro capacità di adattarsi in modo efficiente a complessi pattern di dati, possono trovare impiego in settori dove i modelli tradizionali faticano, come l’interpretazione di dati medici complessi o la modellazione di sistemi dinamici non lineari.
Così anche in fisica e chimica, per esempio, possono essere utilizzati per simulare e prevedere le proprietà dei materiali a livello atomico, un compito che richiede un’accurata rappresentazione delle interazioni molecolari e che può beneficiare enormemente dalla flessibilità delle funzioni di attivazione dei KANs stessi (Schmidt et al., 2019).
In ambito finanziario possono essere impiegati per migliorare i modelli di rischio e le previsioni di mercato. La loro capacità di adattarsi rapidamente a nuovi dati li rende particolarmente adatti per l’analisi di mercati volatili, dove possono contribuire a identificare pattern sottili e dinamici che modelli meno flessibili potrebbero non catturare.
In altri segmenti professionali come per esempio il giornalismo, possono ulteriormente offrire nuove possibilità: dall’analizzare le preferenze e i comportamenti di lettura degli utenti per personalizzare i feed di notizie e gli articoli suggeriti, allo sviluppare strumenti avanzati di fact-checking per verificare rapidamente la veridicità delle informazioni prima della pubblicazione.
In ambito educativo invece si possono trovare soluzioni come il tutoraggio personalizzato, dove i KANs possono essere impiegati per creare sistemi di che si adattano dinamicamente al livello e allo stile di apprendimento di ciascun studente, o per lo sviluppo di contenuti educativi, creando materiali che si adattano in tempo reale alle risposte e alle interazioni degli studenti.
Prompt Engineering e Interazione Umano-IA con i KAN
I KANs non solo migliorano le prestazioni e l’efficienza dei modelli di intelligenza artificiale, ma offrono anche nuove possibilità per affinare l’interazione tra umani e macchine. Attraverso modulazioni specifiche di prompting possono essere programmati e guidati per eseguire compiti specifici in modi più intuitivi e collaborativi. Per esempio, possono modificare le loro funzioni di attivazione in risposta ai prompt, permettendo una personalizzazione quasi immediata delle loro operazioni di elaborazione in base alle necessità specifiche dell’utente; grazie alla capacità di adattarsi e imparare da prompt complessi, possono generare risposte più accurate e pertinenti, riducendo il rischio di errori o di informazioni fuorvianti; facilitano inoltre una forma di interazione più naturale e intuitiva con gli utenti, apprendendo dalle interazioni passate per affinare le loro risposte future, il che è particolarmente vantaggioso in applicazioni come assistenti virtuali e supporto clienti automatizzato.
Seppur alcune di queste modalità sembrino già efficaci e funzionali negli attuali modelli, vale la pena sottolineare quali sono i punti che staccano i KANs dai predecessori, come brevemente già anticipato:
- Adattabilità delle funzioni di attivazione: a differenza dei modelli tradizionali come gli MLPs, i KANs utilizzano funzioni di attivazione apprendibili e adattabili su ogni connessione tra i neuroni. Questo significa che possono modificare il modo in cui processano l’input basandosi sull’input stesso e sul feedback ricevuto, permettendo una personalizzazione molto più fine. In pratica, i KAN possono “imparare a comunicare” in modi che sono più naturali ed efficaci per l’utente specifico, adattando le loro risposte in base alle preferenze e ai comportamenti osservati.
- Miglioramento della comprensione del contesto: grazie alla loro capacità di ottimizzare individualmente le funzioni di attivazione, possono sviluppare una migliore comprensione del contesto di una conversazione o di una richiesta. Questo permette loro di fornire risposte che sono non solo tecnicamente corrette ma anche contestualmente appropriate, migliorando l’esperienza dell’utente in maniera significativa.
- Risposte dinamiche e personalizzate: I KANs sono in grado di apprendere continuamente dalle interazioni, il che significa che possono affinare le loro risposte nel tempo. Questo apprendimento continuo consente agli assistenti virtuali basati su KANs di diventare più efficaci nel prevedere e soddisfare le esigenze degli utenti, offrendo un servizio che migliora con ogni interazione.
- Riduzione dell’overfitting e maggiore generalizzazione: grazie alla capacità dei KANs di operare efficacemente con un numero inferiore di parametri rispetto agli MLPs, essi tendono a generalizzare meglio e sono meno soggetti a overfitting (problema che si verifica quando un modello di apprendimento automatico si adatta troppo bene ai dati di addestramento a scapito della sua capacità di generalizzare a nuovi dati: in altre parole, il modello impara le caratteristiche specifiche del set di dati di addestramento, inclusi il rumore e le anomalie, tanto che la sua efficienza si riduce quando è esposto a dati non visti durante l’addestramento). Questo significa che sono più capaci di adattarsi a nuovi utenti o scenari non incontrati durante il training, mantenendo un alto livello di performance.
- Efficienza computazionale: essendo in grado di gestire complessi calcoli con meno parametri e più efficacia, possono operare più rapidamente e con minor consumo di risorse. Questo li rende ideali per applicazioni in tempo reale come l’assistenza clienti, dove risposte rapide e accurate sono essenziali.
Nonostante i numerosi vantaggi, l’integrazione del prompt engineering nei KANs presenta anche delle sfide. La necessità di dati di addestramento di alta qualità e la complessità nella progettazione di prompt efficaci richiedono competenze avanzate in data science e comprensione del dominio specifico. Inoltre, la gestione etica e la trasparenza delle decisioni prese dai KANs basate su prompt rimangono questioni cruciali, specialmente in campi ad alta specialità come la medicina e il diritto.
Offrendo una flessibilità senza precedenti e la capacità di adattarsi dinamicamente ai requisiti degli utenti, i KANs possono diventare un importante standard per l’efficacia e l’accessibilità delle tecnologie basate sull’intelligenza artificiale. Mentre procediamo, sarà fondamentale affrontare le sfide tecniche ed etiche per realizzare pienamente il potenziale di queste interazioni avanzate umano-macchina, ma recependo ancora una volta anche ciò che sembra dare un segnale di positività rispetto al ruolo dei professionisti: non si tratta di sostituire personale umano, ma di formare nuove figure ed esperti per sostenere e controllare processi che possono far evolvere il nostro sistema sociale e lavorativo.
Riferimenti Bibliografici:
- Arnold, V. I. (2009). Mathematical Methods of Classical Mechanics (2nd ed.). Springer-Verlag.
- Kolmogorov, A. N. (1957). On the representation of continuous functions of many variables by superposition of continuous functions of one variable and addition. Doklady Akademii Nauk SSSR, 114, 953-956.
- Finn, E. (2018). Cosa vogliono gli algoritmi, Einaudi, Torino.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. Disponibile su: http://www.deeplearningbook.org
- Kairouz, P., et al. (2019). Advances and Open Problems in Federated Learning. Foundations and Trends in Machine Learning, 14(1–2), 1–210. https://doi.org/10.1561/2200000083
- Holzinger, A., et al. (2019). Explainable AI: The New 42? Lecture Notes in Computer Science, 11713, 295-303. https://doi.org/10.1007/978-3-030-29726-8_2
- Liu, Z., et al. (2021). Toward Understanding the Dynamics of Generative Adversarial Networks. IEEE Transactions on Neural Networks and Learning Systems, 32(7), 2820-2831. https://doi.org/10.1109/TNNLS.2020.3015994
- Liu, Z., Wang, Y., Vaidya, S., Ruehle, F., Halverson, J., Soljačić, M., Hou, T. Y., & Tegmark, M. (2024). KAN: Kolmogorov-Arnold Networks. arXiv preprint arXiv:2404.19756.
- Mehrabi, N., et al. (2021). Survey on Bias and Fairness in Machine Learning. ACM Computing Surveys, 54(6), Article 115. https://doi.org/10.1145/3457607