Un metodo di controllo del semaforo basato su multi
CasaCasa > Blog > Un metodo di controllo del semaforo basato su multi

Un metodo di controllo del semaforo basato su multi

Jun 05, 2023

Rapporti scientifici volume 13, numero articolo: 9396 (2023) Citare questo articolo

Dettagli sulle metriche

Gli algoritmi di controllo intelligente del semaforo (ITLC) sono molto efficienti per alleviare la congestione del traffico. Recentemente sono stati proposti molti algoritmi di controllo del semaforo multi-agente decentralizzati. Queste ricerche si concentrano principalmente sul miglioramento del metodo di apprendimento per rinforzo e del metodo di coordinamento. Ma, poiché tutti gli agenti devono comunicare coordinandosi tra loro, anche i dettagli della comunicazione dovrebbero essere migliorati. Per garantire l’efficacia della comunicazione occorre considerare due aspetti. Innanzitutto è necessario progettare un metodo di descrizione delle condizioni del traffico. Utilizzando questo metodo, le condizioni del traffico possono essere descritte in modo semplice e chiaro. In secondo luogo, va considerata la sincronizzazione. Poiché le diverse intersezioni hanno lunghezze di ciclo diverse e l'evento di invio dei messaggi avviene alla fine di ogni ciclo del segnale stradale, ogni agente riceverà i messaggi di altri agenti in momenti diversi. Quindi è difficile per un agente decidere quale messaggio sia l'ultimo e il più prezioso. Oltre ai dettagli sulla comunicazione, dovrebbe essere migliorato anche l’algoritmo di apprendimento per rinforzo utilizzato per la temporizzazione dei segnali stradali. Negli algoritmi ITLC tradizionali basati sull'apprendimento per rinforzo, durante il calcolo del valore della ricompensa vengono presi in considerazione la lunghezza della coda delle auto congestionate o il tempo di attesa di queste auto. Ma entrambi sono molto importanti. Quindi è necessario un nuovo metodo di calcolo della ricompensa. Per risolvere tutti questi problemi, in questo articolo viene proposto un nuovo algoritmo ITLC. Per migliorare l'efficienza della comunicazione, questo algoritmo adotta un nuovo metodo di invio ed elaborazione dei messaggi. Inoltre, per misurare la congestione del traffico in modo più ragionevole, viene proposto e utilizzato un nuovo metodo di calcolo della ricompensa. Questo metodo prende in considerazione sia il tempo di attesa che la lunghezza della coda.

Il controllo intelligente del semaforo (ITLC) è un buon metodo per alleviare la congestione del traffico. Un algoritmo ITLC dovrebbe rilevare le condizioni del traffico all'incrocio e regolare automaticamente la durata del ciclo del semaforo. Poiché l'algoritmo di apprendimento per rinforzo1 funziona molto bene nel controllo automatico2,3, recentemente sono stati proposti molti algoritmi ITLC basati sull'apprendimento per rinforzo. Questi algoritmi possono essere classificati in due categorie, inclusi i metodi tabulari4,5,6 e i metodi di approssimazione7,8,9. Nei metodi di approssimazione, il valore Q di ogni coppia stato-azione dovrebbe essere calcolato mediante un modello specifico. Dato uno stato, se un'azione ottiene il valore Q più alto, verrà selezionata dall'agente ed eseguita nell'ambiente esterno. Generalmente, un controllore del semaforo viene trattato come un agente. Sono responsabili della raccolta degli stati dall'ambiente esterno, del calcolo del valore della ricompensa e della selezione dell'azione. Al giorno d'oggi, vengono proposti molti modelli diversi per soddisfare l'attività di calcolo del valore Q, tra cui il modello basato su reti neurali feed-forward7, il modello lineare10, il modello probabilistico11, il modello basato su reti neurali convoluzionali8, il modello RAIM12, il modello basato su reti convoluzionali di grafici9, il modello FRAP13,14, Modello MetaLight15 ecc. Gli algoritmi di apprendimento per rinforzo che utilizzano modelli di apprendimento profondo16 per calcolare il valore Q sono chiamati algoritmi di apprendimento per rinforzo profondo. Poiché gli algoritmi di apprendimento per rinforzo profondo funzionano molto bene, vengono applicati in molti campi, tra cui il rilevamento del traffico anomalo della rete17,18, le comunicazioni e le reti19 ecc.

Sulla base della descrizione di cui sopra, gli algoritmi di controllo del segnale stradale possono essere classificati in due tipi, che sono algoritmi basati su agente singolo20,21 e algoritmi basati su più agenti22,23,24. Negli algoritmi basati su più agenti, tutti i controllori del semaforo di una griglia di traffico dovrebbero coordinarsi per far fronte alla congestione del traffico. Anche gli algoritmi basati su più agenti possono essere classificati in due tipi, inclusi algoritmi centralizzati25,26,27 e algoritmi decentralizzati28,29,30. Negli algoritmi centralizzati, un esecutore viene sfruttato per apprendere l'azione congiunta di tutti gli agenti. Poiché tutti gli agenti sono controllati da un esecutore centrale, la scalabilità dell'algoritmo centralizzato non è buona come previsto. Gli algoritmi decentralizzati sono l’opzione migliore per risolvere questo problema. Negli algoritmi decentralizzati, ogni controllore del semaforo sarà trattato come un agente indipendente e selezionerà un'azione da solo. Oggigiorno vengono proposti diversi algoritmi decentralizzati. L'algoritmo CGB-MATSC28 è un algoritmo di controllo del segnale stradale basato su cluster. In questo algoritmo, tutti gli agenti verranno raggruppati in cluster diversi e ciascun cluster è controllato da un esecutore. L'algoritmo NAQL29 è un algoritmo decentralizzato che utilizza la logica fuzzy per ottimizzare il modello. L'algoritmo MA2C30 è un algoritmo di controllo del segnale stradale basato su più agenti che si basa sul metodo attore-critico. L'algoritmo Co-DQL31 è proposto sulla base del metodo del doppio Q-learning. In questo algoritmo vengono utilizzati doppi stimatori. L'algoritmo MPLight32 è proposto per controllare mille semafori. Si basa sull'algoritmo di apprendimento per rinforzo e sulle teorie dei trasporti. L'algoritmo EMVLight33 può eseguire simultaneamente il routing dinamico e il controllo del semaforo. L'algoritmo MARDDPG34 è proposto sulla base di un algoritmo di gradiente politico profondamente deterministico. L'algoritmo ATSC35 è un algoritmo di controllo del segnale adattivo decentralizzato a livello di rete e in questo algoritmo viene utilizzato un apprendimento di rinforzo profondo. Dalla descrizione di cui sopra, possiamo scoprire che tutti questi algoritmi si concentrano principalmente sul miglioramento dell'effetto del modello e del metodo di coordinamento. Ma i dettagli della comunicazione vengono trascurati. Poiché, quando gli agenti cercano di coordinarsi tra loro, avviene la comunicazione tra loro, dovrebbe essere proposto un metodo di comunicazione per garantire l'efficienza del coordinamento. In primo luogo, è necessario un metodo efficace per la descrizione delle condizioni del traffico. Utilizzando questo metodo, le condizioni del traffico di un incrocio possono essere descritte da un messaggio in modo semplice e chiaro. Questo messaggio verrà inviato ad altri agenti. In secondo luogo, la sincronizzazione degli algoritmi decentralizzati dovrebbe essere ulteriormente migliorata. Ogni controllore del semaforo deve inviare un messaggio agli altri alla fine di ogni ciclo. Ma, poiché la durata del ciclo dei diversi semafori è diversa, non è facile per un agente decidere quale messaggio sia l'ultimo e il più prezioso. Per risolvere questi problemi viene proposto un nuovo metodo di invio ed elaborazione dei messaggi. In questo metodo, le condizioni del traffico possono essere descritte da un messaggio in modo semplice e chiaro. E, allo stesso tempo, con il metodo proposto viene utilizzata una struttura dati per registrare i messaggi più recenti e più preziosi per un'ulteriore elaborazione. Oltre ai dettagli della comunicazione, dovrebbe essere migliorato anche l’algoritmo di apprendimento per rinforzo utilizzato per il controllo del semaforo. Negli algoritmi tradizionali, nel calcolo del valore della ricompensa vengono presi in considerazione la lunghezza della coda o il tempo di attesa dei veicoli congestionati. Ma entrambi questi due fattori sono importanti per giudicare la congestione del traffico. Pertanto in questo documento viene proposto un nuovo metodo di calcolo del valore della ricompensa che prende in considerazione questi due fattori. Di conseguenza, il contributo di questo documento è il seguente: