據(jù)外媒報道,麻省理工學院(MIT)的研究人員在一項新研究中展示了一種機器學習方法。該方法可以學習控制自動駕駛車隊,使車隊在接近并通過帶有信號燈的十字路口時,能夠順暢行駛。
通過仿真,研究人員發(fā)現(xiàn)他們的機器學習方法可以減少燃料消耗和排放,同時提高平均車速。如果道路上的所有汽車都是自動駕駛的,該技術可實現(xiàn)最佳效果。但即使只有25%的汽車是自動駕駛汽車,通過使用該全新控制算法仍然會帶來可觀的燃料和排放效益。
十字路口錯綜復雜
雖然人類可能會不經(jīng)思考就通過十字路口的綠燈,但根據(jù)車道的數(shù)量、信號的運行方式、車輛的數(shù)量及其速度、行人和騎自行車的人的存在等,十字路口可能會出現(xiàn)數(shù)十億種不同的場景。
解決十字路口控制問題的典型方法是使用數(shù)學模型來解決一個簡單、理想的十字路口。但該方法在現(xiàn)實世界中可能不會成立,因為交通模式通常非?;靵y。
資深作者、土木與環(huán)境工程系Gilbert W. Winslow職業(yè)發(fā)展助理教授Cathy Wu和 研究主要作者、電氣工程與計算機科學系的研究生Vindula Jayawardan使用一種深度強化學習(deep reinforcement learning)的無模型技術解決了這個問題。強化學習是一種試錯法,可使控制算法學習做出一系列決策。當找到一個好的序列時,算法就會得到獎勵。通過深度強化學習,該算法利用神經(jīng)網(wǎng)絡學習的假設可找到良好序列的捷徑,即使存在數(shù)十億種可能性。
Wu解釋說該技術對于解決長期問題很有用,如控制算法必須在很長一段時間內(nèi)向車輛發(fā)出超過500條加速指令。此外,研究人員希望該系統(tǒng)能夠學習一種減少燃料消耗并限制對旅行時間影響的策略。這些目標可能是相互矛盾的。
雖然要全面解決這個問題具有挑戰(zhàn)性,但研究人員采用了一種稱為獎勵塑造(reward shaping)的技術,可為系統(tǒng)提供了一些無法自行學習的領域知識。在這種情況下,只要車輛完全停止,研究人員就會對系統(tǒng)進行懲罰,因此系統(tǒng)會學會避免這種行為。
流量測試
一旦研究人員開發(fā)出有效的控制算法,就會使用具有單個十字路口的交通模擬平臺對其進行評估。該控制算法應用于互聯(lián)的自動駕駛車輛車隊,其中這些車輛可以與即將到來的交通信號燈進行通信,以接收信號相位和時間信息并觀察其周圍環(huán)境。該控制算法會告訴每輛車如何加速和減速。
當車輛接近十字路口時,研究開發(fā)的系統(tǒng)沒有造成任何走走停停的交通行為。(當汽車由于前方交通停止而被迫完全停止時,就會發(fā)生走走停停的交通行為)。在仿真中,更多的汽車在綠燈期間通過,優(yōu)于模擬人類駕駛員的模型。與其他同類優(yōu)化方法相比,該全新技術會減少更多燃料消耗和排放。如果路上的每輛車都是自動駕駛汽車,新的控制系統(tǒng)可以減少18%的油耗和25%的二氧化碳排放,同時將行駛速度提高20%。
未來,研究人員希望研究多個十字路口之間的相互作用效應。他們還計劃探索不同的交叉路口設置(車道數(shù)量、信號、時間等)是如何影響行程時間、排放和燃料消耗的。此外,研究人員計劃研究當自動駕駛汽車和人類司機共享道路時,其控制系統(tǒng)如何影響安全性。例如,盡管自動駕駛汽車的駕駛方式可能與人類駕駛員不同,但較慢的道路和速度更穩(wěn)定的道路可以提高安全性。
雖然這項工作仍處于早期階段,但Wu認為該方法可以在短期內(nèi)實現(xiàn)應用。
(轉載)