Nature封面罕見給了自動駕駛!仿真效率2000倍提升,清華自動化校友出品 視焦點訊
賈浩楠 發自 副駕寺智能車參考 | 公眾號 AI4Auto
Nature正刊封面報道自動駕駛重要進展。
(相關資料圖)
證明自動駕駛算法的安全可靠,專業估算仿真里程甚至要超過千億公英里。
那么,有沒有在保證可靠性的前提下,大幅降低模擬路測時間和成本的方法呢?
最新自動駕駛仿真測試方法,可以將模型迭代效率提升2000倍!
這項研究背后的團隊,來自密歇根大學的劉向宏教授的實驗室,主要作者清一色華人團隊,出自清華大學自控系。
自動駕駛仿真提效2000倍
如今很多無人車公司都青睞仿真測試提升系統可靠性。甚至有的創業公司直接打出“仿真為主,路試為輔”的旗號。
他們的理由是:仿真測試效率更高。但沒說的潛臺詞其實是:仿真測試不依賴車隊,成本低。
因為模擬測試150億英里的Waymo,至今搞不定可商用落地的無人駕駛。仿真的效率問題是尚未實現飛躍的巨大挑戰,用仿真是因為省錢,至于什么時候能拿出結果,誰也說不好。
基于此,這項最新研究提出的觀點是:
而他們基于密集強化學習的深度學習網絡D2RL,可以將目前基于NDE(自然駕駛環境)的仿真模擬效率提升2000倍。
具體來說,在雙車道400m場景中,D2RL生成的場景直接跳過(刪除)傳統仿真過程中95.7%的事件和99.78%步驟,最大可能給出系統高價值訓練場景。
這樣一來,算法碰撞率達成同樣的收斂標準下,NDE環境需要訓練1.9X108次,D2RL需要9.1X104次,效率提升2100倍。
而在3車道、更長距離的實驗中,得出的效率提升效果基本都在2000倍左右。
另外,研究人員將一套開源自動駕駛算法Autoware23搭載在林肯MKZ上進行了4 公里左右的實際路測,并將實際道路場景建模,并使用D2RL進行模擬。兩條路線分別在156和117次測試后達到收斂,而與之相比的是在NDE條件下,達成相同的標準分別需要2.5×107次和2.1×107次。
同樣效率提升2000倍左右。
也就是說,使用D2RL網絡進行自動駕駛算法的模擬仿真訓練,能大大縮短自動駕駛的開發周期。
在自動駕駛之外,D2RL還可以用在其他AI可靠性驗證中,如醫療機器人和航空航天系統。
怎么做到的?
從上面的實驗結果表格中可以看出,D2RL之所以提升效率的主要手段,就是對系統生成仿真場景的過程進行“提純”,盡量少生成價值不大的常規場景,保留高價值數據。
研究團隊認為,無人車仿真系統的效率問題,本質上是高維空間(多維向量空間)中的一個罕見事件估計問題。
如何識別并剔除高維向量空間中非安全關鍵的點,是D2RL的核心任務。
D2RL是一種密集強化學習深度神經網絡,其基本思想是識別和去除多向量空間的非安全關鍵數據,并保留安全關鍵數據訓練神經網絡。
由于聲稱場景中只有非常小的一部分數據是安全關鍵的,剩余數據的信息將被大大地密集化。
D2RL方法的本質是刪除非關鍵狀態,并連接關鍵狀態來重新編輯馬爾科夫決策過程,然后只對編輯過的馬爾科夫過程進行神經網絡訓練。
因此,對于任何訓練場景,最終的獎勵都是沿著編輯過的馬爾可夫鏈反向傳播的。
直觀地說,D2RL訓練的對象,是仿真測試場景中的BV(非自動駕駛背景車輛),要求他們在特定的時空下執行特定的動作,與自動駕駛車輛(AV)形成對抗性訓練。
獎勵函數為:
其中x表示每個測試情節的變量,IA(x) 是AV碰撞事件的指標函數,后兩項則是AV目標策略和目標行為的重要性函數。
獎勵越高表示測試環境越有效。這樣的獎勵設計是通用的,也適用于其他具有高維變量的罕見事件估計問題。
為了確定學習機制,團隊進一步研究了行為策略和目標策略之間的關系。
他們發現AV的最佳行為政策在訓練過程中收集的數據幾乎是與目標策略相反。這表明,如果使用傳統強化學習中的on-policy策略,AV的目標行為策略將偏離最佳。這可能會誤導訓練過程。
為了解決這個問題,團隊設計了一個off-policy學習機制,即設計一個通用的行為策略,并在訓練過程中保持不變,用來平衡AV的策略和行為。
最終,D2RL可以在訓練過程中使獎勵最大化,有效地提高AV的碰撞率。
作者團隊介紹
本研究的第一作者封碩,目前在美國密歇根大學安娜堡分校做博士后。
封碩本科和博士學位都在清華大學自動化系獲得,研究方向是優化控制、互聯和自動駕駛評估以及交通數據分析。
封碩所在的Traffic Lab實驗室,由劉向宏教授領導。
Sun Haowei,密歇根大學土木與環境工程專業在讀博士生,同樣在Traffic Lab實驗室。研究興趣是車聯網和自動駕駛汽車的測試和評估。Sun Haowei本科畢業于清華大學自動化系。
本文通訊作者劉向宏博士現任美國密歇根大學土木與環境工程系終身職正教授、密歇根大學交通研究所(UMTRI)研究教授,北京航空航天大學客座教授、兼職博士生導師。
他在國內最被外界熟悉的身份是滴滴前首席科學家。
劉向宏1993年本科畢業于清華大學汽車工程系,2000年在威斯康星大學麥迪遜分校取得博士學位。
劉教授是交通工程領域論文引用率最高的學者之一,他發明的用于精確測量交叉路口的排隊長度和旅行時間的SMART-Signal系統于2012年取得美國國家專利,并已在美國明尼蘇達州和加州得到廣泛應用。
原文鏈接:https://www.nature.com/articles/s41586-023-05732-2
如果你有好的研究成果或觀點,歡迎來稿交流:auto@qbitai.com
—聯系作者—
—完—
【智能車參考】原創內容,未經賬號授權,禁止隨意轉載。
點這里關注我,記得標星,么么噠~
關鍵詞:
責任編輯:孫知兵
免責聲明:本文僅代表作者個人觀點,與太平洋財富網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
如有問題,請聯系我們!
- Nature封面罕見給了自動駕駛!仿真效率20002023-03-23
- 網貸辦停息掛賬要注意什么?網貸怎么做停息2023-03-23
- HDEDU聯合創始人徐梓鐸榮獲2022胡潤U30中國2023-03-23
- 網絡平臺停息掛賬最長可以停多久?停息掛賬2023-03-23
- 一場或將改變全球人睡眠的技術革新,正在2023-03-23
- 網貸平臺拒絕停息掛賬怎么辦?網上幫忙協商2023-03-23
- 網貸停息掛賬如何提高成功率?網貸逾期了暫2023-03-23
- 網貸停息掛賬申請條件是什么?如何協商申請2023-03-23
- 恒慧融:投資理財的注意事項都有哪些2023-03-23
- 網貸停息掛賬影響多久?網貸逾期了暫時還不2023-03-23
- 提前還款的條件是什么?先息后本提前還款虧2023-03-23
- 如何辦理提前還款?房貸逾期可以協商還款嗎2023-03-23
- 提前還款房貸哪種還款方式最劃算?房貸可以2023-03-23
- 網貸逾期要怎么處理?網貸逾期如何正確解決2023-03-23
- 搶抓RCEP發展機遇,江蘇外貿活力持續釋放2023-03-23
- 網貸停息掛賬的協商技巧有哪些?網貸如何申2023-03-23
- 甘肅省關于做好新生兒參加城鄉居民醫療保險2023-03-23
- 烏魯木齊市2020年城鄉居民基本養老保險參保2023-03-23
- 全球新消息丨焦點消息!擬收購寶靈化工加碼2023-03-23
- 當前短訊!保利發展擬發行15億元公司債券,2023-03-23
- 臨沂市關于實行住房公積金貸款自主核算相關2023-03-23
- 【環球財經】東京股市兩大股指小幅回落2023-03-23
- 世界要聞:美國證監會將對孫宇晨提起訴訟 2023-03-23
- 硅業分會:本周硅片價格持穩運行 石英砂保2023-03-23
- 網貸也可以做停息掛賬嗎?網貸突然停止催收2023-03-23
- 女生小說網(現今有哪些女生小說網?)2023-03-23
- 環球速訊:網頁打開速度慢(電腦打開網頁慢2023-03-23
- 全球熱訊:中農聯合新設檢測科技子公司 含2023-03-23
- 貴常春,經得起時間的考驗,方可成就醇正口2023-03-23
- 投資不規范,錢包兩行淚?萬洲金業踐行理財2023-03-23
精彩推薦
- Nature封面罕見給了自動駕駛!仿真效率2...
- 搶抓RCEP發展機遇,江蘇外貿活力持續釋放
- 韓國1月新生兒人數連續86個月同比減少
- 英國2月通脹意外上漲,央行加息可能性增加
- 2023年社保繳費檔次六個檔次是哪些?社...
- 社保是什么意思?個人如何繳納社保
- 環球熱資訊!魔方公寓帶“傷”闖關港股I...
- 環球信息:072期李白石福彩3D預測獎號:...
- 五險一金基數是什么意思?五險一金的基...
- 2023年朔州市五險一金繳納基數和比例是...
- 吉林延邊州:精準發力促就業 “春風”...
- 濟南生育津貼一般多久能報下來?生育津...
- 靈活就業交醫保太虧了是怎么回事?靈活...
- 無錫喪葬費標準是什么?南京喪葬費一般...
- 全球速遞!無敵兌換 開心小帥_無敵兌換空間