愛騎豬的老虎提示您:看後求收藏(品書網www.vodtw.tw),接著再看更方便。
王德才的方案中規中矩,使用的依然是傳統的非線性規劃方法,當他講到一半的時候,工業網際網路實驗室負責人托馬斯已經聽得有些不耐煩了。
他劃了劃手中的平板電腦,看看下一個彙報人是誰。
哦,馬上輪到這小子了。
下一個人正是尚斌。
托馬斯十分信任自己的老友尼古拉,因此對尼古拉推薦的尚斌也很感興趣,於是邀請了尚斌參加本次交流會。
他耐著性子聽完王德才的彙報,迫不及待地想看看尚斌會拿出怎樣的方案。
不一會兒,尚斌走進會議室,他開啟彙報材料,首先介紹起智慧機器人排程系統的研究現狀:
“目前,主流的機器人排程系統採用的方法是,建立非線性規劃模型,然後求解得到任務排程策略,併為每臺機器人進行路徑規劃。”
“而在衝突解決方面,這些年來的流行方法依然是最為保守的滑動時間窗法。
“也就是說,當一臺機器人進入某單行路段之後,接下來即將進入該路段的其他機器人必須原地等待,直到前面的機器人離開。”
“上述方法存在兩個問題:”
“第一,非線性規劃模型忽視了多臺機器人之間的相互影響,因此,按照此模型得到的任務排程策略和路徑對整個系統搬運效率的提升並不能到達預設的效能。”
“第二,滑動時間窗法雖然保證了機器人的安全,也易於實現,但終究太過保守。以目前的技術,完全可以考慮更加激進一些的衝突解決方案。”
臺下的評審專家在不斷點頭,這些確實是系統開發過程中遇到的問題。
托馬斯聽到尚斌的分析之後安心了一些,這個小夥子肯定不會採用王德才那套過時的方法。
他摸了摸下巴上的鬍子,眼中露出期許的目光。
尚斌右手一揮,全息投影臺上展示出一幅使用柵格法建模的機器人作業環境電子地圖。
他面帶微笑地對臺下專家說道:
“接下來,我將介紹自己的解決方案。”
“首先,我們把每一臺機器人看作是智慧體,使用隨機博弈描述多機器人之間的互動,以此建模多機器人之間的相互影響,再使用多智慧體強化學習方法對隨機博弈進行求解。”
“任務排程和路徑規劃採用分別建模的方式,任務排程的狀態定義為機器人位置和執行狀態,而路徑規劃的狀態定義為每臺機器人的任務分配情況。”
“如此一來,任務排程策略最佳化和路徑規劃可以同時進行。”
“至於所採用的的演算法,我們曾進行過較為廣泛的調研,並有一定的研究基礎。”
“為了緩解多智慧體強化學習演算法中的動作空間維數災問題,我們使用了獨立式學習和深度學習這兩種方法。”
“為保證演算法的收斂性和最優性,我們使用演化博弈對所提方法進行建模,然後使用李雅普諾夫直接法和間接法分析演算法模型的漸近穩定性,使用迭代的方法設計出具有收斂性和最優性的演算法。”
“其次,機器人的衝突解決方案,我們不再採用滑動時間窗方法,而是擬將現有機器人進行升級改造,透過加裝感測器,並使用強化學習和滑模控制技術來完成更為精細的運動控制,從而提高路段的使用效率。”
“最後,在新的作業場景中部署系統時,針對強化學習泛化效能不佳的問題,我們提出使用遷移強化學習加以解決。”
“這樣,當作業場景的佈局發生變動後,可以利用之前收集到的資料和學習到的策略、價值函式來幫助在新作業場景中進行學習和最佳化,從而提高系統的啟動效率。”
緊接著,尚斌對所提方案的可行性進行了詳細的分析。