Verimli seçmeli güvenli bir veri seti kümelemesi önerisi ve otonom sürüşe yönelik bir uygulaması
No Thumbnail Available
Date
2019
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Bu çalışmanın amacı sürücüsüz araçlara yönelik örnek toplama açısından verimli bir uçtan uca derin öğrenme algoritması geliştirmektir. Bunu da elde edilen örnekleri seçici olarak sınıflandırma ile, sürüş politikasını geliştirmek adına, uzman sürücüyü en az sayıda çağırarak yapmaya çalışmaktır. Uçtan uca taklit öğrenmesi sürücüsüz sürüş politikalarında kullanılan popüler bir yöntemdir. Standart yaklaşım giriş (kamera görüntüleri) ve çıkış (direksiyon açısı vb.) ikililerini uzman sürücüden toplayıp bir derin sinir ağı içerisine yerleştirmek üzerinedir. Bu yaklaşım geçmişte bazı başarılı örnekler sergilemiş olsa da bir sürüş politikası öğrenmek uzman sürücüden alınan çok fazla örneğe ihtiyaç duymaktadır ki bu da kaynak açısından çok maliyetlidir. Bu çalışmada güvenli veri seti kümelemesi (SafeDAgger) yaklaşımı üzerine temellendirilmiş, öğrenilmiş politikanın farklı güzergâh sınıflarına ayrıldığı ve her bir sınıfın her bir tekrarda zayıflıklarına göre değerlendirildiği, özgün bir algoritma çerçevesi geliştirilmiştir. Her bir zayıf güzergâh parçası belirlendikten sonra, örnek toplayan algoritma yalnızca bu zayıf bölgelerde uzman politikayı çağırmak üzere tanımlanmıştır, bu da uzmana yapılan çağrıların sayısını ve politikanın yakınsama oranını önemli bir ölçüde azaltmaktadır. Yapılan simülasyon sonuçları göstermektedir ki yaklaşım uzmandan aynı sayıda örnek toplanırken standart SafeDAgger algoritmasına göre önemli ölçüde daha başarılı sonuçlar sunmuştur.
The objective of this work is to develop a sample efficient end-to-end deep learning method for self-driving cars, where it is attempted to minimize number of times the expert driver is called to improve the driving policy, through selective analysis of the obtained samples. End-to-end imitation learning is a popular method for computing self-driving car policies. The standard approach relies on collecting pairs of inputs (camera images) and outputs (steering angle etc.) from an expert policy and fitting a deep neural network to this data to learn the driving policy. Although this approach had some successful demonstrations in the past, learning a good policy might require a lot of samples from the expert driver, which might be resource-consuming. In this work, a novel framework developed based on the Safe Dataset Aggregation (safe DAgger) approach, where the current learned policy is automatically segmented into different trajectory classes, and the algorithm identifies trajectory segments/classes with weak performance at each step. Once the weak trajectory segments are identified, sampling algorithm focuses on calling the expert policy only on these segments, which significantly lowers both the number of times the expert is called and the convergence rate. The presented simulation results show that the proposed approach can yield significantly better performance compared to the standard Safe DAgger algorithm, while using the same number of samples from the expert.
The objective of this work is to develop a sample efficient end-to-end deep learning method for self-driving cars, where it is attempted to minimize number of times the expert driver is called to improve the driving policy, through selective analysis of the obtained samples. End-to-end imitation learning is a popular method for computing self-driving car policies. The standard approach relies on collecting pairs of inputs (camera images) and outputs (steering angle etc.) from an expert policy and fitting a deep neural network to this data to learn the driving policy. Although this approach had some successful demonstrations in the past, learning a good policy might require a lot of samples from the expert driver, which might be resource-consuming. In this work, a novel framework developed based on the Safe Dataset Aggregation (safe DAgger) approach, where the current learned policy is automatically segmented into different trajectory classes, and the algorithm identifies trajectory segments/classes with weak performance at each step. Once the weak trajectory segments are identified, sampling algorithm focuses on calling the expert policy only on these segments, which significantly lowers both the number of times the expert is called and the convergence rate. The presented simulation results show that the proposed approach can yield significantly better performance compared to the standard Safe DAgger algorithm, while using the same number of samples from the expert.
Description
Keywords
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
86