Distributed Trajectory Clustering of Vessel AIS Data

dc.contributor.advisorΑκασιάδης, Χαρίλαος
dc.contributor.advisorAkasiadis, Charilaos
dc.contributor.authorΣτεφανόπουλος, Σταμάτης
dc.contributor.authorStefanopoulos, Stamatis
dc.contributor.committeeΒεργούλης, Αθανάσιος
dc.contributor.committeeΠελέκης, Νικόλαος
dc.contributor.committeeVergoulis, Thanasis
dc.contributor.committeePelekis, Nikos
dc.contributor.departmentΤμήμα Πληροφορικής και Τηλεπικοινωνιώνel
dc.contributor.facultyΣχολή Οικονομίας και Τεχνολογίαςel
dc.contributor.masterΕπιστήμη Δεδομένωνel
dc.date.accessioned2024-10-09T07:22:37Z
dc.date.available2024-10-09T07:22:37Z
dc.date.issued2022-07-11
dc.descriptionΜ.Δ.Ε. 115el
dc.description.abstractTrajectory clustering is an important problem, where position data of mobile objects, such as vehicles and vessels, is analyzed to extract knowledge that is later utilized for a plethora of management tasks. Recently, a vast increase in the production of data gathering devices has taken place, allowing the collection of data in much larger volumes. This challenges the application of existing clustering algorithms, as they are not always able to handle large datasets due to their design. In particular, TRACLUS is one of the most well-known trajectory clustering algorithms that is a generalization of DBSCAN for trajectory line segments. However, due to the iterative approach and the repetitive usage of a spatial index inherited from DBSCAN, TRACLUS’s performance degrades as the datasets increase in size and its execution might be extremely slow in some cases. To tackle this shortcoming, we propose a distributed implementation of TRACLUS, built on Apache Spark, that can operate on very large datasets by applying different types of partitioning to the input data: spatial partitioning, which splits the data taking into account its spatial distribution and random partitioning, which randomly splits the dataset into balanced subsets without considering spatial criteria. Results from an empirical evaluation on real-world trajectories illustrate that our proposed distributed variants achieve improved runtime performance without jeopardizing the quality of the results and the clustering efficiency.el
dc.description.abstracttranslatedΗ συσταδοποίηση τροχιών αντικειμένων είναι ένα σημαντικό πρόβλημα στο οποίο δεδομένα θέσης κινούμενων αντικειμένων (οχήματα, πλοία, άτομα) αναλύονται με στόχο την εξαγωγή γνώσης που μπορεί να χρησιμοποιηθεί σε πληθώρα εργασιών διαχείρισης και παρακολούθησης. Τα τελευταία χρόνια έχει σημειωθεί ραγδαία αύξηση στην παραγωγή συσκευών εξοπλισμένων με αισθητήρες θέσης, που έχει οδηγήσει στην καταγραφή και συλλογή μεγάλων ποσοτήτων χωρικών δεδομένων. Το μέγεθος των δεδομένων δυσχεραίνει σημαντικά την χρήση υπαρχόντων αλγορίθμων συσταδοποίησης τροχιών, καθώς ο σχεδιασμός τους δεν είναι κατάλληλος για την διαχείριση μεγάλων συνόλων δεδομένων. Ο αλγόριθμος TRACLUS αποτελεί έναν από τους πιο γνωστούς αλγορίθμους αυτού του τύπου και αποτελεί μια γενίκευση του DBSCAN, τροποποιημένου κατάλληλα ώστε να διαχειρίζεται τμήματα τροχιών αντικειμένων αντί σημείων. Ωστόσο, οι χρονοβόρες επαναλήψεις που απαιτεί, καθώς και η συνεχής και επαναλαμβανόμενη χρήση χωρικού ευρετηρίου - ιδιότητες που κληρονομούνται από τον DBSCAN - οδηγούν στην αισθητή μείωση της απόδοσής του όσο τα σύνολα δεδομένων μεγαλώνουν σε μέγεθος, καθιστώντας την εκτέλεσή του σε ορισμένες περιπτώσεις εξαιρετικά αργή. Για την αντιμετώπιση αυτού του προβλήματος, προτείνουμε μια κατανεμημένη, παράλληλη υλοποίηση του TRACLUS, ανεπτυγμένη στην πλατφόρμα Apache Spark, η οποία μπορεί να διαχειριστεί μεγάλα πλήθη τροχιών εφαρμόζοντας διάφορες τεχνικές διαχωρισμού του συνόλου δεδομένων. Η προτεινόμενη λύση βελτιώνει την χρονική απόδοση του αλγορίθμου χωρίς να σημειώνονται σημαντικές απώλειες ως προς την ποιότητα της συσταδοποίησης, όπως προκύπτει από την πειραματική αξιολόγηση του αλγορίθμου με χρήση πραγματικών δεδομένων κίνησης. Στο πρώτο κεφάλαιο του κειμένου της εργασίας γίνεται μια γενικότερη εισαγωγή στο πρόβλημα και στις τεχνικές που προτείνονται για την επίλυσή του, ενώ στο δεύτερο κεφάλαιο παρουσιάζονται συνοπτικά αλγόριθμοι συσταδοποίησης τροχιών καθώς και κατανεμημένες τεχνικές βελτίωσης της απόδοσης του DBSCAN που έχουν έως τώρα προταθεί στη βιβλιογραφία. Στο τρίτο κεφάλαιο παρουσιάζονται οι προτεινόμενες τεχνικές για την βελτίωση της απόδοσης του TRACLUS και μια μέθοδος εκτίμησης της στατιστικής σημαντικότητας των παραγόμενων από τον αλγόριθμο συστάδων τροχιών. Στο τέταρτο κεφάλαιο παρουσιάζεται η πειραματική αξιολόγηση των προτεινόμενων τεχνικών με χρήση πραγματικών δεδομένων κίνησης σκαφών, ενώ στο πέμπτο και έκτο κεφάλαιο παρουσιάζονται αντίστοιχα τα συμπεράσματα της πειραματικής αξιολόγησης και πιθανές μελλοντικές επεκτάσεις/βελτιώσεις των προτεινόμενων τεχνικών.el
dc.format.extentσελ. 134el
dc.identifier.urihttps://amitos.library.uop.gr/xmlui/handle/123456789/8307
dc.identifier.urihttp://dx.doi.org/10.26263/amitos-1809
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.subject.keywordΤροχιές κινούμενων αντικειμένωνel
dc.subject.keywordΣυσταδοποίησηel
dc.subject.keywordΜεγάλα δεδομέναel
dc.subject.keywordΕξόρυξη γνώσηςel
dc.subject.keywordMoving object trajectoriesel
dc.subject.keywordClusteringel
dc.subject.keywordBig datael
dc.subject.keywordData miningel
dc.titleDistributed Trajectory Clustering of Vessel AIS Datael
dc.title.alternativeΚατανεμημένη Συσταδοποίηση Τροχιών Σκαφών από Δεδομένα Συστήματος Αυτόματης Αναγνώρισης (AIS)el
dc.typeΜεταπτυχιακή διπλωματική εργασίαel

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
DistributedTrajectoryClusteringOfVesselAisData_Report.pdf
Size:
14.49 MB
Format:
Adobe Portable Document Format
Description:
Τόμος εργασίας

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
933 B
Format:
Item-specific license agreed upon to submission
Description: