Restoring consistency in large-scale Knowledge Graphs

dc.contributor.advisorΑρτίκης, Αλέξανδρος
dc.contributor.advisorΑκασιάδης, Χαρίλαος
dc.contributor.advisorΝεντίδης, Αναστάσιος
dc.contributor.advisorΧαραλαμπίδης, Άγγελος
dc.contributor.authorΠαρασκάκης, Νικόλαος
dc.contributor.committeeΑρτίκης, Αλέξανδρος
dc.contributor.committeeΣκιαδόπουλος, Σπυρίδων
dc.contributor.committeeΚριθαρά, Αναστασία
dc.contributor.departmentΤμήμα Πληροφορικής και Τηλεπικοινωνιώνel
dc.contributor.facultyΣχολή Οικονομίας και Τεχνολογίαςel
dc.contributor.masterΕπιστήμη Δεδομένωνel
dc.date.accessioned2025-06-19T10:36:09Z
dc.date.issued2025-05-27
dc.descriptionΜ.Δ.Ε. 141el
dc.description.abstractThe rapid growth and adoption of Knowledge Graphs (KGs) across domains such as biomedical informatics, enterprise systems, and semantic search have underscored the need for maintaining their logical consistency. However, large-scale KGs, often built from heterogeneous and noisy data sources, are highly susceptible to inconsistencies that impair reasoning and query reliability. The proposed approach splits the KG into modules and performs parallel inconsistency detection and parallel repairing using various fixing strategies. These modules are merged using a neighborhood-based logic and a specified hop length, enabling the framework to effectively detect and repair inconsistencies in KGs expressed in OWL2 Description Logic (i.e., SROIQ(D)). To address memory limitations of OWL2 reasoners and the need for high parallelism in large KGs, the framework leverages the big data platforms Apache Hadoop and Apache Spark, facilitating distributed processing and enabling scalability up to a billion triples. The implementation integrates a triple store for efficient data access and employs SPARQL for effective querying. This work examines the performance of three different OWL2 reasoners (HermiT, Pellet, and JFact), the effectiveness of different fixing approaches, and the impact of the hop length on (i) the completeness of the result and (ii) the processing time. Experimental evaluation on the Lehigh University Benchmark (LUBM) dataset demonstrates the framework’s effectiveness, marking an advancement to the KG sizes (expressed in OWL2) that can handle.el
dc.description.abstracttranslatedΗ ραγδαία ανάπτυξη και υιοθέτηση των Γράφων Γνώσης Γ.Γ. (Knowledge Graphs) σε τομείς όπως η βιοϊατρική πληροφορική, τα επιχειρησιακά συστήματα και η σημασιολογική αναζήτηση έχει αναδείξει την ανάγκη διατήρησης της λογικής τους συνέπειας. Ωστόσο, οι μεγάλης κλίμακας Γ.Γ., που συχνά κατασκευάζονται από ετερογενείς και ενθόρυβες πηγές δεδομένων, είναι ιδιαίτερα επιρρεπείς σε ασυνέπειες που επηρεάζουν τη διαδικασία λογικής συμπερασματολογίας και την αξιοπιστία των ερωτημάτων. Η προτεινόμενη προσέγγιση χωρίζει το Γ.Γ. σε υπογράφους (modules) και εκτελεί παραλληλοποιημένη ανίχνευση ασυνεπειών και επιδιόρθωσή τους, χρησιμοποιώντας διάφορες στρατηγικές διόρθωσης. Οι υπογράφοι συγχωνεύονται με χρήση μίας λογικής γειτνίασης καθορισμένου μήκους (hop length), επιτρέποντας στον αλγόριθμο να ανιχνεύει και να επιδιορθώνει αποτελεσματικά ασυνέπειες σε Γ.Γ. εκφρασμένους στη Λογική Περιγραφής (Description Logic) OWL2 (δηλαδή SROIQ(D)). Για την αντιμετώπιση των περιορισμών μνήμης των OWL2 reasoners και των απαιτήσεων παραλληλισμού σε μεγάλους Γ.Γ., η προτεινόμενη υλοποίηση αξιοποιεί τις πλατφόρμες μεγάλων δεδομένων Apache Hadoop και Apache Spark, επιτυγχάνοντας κατανεμημένη επεξεργασία και επιτρέποντας επεκτασιμότητα έως και ένα δισεκατομμύριο τρίπλες. Η υλοποίηση ενσωματώνει μία βάση δεδομένων τριπλών (triple store) για αποδοτική πρόσβαση στα δεδομένα και χρησιμοποιεί τη γλώσσα SPARQL για αποτελεσματικά ερωτήματα. Η εργασία εξετάζει την απόδοση τριών διαφορετικών OWL2 reasoners (HermiT, Pellet, και JFact), την αποτελεσματικότητα διαφορετικών στρατηγικών διόρθωσης, και την επίδραση του μήκους γειτνίασης (hop length) (α) στην πληρότητα των αποτελεσμάτων και (β) στον χρόνο επεξεργασίας. Η πειραματική αξιολόγηση με το σύνολο δεδομένων LUBM (Lehigh University Benchmark) αποδεικνύει την αποτελεσματικότητα της προτεινόμενης υλοποίησης, σημειώνοντας πρόοδο στα μεγέθη Γ.Γ. (εκφρασμένων σε OWL2 που μπορούν να υποστηριχθούν.el
dc.format.extent138el
dc.identifier.urihttps://amitos.library.uop.gr/xmlui/handle/123456789/8967
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.subjectDatabasesel
dc.subjectGraph theory-Data processingel
dc.subjectData recovery(Computer science)el
dc.subjectΒάσεις Δεδομένωνel
dc.subjectΘεωρία γραφημάτων-Επεξεργασία δεδομένωνel
dc.subjectΑνάκτηση δεδομένων (Πληροφορική)el
dc.subject.keywordKnowledge Graphsel
dc.subject.keywordOntologyel
dc.subject.keywordConsistencyel
dc.subject.keywordInconsistencyel
dc.subject.keywordRestoring consistencyel
dc.subject.keywordOWL2el
dc.subject.keywordReasoningel
dc.subject.keywordInconsistency detectionel
dc.subject.keywordRepairingel
dc.subject.keywordDescription Logicel
dc.subject.keywordFixing strategiesel
dc.subject.keywordLarge-scale Knowledge Graphsel
dc.titleRestoring consistency in large-scale Knowledge Graphsel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel
dcterms.embargoLiftDate2028-06-18T10:36:09Z
dcterms.embargoTerms3 yearsel

Files

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
933 B
Format:
Item-specific license agreed upon to submission
Description: