Restoring consistency in large-scale Knowledge Graphs

Παρασκάκης, Νικόλαος

Restoring consistency in large-scale Knowledge Graphs

dc.contributor.advisor	Αρτίκης, Αλέξανδρος
dc.contributor.advisor	Ακασιάδης, Χαρίλαος
dc.contributor.advisor	Νεντίδης, Αναστάσιος
dc.contributor.advisor	Χαραλαμπίδης, Άγγελος
dc.contributor.author	Παρασκάκης, Νικόλαος
dc.contributor.committee	Αρτίκης, Αλέξανδρος
dc.contributor.committee	Σκιαδόπουλος, Σπυρίδων
dc.contributor.committee	Κριθαρά, Αναστασία
dc.contributor.department	Τμήμα Πληροφορικής και Τηλεπικοινωνιών	el
dc.contributor.faculty	Σχολή Οικονομίας και Τεχνολογίας	el
dc.contributor.master	Επιστήμη Δεδομένων	el
dc.date.accessioned	2025-06-19T10:36:09Z
dc.date.issued	2025-05-27
dc.description	Μ.Δ.Ε. 141	el
dc.description.abstract	The rapid growth and adoption of Knowledge Graphs (KGs) across domains such as biomedical informatics, enterprise systems, and semantic search have underscored the need for maintaining their logical consistency. However, large-scale KGs, often built from heterogeneous and noisy data sources, are highly susceptible to inconsistencies that impair reasoning and query reliability. The proposed approach splits the KG into modules and performs parallel inconsistency detection and parallel repairing using various fixing strategies. These modules are merged using a neighborhood-based logic and a specified hop length, enabling the framework to effectively detect and repair inconsistencies in KGs expressed in OWL2 Description Logic (i.e., SROIQ(D)). To address memory limitations of OWL2 reasoners and the need for high parallelism in large KGs, the framework leverages the big data platforms Apache Hadoop and Apache Spark, facilitating distributed processing and enabling scalability up to a billion triples. The implementation integrates a triple store for efficient data access and employs SPARQL for effective querying. This work examines the performance of three different OWL2 reasoners (HermiT, Pellet, and JFact), the effectiveness of different fixing approaches, and the impact of the hop length on (i) the completeness of the result and (ii) the processing time. Experimental evaluation on the Lehigh University Benchmark (LUBM) dataset demonstrates the framework’s effectiveness, marking an advancement to the KG sizes (expressed in OWL2) that can handle.	el
dc.description.abstracttranslated	Η ραγδαία ανάπτυξη και υιοθέτηση των Γράφων Γνώσης Γ.Γ. (Knowledge Graphs) σε τομείς όπως η βιοϊατρική πληροφορική, τα επιχειρησιακά συστήματα και η σημασιολογική αναζήτηση έχει αναδείξει την ανάγκη διατήρησης της λογικής τους συνέπειας. Ωστόσο, οι μεγάλης κλίμακας Γ.Γ., που συχνά κατασκευάζονται από ετερογενείς και ενθόρυβες πηγές δεδομένων, είναι ιδιαίτερα επιρρεπείς σε ασυνέπειες που επηρεάζουν τη διαδικασία λογικής συμπερασματολογίας και την αξιοπιστία των ερωτημάτων. Η προτεινόμενη προσέγγιση χωρίζει το Γ.Γ. σε υπογράφους (modules) και εκτελεί παραλληλοποιημένη ανίχνευση ασυνεπειών και επιδιόρθωσή τους, χρησιμοποιώντας διάφορες στρατηγικές διόρθωσης. Οι υπογράφοι συγχωνεύονται με χρήση μίας λογικής γειτνίασης καθορισμένου μήκους (hop length), επιτρέποντας στον αλγόριθμο να ανιχνεύει και να επιδιορθώνει αποτελεσματικά ασυνέπειες σε Γ.Γ. εκφρασμένους στη Λογική Περιγραφής (Description Logic) OWL2 (δηλαδή SROIQ(D)). Για την αντιμετώπιση των περιορισμών μνήμης των OWL2 reasoners και των απαιτήσεων παραλληλισμού σε μεγάλους Γ.Γ., η προτεινόμενη υλοποίηση αξιοποιεί τις πλατφόρμες μεγάλων δεδομένων Apache Hadoop και Apache Spark, επιτυγχάνοντας κατανεμημένη επεξεργασία και επιτρέποντας επεκτασιμότητα έως και ένα δισεκατομμύριο τρίπλες. Η υλοποίηση ενσωματώνει μία βάση δεδομένων τριπλών (triple store) για αποδοτική πρόσβαση στα δεδομένα και χρησιμοποιεί τη γλώσσα SPARQL για αποτελεσματικά ερωτήματα. Η εργασία εξετάζει την απόδοση τριών διαφορετικών OWL2 reasoners (HermiT, Pellet, και JFact), την αποτελεσματικότητα διαφορετικών στρατηγικών διόρθωσης, και την επίδραση του μήκους γειτνίασης (hop length) (α) στην πληρότητα των αποτελεσμάτων και (β) στον χρόνο επεξεργασίας. Η πειραματική αξιολόγηση με το σύνολο δεδομένων LUBM (Lehigh University Benchmark) αποδεικνύει την αποτελεσματικότητα της προτεινόμενης υλοποίησης, σημειώνοντας πρόοδο στα μεγέθη Γ.Γ. (εκφρασμένων σε OWL2 που μπορούν να υποστηριχθούν.	el
dc.format.extent	138	el
dc.identifier.uri	https://amitos.library.uop.gr/xmlui/handle/123456789/8967
dc.language.iso	en	el
dc.publisher	Πανεπιστήμιο Πελοποννήσου	el
dc.rights	Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/gr/	*
dc.subject	Databases	el
dc.subject	Graph theory-Data processing	el
dc.subject	Data recovery(Computer science)	el
dc.subject	Βάσεις Δεδομένων	el
dc.subject	Θεωρία γραφημάτων-Επεξεργασία δεδομένων	el
dc.subject	Ανάκτηση δεδομένων (Πληροφορική)	el
dc.subject.keyword	Knowledge Graphs	el
dc.subject.keyword	Ontology	el
dc.subject.keyword	Consistency	el
dc.subject.keyword	Inconsistency	el
dc.subject.keyword	Restoring consistency	el
dc.subject.keyword	OWL2	el
dc.subject.keyword	Reasoning	el
dc.subject.keyword	Inconsistency detection	el
dc.subject.keyword	Repairing	el
dc.subject.keyword	Description Logic	el
dc.subject.keyword	Fixing strategies	el
dc.subject.keyword	Large-scale Knowledge Graphs	el
dc.title	Restoring consistency in large-scale Knowledge Graphs	el
dc.type	Μεταπτυχιακή διπλωματική εργασία	el
dcterms.embargoLiftDate	2028-06-18T10:36:09Z
dcterms.embargoTerms	3 years	el

Files

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 933 B
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Τμήμα Πληροφορικής και Τηλεπικοινωνιών (Μ. Δ. Ε.)