Extensive performance evaluation of popular relational and non-relational data stores for full-text search

dc.contributor.advisorΤρυφωνόπουλος, Χρήστος
dc.contributor.advisorΧατζόπουλος, Σεραφείμ
dc.contributor.authorΑποστολάκης, Χαράλαμπος
dc.contributor.committeeΤρυφωνόπουλος, Χρήστος
dc.contributor.committeeΣκιαδόπουλος, Σπυρίδων
dc.contributor.committeeΓιαννακόπουλος, Θεόδωρος
dc.contributor.departmentΤμήμα Πληροφορικής και Τηλεπικοινωνιώνel
dc.contributor.facultyΣχολή Οικονομίας και Τεχνολογίαςel
dc.contributor.masterΕπιστήμη Δεδομένωνel
dc.date.accessioned2025-03-04T10:41:09Z
dc.date.available2025-03-04T10:41:09Z
dc.date.issued2025-01-09
dc.descriptionΜ.Δ.Ε. 123el
dc.description.abstractIn this thesis, we perform an extensive performance evaluation of relational and non-relational database systems comparing their full-text search capabilities. We build upon previous relevant work by expanding it across four key directions. First, we include additional systems in our evaluation such as Neo4j, MySQL, MariaDB, Sphinx Search, Redis, alongside those previously studied. Second, we focus on reproducibility, using Docker containers for our experimental setup, ensuring that our results can be reliably replicated. Third, we enhance the study by utilizing newer and more diverse datasets, including the updated Crossref database and a new Tweet dataset. Fourth, we extend the performance comparison to a broader set of full-text queries, including term importance, proximity, fuzziness, and thesaurus searches, alongside exact phrase matching, wildcard, and Boolean search queries. The DBMSs tested were chosen after conducting extensive research on available open-source or free-tier systems offering full text search capabilities without incurring licensing expenses. The selected datastores include both relational (PostgreSQL, MySQL, MariaDB) and non-relational systems (MongoDB, Neo4j, Redis), as well as specialized search engines (Apache Solr, Elasticsearch, Sphinx Search). The wide range of examined systems allows for a comprehensive comparison of fulltext search capabilities across a range of architectures. Finally, we provide a detailed scorecard presenting the performance of each system based on several examined aspects, such as query handling, data insertion, and indexing efficiency. The scorecard highlights the strengths and weaknesses of each system, offering insights into their advantages and disadvantages in terms of scalability, flexibility, search performance and accuracy across different query types.el
dc.description.abstracttranslatedΣκοπός αυτής της διπλωματικής εργασίας, είναι η πραγματοποίηση μίας εκτενούς αξιολόγησης της απόδοσης σχεσιακών και μη σχεσιακών συστημάτων διαχείρισης βάσεων δεδομένων, συγκρίνοντας τις δυνατότητές τους στην αναζήτηση πλήρους κειμένου. Βασιζόμαστε σε προηγούμενες σχετικές μελέτες, τις οποίες επεκτείνουμε σε τέσσερις βασικές κατευθύνσεις. Πρώτον, συμπεριλαμβάνουμε επιπλέον συστήματα στην αξιολόγησή μας, όπως τα Neo4j, MySQL, MariaDB, Sphinx Search και Redis, εκτός από αυτά που είχαν μελετηθεί προηγουμένως. Δεύτερον, δίνουμε έμφαση στη δημιουργία ενός απομονωμένου περιβάλλοντος, χρησιμοποιώντας Docker containers για τη δημιουργία του πειραματικού μας περιβάλλοντος, διασφαλίζοντας ότι τα αποτελέσματα μπορούν να αναπαραχθούν αξιόπιστα. Τρίτον, βελτιώνουμε τη μελέτη χρησιμοποιώντας νεότερα και πιο διαφοροποιημένα σύνολα δεδομένων, όπως την ενημερωμένη βάση δεδομένων Crossref και ένα νέο σύνολο δεδομένων από Tweets. Τέταρτον, επεκτείνουμε τη σύγκριση απόδοσης σε ένα ευρύτερο σύνολο ερωτημάτων αναζήτησης πλήρους κειμένου, συμπεριλαμβανομένων της σημασίας όρων, της εγγύτητας, της ανεκτικότητας σε σφάλματα και της αναζήτησης μεσω θησαυρού (thesaurus search), πέρα από τα βασικά ερωτήματα της ακριβούς αντιστοίχισης φράσεων, της χρήσης wildcard και των λογικών αναζητήσεων. Τα συστήματα βάσεων δεδομένων που εξετάστηκαν επιλέχθηκαν μετά από εκτενή έρευνα για διαθέσιμα συστήματα ανοιχτού κώδικα ή δωρεάν εκδόσεις που προσφέρουν δυνατότητες αναζήτησης πλήρους κειμένου χωρίς κόστος αδειοδότησης. Τα επιλεγμένα συστήματα περιλαμβάνουν σχεσιακά (PostgreSQL, MySQL, MariaDB) και μη σχεσιακά συστήματα (MongoDB, Neo4j, Redis), καθώς και εξειδικευμένες μηχανές αναζήτησης (Apache Solr, Elasticsearch, Sphinx Search). Το ευρύ φάσμα των συστημάτων που εξετάστηκαν επιτρέπει μια ολοκληρωμένη σύγκριση των δυνατοτήτων αναζήτησης πλήρους κειμένου σε διάφορες αρχιτεκτονικές. Τέλος, παρέχουμε έναν αναλυτικό πίνακα αποτελεσμάτων που παρουσιάζει την απόδοση κάθε συστήματος με βάση διάφορες πτυχές, όπως η διαχείριση ερωτημάτων, η εισαγωγή δεδομένων και η αποδοτικότητα της ευρετηρίασης. Ο πίνακας συνοψίζει με τη μορφή συγκριτικής βαθμολογίας τα πλεονεκτήματα και τις αδυναμίες κάθε συστήματος, όσον αφορά την επεκτασιμότητα, την ευελιξία, την απόδοση και την ακρίβεια αναζητήσεων σε διαφορετικούς τύπους ερωτημάτων.el
dc.format.extent147el
dc.identifier.urihttps://amitos.library.uop.gr/xmlui/handle/123456789/8608
dc.language.isoenel
dc.publisherΠανεπιστήμιο Πελοποννήσουel
dc.rightsΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/gr/*
dc.subjectNon-relational databasesel
dc.subjectRelational databasesel
dc.subjectData storageel
dc.subjectSQL vs NoSQLel
dc.subjectText indexingel
dc.subjectData consistencyel
dc.subjectSystem Performance and Evaluationel
dc.subject.keywordData insertionel
dc.titleExtensive performance evaluation of popular relational and non-relational data stores for full-text searchel
dc.title.alternativeΕκτενής αξιολόγηση απόδοσης δημοφιλών σχεσιακών και μη σχεσιακών συστημάτων διαχείρισης βάσεων δεδομένων για αναζήτηση πλήρους κειμένουel
dc.typeΜεταπτυχιακή διπλωματική εργασίαel

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Apostolakis_2022202204004.pdf
Size:
3.34 MB
Format:
Adobe Portable Document Format
Description:
Μεταπτυχιακή διπλωματική εργασία

License bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
933 B
Format:
Item-specific license agreed upon to submission
Description: