Extensive performance evaluation of popular relational and non-relational data stores for full-text search
| dc.contributor.advisor | Τρυφωνόπουλος, Χρήστος | |
| dc.contributor.advisor | Χατζόπουλος, Σεραφείμ | |
| dc.contributor.author | Αποστολάκης, Χαράλαμπος | |
| dc.contributor.committee | Τρυφωνόπουλος, Χρήστος | |
| dc.contributor.committee | Σκιαδόπουλος, Σπυρίδων | |
| dc.contributor.committee | Γιαννακόπουλος, Θεόδωρος | |
| dc.contributor.department | Τμήμα Πληροφορικής και Τηλεπικοινωνιών | el |
| dc.contributor.faculty | Σχολή Οικονομίας και Τεχνολογίας | el |
| dc.contributor.master | Επιστήμη Δεδομένων | el |
| dc.date.accessioned | 2025-03-04T10:41:09Z | |
| dc.date.available | 2025-03-04T10:41:09Z | |
| dc.date.issued | 2025-01-09 | |
| dc.description | Μ.Δ.Ε. 123 | el |
| dc.description.abstract | In this thesis, we perform an extensive performance evaluation of relational and non-relational database systems comparing their full-text search capabilities. We build upon previous relevant work by expanding it across four key directions. First, we include additional systems in our evaluation such as Neo4j, MySQL, MariaDB, Sphinx Search, Redis, alongside those previously studied. Second, we focus on reproducibility, using Docker containers for our experimental setup, ensuring that our results can be reliably replicated. Third, we enhance the study by utilizing newer and more diverse datasets, including the updated Crossref database and a new Tweet dataset. Fourth, we extend the performance comparison to a broader set of full-text queries, including term importance, proximity, fuzziness, and thesaurus searches, alongside exact phrase matching, wildcard, and Boolean search queries. The DBMSs tested were chosen after conducting extensive research on available open-source or free-tier systems offering full text search capabilities without incurring licensing expenses. The selected datastores include both relational (PostgreSQL, MySQL, MariaDB) and non-relational systems (MongoDB, Neo4j, Redis), as well as specialized search engines (Apache Solr, Elasticsearch, Sphinx Search). The wide range of examined systems allows for a comprehensive comparison of fulltext search capabilities across a range of architectures. Finally, we provide a detailed scorecard presenting the performance of each system based on several examined aspects, such as query handling, data insertion, and indexing efficiency. The scorecard highlights the strengths and weaknesses of each system, offering insights into their advantages and disadvantages in terms of scalability, flexibility, search performance and accuracy across different query types. | el |
| dc.description.abstracttranslated | Σκοπός αυτής της διπλωματικής εργασίας, είναι η πραγματοποίηση μίας εκτενούς αξιολόγησης της απόδοσης σχεσιακών και μη σχεσιακών συστημάτων διαχείρισης βάσεων δεδομένων, συγκρίνοντας τις δυνατότητές τους στην αναζήτηση πλήρους κειμένου. Βασιζόμαστε σε προηγούμενες σχετικές μελέτες, τις οποίες επεκτείνουμε σε τέσσερις βασικές κατευθύνσεις. Πρώτον, συμπεριλαμβάνουμε επιπλέον συστήματα στην αξιολόγησή μας, όπως τα Neo4j, MySQL, MariaDB, Sphinx Search και Redis, εκτός από αυτά που είχαν μελετηθεί προηγουμένως. Δεύτερον, δίνουμε έμφαση στη δημιουργία ενός απομονωμένου περιβάλλοντος, χρησιμοποιώντας Docker containers για τη δημιουργία του πειραματικού μας περιβάλλοντος, διασφαλίζοντας ότι τα αποτελέσματα μπορούν να αναπαραχθούν αξιόπιστα. Τρίτον, βελτιώνουμε τη μελέτη χρησιμοποιώντας νεότερα και πιο διαφοροποιημένα σύνολα δεδομένων, όπως την ενημερωμένη βάση δεδομένων Crossref και ένα νέο σύνολο δεδομένων από Tweets. Τέταρτον, επεκτείνουμε τη σύγκριση απόδοσης σε ένα ευρύτερο σύνολο ερωτημάτων αναζήτησης πλήρους κειμένου, συμπεριλαμβανομένων της σημασίας όρων, της εγγύτητας, της ανεκτικότητας σε σφάλματα και της αναζήτησης μεσω θησαυρού (thesaurus search), πέρα από τα βασικά ερωτήματα της ακριβούς αντιστοίχισης φράσεων, της χρήσης wildcard και των λογικών αναζητήσεων. Τα συστήματα βάσεων δεδομένων που εξετάστηκαν επιλέχθηκαν μετά από εκτενή έρευνα για διαθέσιμα συστήματα ανοιχτού κώδικα ή δωρεάν εκδόσεις που προσφέρουν δυνατότητες αναζήτησης πλήρους κειμένου χωρίς κόστος αδειοδότησης. Τα επιλεγμένα συστήματα περιλαμβάνουν σχεσιακά (PostgreSQL, MySQL, MariaDB) και μη σχεσιακά συστήματα (MongoDB, Neo4j, Redis), καθώς και εξειδικευμένες μηχανές αναζήτησης (Apache Solr, Elasticsearch, Sphinx Search). Το ευρύ φάσμα των συστημάτων που εξετάστηκαν επιτρέπει μια ολοκληρωμένη σύγκριση των δυνατοτήτων αναζήτησης πλήρους κειμένου σε διάφορες αρχιτεκτονικές. Τέλος, παρέχουμε έναν αναλυτικό πίνακα αποτελεσμάτων που παρουσιάζει την απόδοση κάθε συστήματος με βάση διάφορες πτυχές, όπως η διαχείριση ερωτημάτων, η εισαγωγή δεδομένων και η αποδοτικότητα της ευρετηρίασης. Ο πίνακας συνοψίζει με τη μορφή συγκριτικής βαθμολογίας τα πλεονεκτήματα και τις αδυναμίες κάθε συστήματος, όσον αφορά την επεκτασιμότητα, την ευελιξία, την απόδοση και την ακρίβεια αναζητήσεων σε διαφορετικούς τύπους ερωτημάτων. | el |
| dc.format.extent | 147 | el |
| dc.identifier.uri | https://amitos.library.uop.gr/xmlui/handle/123456789/8608 | |
| dc.language.iso | en | el |
| dc.publisher | Πανεπιστήμιο Πελοποννήσου | el |
| dc.rights | Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/gr/ | * |
| dc.subject | Non-relational databases | el |
| dc.subject | Relational databases | el |
| dc.subject | Data storage | el |
| dc.subject | SQL vs NoSQL | el |
| dc.subject | Text indexing | el |
| dc.subject | Data consistency | el |
| dc.subject | System Performance and Evaluation | el |
| dc.subject.keyword | Data insertion | el |
| dc.title | Extensive performance evaluation of popular relational and non-relational data stores for full-text search | el |
| dc.title.alternative | Εκτενής αξιολόγηση απόδοσης δημοφιλών σχεσιακών και μη σχεσιακών συστημάτων διαχείρισης βάσεων δεδομένων για αναζήτηση πλήρους κειμένου | el |
| dc.type | Μεταπτυχιακή διπλωματική εργασία | el |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- Apostolakis_2022202204004.pdf
- Size:
- 3.34 MB
- Format:
- Adobe Portable Document Format
- Description:
- Μεταπτυχιακή διπλωματική εργασία
License bundle
1 - 1 of 1
Loading...
- Name:
- license.txt
- Size:
- 933 B
- Format:
- Item-specific license agreed upon to submission
- Description:
