Scalable data-driven enrichment analysis of short RNAs

Loading...
Thumbnail Image

Journal Title

Journal ISSN

Volume Title

Publisher

Πανεπιστήμιο Πελοποννήσου

Abstract

Τα microRNA (ή miRNA) είναι μόρια RNA μικρού μήκους που παίζουν έναν πολύ σημαντικό ρόλο στη ρύθμιση της γονιδιακής έκφρασης, δηλαδή την παραγωγή πρωτεϊ- νών, οι οποίες αποτελούν σημαντικά δομικά και λειτουργικά τμήματα ενός κυττάρου. Τα miRNA «αποσιωπούν» τα γονίδια μέσω της πρόσδεσής τους με αυτά, σταματώντας την παραγωγή της αντίστοιχης πρωτεΐνης. Παρόλα αυτά, οι μηχανισμοί που διέπουν τη λειτουργία των miRNA είναι συνήθως αρκετά περίπλοκοι και σε συνδυασμό με το γεγονός ότι ο αριθμός των miRNA σε κάποιον οργανισμό μπορεί να φτάσει τις αρ- κετές χιλιάδες, γίνεται αντιληπτό ότι τα πειράματα σε ένα εργαστήριο μπορεί να είναι μια μακρά, δύσκολη και συχνά ακριβή διαδικασία. Επιπρόσθετα, κάποιοι επιστήμονες ενδιαφέρονται να συγκρίνουν τη γονιδιακή έκφραση ανάμεσα σε υγιή άτομα και άτομα που νοσούν από κάποια ασθένεια και χρειάζεται να ποσοτικοποιήσουν αυτή τη διαφο- ρά μέσω στατιστικών μεθόδων. Για αυτό το λόγο, ερευνητές Βιοπληροφορικής έχουν αναπτύξει μεθόδους προσομοίωσης και αλγορίθμους σε υπολογιστή όπως η Ανάλυση εμπλουτισμού miRNA, η οποία αποτελεί μια στατιστική τεχνική πρόβλεψης του κατά πόσο ένα σύνολο από miRNA μπορεί να επηρεάζει μια βιολογική λειτουργία. Μία από τις πρόσφατες προσεγγίσεις τέτοιων αναλύσεων αποτελεί ο αμερόληπτος λειτουργικός εμπλουτισμός για miRNA, που βασίζεται σε έναν σημαντικά μεγάλο αριθμό πράξεων μεταξύ συνόλων και με αυτόν τον τρόπο, οδηγεί σε χρόνους εκτέλεσης που έχουν τάξη μεγέθους ώρες ή ακόμα και μέρες. Στη διατριβή αυτή επιδιώκουμε να δώσουμε στον αμερόληπτο εμπλουτισμό miRNA, που αποτελεί μια υπολογιστικά εντατική δεδομενοκεντρική ανάλυση, μια πιο κλιμακώ- σιμη μορφή, χρησιμοποιώντας τεχνικές διαχείρισης δεδομένων και άλλες μεθόδους της επιστήμης υπολογιστών. Αρχικά εξετάζουμε την απόδοση μια δομής δεδομένων, που ονομάζεται διανύσμα από bit, σε σύγκριση με την απόδοση των πινάκων κατακερματι- σμού για αναπαράσταση συνόλων και προτείνουμε μία νέα, υβριδική προσέγγιση για τη μείωση του χρόνου εκτέλεσης. Παράλληλα, βελτιστοποιούμε την ανάλυση εισάγοντας δύο νέα ευρετήρια που χρησιμοποιούνται για την εξάλειψη πράξεων συνόλων που εκτε- λούνται περισσότερες από μία φορές καθώς και για να φιλτράρουν πιθανά στατιστικά ασήμαντες συσχετίσεις ανάμεσα σε miRNA και βιολογικές λειτουργίες. Επιπρόσθετα, δείχνουμε ότι η τεχνολογία αιχμής παρουσιάζει μειωμένη ευαισθησία στα ψευδώς αρνητικά αποτελέσματα και επίσης προτείνουμε μία τροποποίηση στον στατιστικό πυρήνα της ανάλυσης προκειμένου να αυξήσουμε την ποιότητά της. Επιπλέον, προτείνουμε μία προσέγγιση πρόβλεψης p-values σε πραγματικό χρόνο αντί του πλήρους αναλυτικού υπολογισμού μέσω της χρήσης εποπτευόμενων τεχνικών μηχανικής μάθησης. Τέλος, εισάγουμε τεχνικές διαχείρισης και ανάλυσης δεδομένων κατά τη σχεδίαση διαδικτυα- κών εργαλείων, προκειμένου να επιτύχουμε αναλύσεις πραγματικού χρόνου. ταυτόχρονα προσπαθούμε να καλύψουμε την ανάγκη για μια πλατφόρμα που διευκολύνει την ανα- παραγωγή και την κλιμακώσιμη εκτέλεση κιβωτιοποιημένου λογισμικού σε περιβάλλον Νέφους που αποτελείται από μηχανές με ετερογενή χαρακτηριστικά.

Description

Δ.Δ. 21

Keywords

Citation

Endorsement

Review

Supplemented By

Referenced By

Creative Commons license