Πληροφορίες

Ποια μεγέθη δειγμάτων είναι ιδανικά για τη διεξαγωγή Bayesian Skyline Plots;

Ποια μεγέθη δειγμάτων είναι ιδανικά για τη διεξαγωγή Bayesian Skyline Plots;


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Ενδιαφέρομαι να δημιουργήσω Οικόπεδα Bayesian Skyline για να εξετάσω τις δημογραφικές αλλαγές σε ορισμένες πληθυσμιακές ομάδες. Ωστόσο, αυτοί οι πληθυσμοί έχουν πολύ μικρή διακύμανση εντός του πληθυσμού. Περίπου 5 πολυμορφικές θέσεις σε κάθε πληθυσμό και ένας κυρίαρχος απλότυπος που αποτελεί σχεδόν το 90% του πληθυσμού (οι υπόλοιποι είναι σπάνιοι απλότυποι). Επειδή, το BSP χρησιμοποιεί διεργασίες Coalescent για τους υπολογισμούς, τα μεγέθη του δείγματος θα έχουν επίδραση στα αποτελέσματα. Ήθελα να μάθω αν μεγέθη δείγματος περίπου 30 (για ευθυγραμμίσεις DNA 700 bp) θα ήταν ιδανικά για τη διεξαγωγή της ανάλυσης και να περιμένω αρκετά καλά αποτελέσματα;


Βρήκα ένα άρθρο για το PLOS που μπορεί να βοηθήσει. Σε αυτό χρησιμοποίησαν παρόμοιους αριθμούς που σκοπεύετε να χρησιμοποιήσετε (αν κατανοήσω σωστά την ερώτησή σας και τα δεδομένα του άρθρου).

Η επίδραση του σχεδίου δειγματοληψίας διερευνήθηκε αντλώντας 40 δείγματα με τρεις διαφορετικούς τρόπους: 1) και τα 40 δείγματα από ένα μόνο deme, 2) 4 δείγματα από καθένα από τα 10 demes και 3) ένα δείγμα από καθένα από τα 40 demes στο δομημένο πληθυσμός. Αυτά αντιστοιχούν αντίστοιχα στα τοπικά, συγκεντρωμένα και διάσπαρτα

(παρμένο από το παραπάνω συνδεδεμένο άρθρο)

Έτσι, ανάλογα με το σενάριο δειγματοληψίας σας, τα 30 δείγματά σας φαίνεται να είναι εντάξει.

Επίσης, αυτός είναι ένας σύνδεσμος για το BEAST FAQ που μπορεί να είναι χρήσιμο.


Ποια μεγέθη δειγμάτων είναι ιδανικά για τη διεξαγωγή Bayesian Skyline Plots; - Βιολογία

Markov Chain Monte Carlo for Bayesian Inference - The Metropolis Algorithm

Markov Chain Monte Carlo για Bayesian Inference - The Metropolis Algorithm

Σε προηγούμενες συζητήσεις του Bayesian Inference εισαγάγαμε τη Bayesian Statistics και εξετάσαμε πώς να συμπεράνουμε μια διωνυμική αναλογία χρησιμοποιώντας την έννοια των συζυγών προηγούμενων. Συζητήσαμε το γεγονός ότι δεν μπορούν όλα τα μοντέλα να κάνουν χρήση συζυγών προηγούμενων και επομένως ο υπολογισμός της οπίσθιας κατανομής θα πρέπει να προσεγγιστεί αριθμητικά.

Σε αυτό το άρθρο παρουσιάζουμε την κύρια οικογένεια αλγορίθμων, γνωστών συλλογικά ως Markov Chain Monte Carlo (MCMC), που μας επιτρέπουν να προσεγγίσουμε την οπίσθια κατανομή όπως υπολογίζεται από το θεώρημα του Bayes. Συγκεκριμένα, εξετάζουμε τον Αλγόριθμο Metropolis, ο οποίος δηλώνεται εύκολα και είναι σχετικά απλός. Χρησιμεύει ως χρήσιμο σημείο εκκίνησης όταν μαθαίνετε για το MCMC πριν εμβαθύνετε σε πιο εξελιγμένους αλγόριθμους όπως το Metropolis-Hastings, το Gibbs Samplers και το Hamiltonian Monte Carlo.

Αφού περιγράψουμε πώς λειτουργεί το MCMC, θα το εκτελέσουμε χρησιμοποιώντας τη βιβλιοθήκη PyMC3 ανοιχτού κώδικα, η οποία φροντίζει για πολλές από τις υποκείμενες λεπτομέρειες υλοποίησης, επιτρέποντάς μας να επικεντρωθούμε στη μοντελοποίηση Μπεϋζιάν.

Εάν δεν έχετε ακόμη εξετάσει τα προηγούμενα άρθρα σχετικά με τα στατιστικά Bayesian, προτείνω να διαβάσετε τα παρακάτω πριν προχωρήσετε:


Ιστορικό

Οι ασθένειες των φυτών αποτελούν επίμονη απειλή για την παραγωγή τροφίμων λόγω της αξιοσημείωτης αύξησης της εμφάνισης και της εξάπλωσης νέων παθογόνων [1, 2]. Η κατανόηση των μηχανισμών και των χρονοδιαγραμμάτων που σχετίζονται με τις νέες επιδημίες είναι απαραίτητη τόσο για τις βασικές μελέτες όσο και για την εφαρμογή αποτελεσματικών μέτρων αντιμετώπισης [3]. Ένα θεμελιώδες συστατικό αυτής της γνώσης είναι η λεπτομερής κατανόηση σε κλίμακα γονιδιώματος της πληθυσμιακής δομής και της δυναμικής των παγκόσμιων πληθυσμών φυτικών παθογόνων [4,5,6]. Η γενετική πληροφορία πληθυσμού καθοδηγεί την επιλογή των απομονώσεων για δραστηριότητες τόσο διαφορετικές, όπως η βασική μηχανιστική έρευνα και ο έλεγχος φυτικών βλασμάτων για ανθεκτικότητα σε ασθένειες. Βοηθά επίσης στον εντοπισμό της προέλευσης των πανδημικών στελεχών και του εξελικτικού δυναμικού διαφορετικών πληθυσμών παθογόνων [7,8,9,10,11,12]. Η πλήρης κατανόηση της παγκόσμιας πληθυσμιακής δομής είναι απαραίτητη για κάθε πρόγραμμα επιτήρησης που στοχεύει στον γρήγορο εντοπισμό εισβολών παθογόνων σε νέες γεωγραφικές περιοχές. Επιπλέον, η πρόσφατη γνώση που αποκτήθηκε στη βιολογία των δραστών παθογόνων - εκκρινόμενων μορίων που ρυθμίζουν τις αποκρίσεις του ξενιστή - φέρνει μια άλλη διάσταση στο πλαίσιο της πληθυσμιακής γενετικής, καθώς επιτρέπει την αναδόμηση της εξελικτικής ιστορίας των χαρακτηριστικών λοιμογόνου δράσης και βοηθά στην καθοδήγηση της εξάπλωσης της νόσου -ανθεκτικές ποικιλίες [7, 13,14,15,16].

Τα μυκητιακά φυτικά παθογόνα ευθύνονται για

Το 10-80% των απωλειών των καλλιεργειών στη γεωργία και θεωρείται ως μια σημαντική απειλή για την παγκόσμια επισιτιστική ασφάλεια [1, 2, 17, 18]. Οι καλλιέργειες δημητριακών όπως το ρύζι, η βρώμη, το κεχρί, το κριθάρι και το σιτάρι έχουν αποτελέσει το θεμέλιο της σύγχρονης γεωργίας και την επιτυχία της ανθρωπότητας. Η σημερινή γεωργία αντιμετωπίζει την πρόκληση της διασφάλισης της παγκόσμιας επισιτιστικής ασφάλειας για έναν συνεχώς διευρυνόμενο παγκόσμιο πληθυσμό, ο οποίος εκτιμάται ότι θα ξεπεράσει τα 9 δισεκατομμύρια μέσα στα επόμενα 30 χρόνια [19]. Ο ασκομύκητας Μαγναπόρθε (Συν. Pyricularia) oryzae, ο αιτιολογικός παράγοντας της βλαστικής νόσου των δημητριακών, κατατάσσεται συχνά ως το πιο καταστροφικό μυκητιακό παθογόνο, προκαλώντας απώλειες στην παραγωγή ρυζιού που, εάν μετριαστούν, θα μπορούσαν να θρέψουν αρκετές εκατοντάδες εκατομμύρια ανθρώπους [1, 20]. Παρά το Linnean όνομά του, Μ. Oryzae είναι ένα παθογόνο πολλαπλών ξενιστών που μπορεί επίσης να προκαλέσει την βλαστική ασθένεια σε άλλες καλλιέργειες δημητριακών, ιδίως στο σιτάρι όπου πρόσφατα εξαπλώθηκε από τη Νότια Αμερική στο Μπαγκλαντές με αποτέλεσμα καταστροφικές εστίες [8, 21, 22]. Μ. oryzae αναπαράγει κυρίως ασεξουαλικά και απομονώσεις πεδίου του Μ. oryzae είναι απλοειδείς. Η ασεξουαλική αναπαραγωγή είναι ο κυρίαρχος τρόπος αναπαραγωγής σχεδόν σε όλες τις περιοχές καλλιέργειας ρυζιού, ωστόσο, τα γενετικά στοιχεία του πληθυσμού έχουν εντοπίσει πληθυσμούς σεξουαλικής αναπαραγωγής στη Νοτιοανατολική Ασία, υποδεικνύοντας ότι Μ. Oryzae πιθανότατα έχασε τη σεξουαλική αναπαραγωγή εκτός του κέντρου προέλευσής του [23].

Οι συγκριτικές αναλύσεις γονιδιωματικής έδωσαν πληροφορίες για τη δομή του πληθυσμού και την εξειδίκευση των ξενιστών Μ. Oryzae [24,25,26]. Αυτό το παθογόνο αποτελείται από ένα σύνθετο σύνολο γενετικά διακριτών γραμμών που τείνουν να σχετίζονται με συγκεκριμένα γένη ξενιστών [26]. Είναι αξιοσημείωτο ότι όλα τα απομονωμένα στελέχη που μολύνουν το ρύζι ανήκουν σε μια ενιαία γενετική γενεαλογία που πιστεύεται ότι προήλθε από απομονώσεις που μολύνουν το κεχρί αλεπονοουράς (Setaria italica και Σεταριά βιρίδη). Μ. oryzae Οι ειδικές για τον ξενιστή σειρές εμφανίζουν περιορισμένη γονιδιακή ροή αλλά επαναλαμβανόμενη γονιδιακή κέρδος/απώλεια ιδιαίτερα σε περιοχές του γονιδιώματος που συνδέονται με μετατιθέμενα στοιχεία [24, 25]. Όπως σε πολλά άλλα φυτικά παθογόνα, τα γονίδια τελεστές εμφανίζουν υψηλό βαθμό παρουσίας και απουσίας πολυμορφισμών και υπογραφών προσαρμοστικής εξέλιξης (π.χ. υψηλότερο ποσοστό μη συνωνύμων έναντι συνωνύμων μεταλλάξεων) [25]. Η απώλεια των λεγόμενων γονιδίων τελεστών AVR -ενεργοποιητές ανοσοαπόκρισης του ξενιστή- μπορεί να επηρεάσει δραματικά την ικανότητα του βλαστικού μύκητα επιτρέποντας τη λοιμογόνο δράση σε ανθεκτικούς γονότυπους ξενιστή [22, 27, 28].

Αν και η αλληλουχία γονιδιώματος του Μ. oryzae το στέλεχος 70-15 ήταν τη στιγμή της δημοσίευσής του το πρώτο γονιδίωμα παθογόνου μυκητιασικού φυτού που περιγράφηκε [29], χρειάστηκε περίπου μια δεκαετία μέχρι να αρχίσουν να αναφέρονται συγκρίσεις γονιδιωματικών αναλύσεων αυτού του παθογόνου [24, 25, 30]. Μέχρι πρόσφατα, η κατανόηση της δομής της γονιδιωματικής του πληθυσμού του μύκητα του ρυζιού παρέμενε περιορισμένη. Το 2018, δύο μελέτες ανέφεραν ολόκληρες αλληλουχίες γονιδιώματος από μη επικαλυπτόμενα σύνολα παγκόσμιων μολύνσεων ρυζιού Μ. oryzae απομονώνει [31, 32]. Και οι δύο μελέτες πρότειναν την παρουσία διαφορετικού πληθυσμού της Νοτιοανατολικής Ασίας και δύο μεγάλων κλωνικών ομάδων. Ωστόσο, λόγω δειγματοληψίας ή αναλυτικών περιορισμών, οι δύο μελέτες κατέληξαν σε διαφορετικά συμπεράσματα σχετικά με τη σύνθεση των πληθυσμών παγκοσμίως, δηλαδή τον αριθμό των γενετικών ομάδων και τις διαδικασίες που τις προκάλεσαν.

Εδώ, πραγματοποιήσαμε μια συνδυασμένη ανάλυση που βασίζεται στις μελέτες των Gladieux et al. [31] και Zhong et al. [32] για να εναρμονιστούν τα δύο σύνολα δεδομένων και να αυξηθεί ο αριθμός των εξετασθέντων Μ. oryzae άτομα σε 131 απομονωμένα άτομα από 21 χώρες. Αυτό μας επέτρεψε να αξιολογήσουμε την παγκόσμια γενετική δομή της μόλυνσης από το ρύζι Μ. oryzae πιο ολοκληρωμένη από τις προηγούμενες ξεχωριστές αναλύσεις των δύο συνόλων δεδομένων. Ανακαλύψαμε ότι ο παγκόσμιος πληθυσμός του μύκητα του ρυζιού αποτελείται κυρίως από τρεις σαφώς καθορισμένες γενετικές ομάδες και ένα διαφορετικό σύνολο ατόμων. Πολλαπλές γενετικές δοκιμές πληθυσμού αποκάλυψαν ότι ο μύκητας του ρυζιού πιθανότατα προήλθε από έναν ανασυνδυασμένο πληθυσμό στη Νοτιοανατολική Ασία, ακολουθούμενο από τρεις ανεξάρτητες κλωνικές επεκτάσεις που έλαβαν χώρα τα τελευταία

100-200 χρόνια. Μοτίβα κοινής χρήσης αλληλόμορφων εντόπισαν έναν υποπληθυσμό από την ομάδα ανασυνδυασμού που εισχώρησε σε μία από τις κλωνικές γενεές πριν από την παγκόσμια επέκτασή της. Είναι αξιοσημείωτο ότι οι γενετικές γενεαλογίες του μύκητα βλαστών ρυζιού ποικίλλουν ως προς τον αριθμό και τα πρότυπα παρουσίας και απουσίας εκκρινόμενης πρωτεΐνης που προβλέπονται ως τελεστές. Συγκεκριμένα, οι κλωνικές σειρές ορίζονται από συγκεκριμένα σύνολα τελεστών που μπορεί να έχουν διαμορφώσει την προσαρμογή τους στον ξενιστή του ρυζιού και την εξελικτική τους ιστορία.


Ιστορικό

Ένας από τους κύριους στόχους της εξελικτικής γενετικής είναι να διακρίνει τις εξελικτικές διαδικασίες που είναι υπεύθυνες για την οδήγηση και τη διαμόρφωση της γεωγραφικής κατανομής της γενετικής ποικιλίας των πληθυσμών, καθώς και την αποσύνδεση της προέλευσης της γενετικής τους δομής [1,2,3,4]. Ολοκληρωτικά στοιχεία από παλαιογεωγραφικές, παλαιοκλιματικές και φυλογεωγραφικές έρευνες έχουν φέρει σε βάθος γνώση σε αυτό το ζήτημα, επισημαίνοντας τη σημαντική επίδραση των κλιματικών αλλαγών του Πλειστόκαινου στη δημιουργία σύγχρονων γενετικών πολυμορφισμών [5,6,7,8].

Οι κυκλικές διακυμάνσεις της στάθμης της θάλασσας του Πλειστόκαινου πιστεύεται ότι επηρέασαν σημαντικά το παράκτιο περιβάλλον και την εξελικτική ιστορία της χλωρίδας της [5] και θεωρούνται ως μία από τις πιο σημαντικές διαδικασίες που εμπλέκονται στη διαμόρφωση της σύγχρονης γεωγραφικής κατανομής της γενετικής ποικιλότητας [6, 9] . Αξίζει να σημειωθεί ότι αυτά τα ιστορικά γεγονότα έχουν επηρεάσει σε μεγάλο βαθμό την κατανομή και την εξελικτική δυναμική των πληθυσμών [10, 11] μετά από επαναλαμβανόμενες συστολές και επεκτάσεις των θαλάσσιων οργανισμών. Έχει υποστηριχθεί ότι ο κατακερματισμός των οικοτόπων που προκαλείται από τη χαμηλότερη στάθμη της θάλασσας κατά τη διάρκεια των μεγίστων παγετώνων θα μπορούσε να οδηγήσει σε γενετική συμφόρηση, με γεωγραφικές απομονώσεις να παραμένουν σε παγετώδη καταφύγια και επομένως σε μια ετερογενή πληθυσμιακή δομή. Φυλογεωγραφικές έρευνες σε διάφορα μέρη του πλανήτη έχουν τεκμηριώσει τέτοια μοτίβα και επέτρεψαν την ανάκτηση κρυπτικών καταφυγίων σε πολλά θαλάσσια είδη, όπως στα φύκια Palmaria palmata πέρα από τη Μάγχη της Αγγλίας [12] και το καφέ άλγη Πολυκύστωμα Sargassum στην νότια κινεζική ακτή [13]. Η εμφάνιση φυλογεωγραφικών θραυσμάτων μαζί με γενετικά αποτυπώματα παγετώνων έχουν επίσης επικαλεστεί σε πληθυσμιακές γενετικές μελέτες θαλάσσιων ειδών του Ανατολικού Ατλαντικού και της Μεσογείου, όπως στα γαστερόποδα Nassarius nitidus [14] και το πράσινο καβούρι Carcinus aestuarii [8]. Αντίθετα, η επέκταση της εμβέλειας που προκαλείται από την άνοδο της στάθμης της θάλασσας, μετά την υπερθέρμανση του περιβάλλοντος κατά τη διάρκεια των μεσοπαγετώνων, θα μπορούσε να οδηγήσει σε ταχεία αύξηση πληθυσμού και επακόλουθη γενετική ομοιογένεια ως αποτέλεσμα δευτερογενούς επαφής μεταξύ προηγουμένως απομονωμένων εξελικτικών γενεών [11]. Ο αντίκτυπος αυτών των ιστορικών παραγόντων, που εντάθηκαν από τις επιπτώσεις των σύγχρονων περιβαλλοντικών και ωκεανογραφικών κλίσεων, θα μπορούσε ενδεχομένως να έχει εμπλακεί στη διαμόρφωση της σημερινής γενετικής ποικιλότητας και της δομής του πληθυσμού στα θαλάσσια είδη [8, 15].

Η Μεσόγειος Θάλασσα και ο συνεχόμενος βορειοανατολικός Ατλαντικός Ωκεανός αντιπροσωπεύουν μια κατάλληλη περιοχή για τη μελέτη βιογεωγραφικών διεργασιών και τη διερεύνηση των εξελικτικών προτύπων διαφοροποίησης στα θαλάσσια είδη [2, 8, 16]. Πράγματι, οι σοβαρές παλαιογεωγραφικές και παλαιοκλιματικές αλλαγές που έχει υποστεί αυτή η περιοχή σε όλη την ιστορία της, με αποτέλεσμα την εμφάνιση συγκεκριμένων ωκεανογραφικών χαρακτηριστικών σε όλη την ακτογραμμή της, έχουν θέσει το έδαφος για τον αντίκτυπο των εξελικτικών και δημογραφικών διαδικασιών στη σφυρηλάτηση γενετικής ποικιλότητας των θαλάσσιων ειδών [14. , 17]. Πρόσφατες φυλογεωγραφικές έρευνες έδωσαν στοιχεία για την εμφάνιση έντονων γενετικών ορίων μεταξύ του Ανατολικού Ατλαντικού και της δυτικής Μεσογείου και μεταξύ των λεκανών της Δυτικής και της Ανατολικής Μεσογείου [2, 8, 15, 18,19,20,21,22]. Περαιτέρω έντονα γενετικά σπασίματα έχουν επίσης τεκμηριωθεί στην ανατολική Μεσόγειο, κυρίως μεταξύ της Αδριατικής-Ιονίου θάλασσας και του Αιγαίου-Μαρμαρά-Μαύρου πελάγους [1, 8, 22,23,24,25,26].

Οι προαναφερθείσες βιογεωγραφικές ενότητες θα μπορούσαν να προκύψουν από τις επιπτώσεις ιστορικών, υδρογραφικών και περιβαλλοντικών διεργασιών. Από ιστορική άποψη, μια αξιοσημείωτη πτώση της στάθμης της θάλασσας κατά τη διάρκεια των κορυφών του Πλειστόκαινου παγετώνα [27] θα μπορούσε να προκάλεσε αλλαγές στα πρότυπα κυκλοφορίας στους κύριους θαλάσσιους διαδρόμους και κατά συνέπεια να διαταράξει τη βιοτική ανταλλαγή τόσο στα στενά του Γιβραλτάρ όσο και στα Σικουλο-Τυνησιακά στενά, οδηγώντας σε δραματικές αλλαγές στο εύρος των ειδών [19, 28, 29]. Κατά συνέπεια, τα περισσότερα από τα τρέχοντα γενετικά πρότυπα των θαλάσσιων παράκτιων οργανισμών θα μπορούσαν να έχουν επηρεαστεί από προηγούμενα συμβάντα, λόγω του περιοδικού κλεισίματος των διαδρόμων που εμπόδιζαν την ανταλλαγή προνυμφών και τη ροή γονιδίων [29]. Αυτή η υπόθεση έχει παγιωθεί από το αποτέλεσμα πρόσφατων φυλογεωγραφικών ερευνών που έχουν εντοπίσει θαλάσσια καταφύγια του Πλειστόκαινου χαμηλότερου γεωγραφικού πλάτους, όπως στην περίπτωση του ιππόκαμπου Ιππόκαμπος ιππόκαμπος [30] και το μεσοπαλιρροιακό γαστερόποδο Nassarius nitidus [14]. Εκτός από τον πιθανό αντίκτυπο των τεταρτογενών κλιματικών διακυμάνσεων (που μπορεί να έχουν αφήσει ισχυρό αποτύπωμα στη γενετική δομή των θαλάσσιων ειδών του Άτλαντο-Μεσογείου), τα σύγχρονα ωκεανογραφικά χαρακτηριστικά (δηλ. μετωπικά συστήματα και ωκεάνια ρεύματα) καθώς και σταδιακές αλλαγές στα αβιοτικά παράγοντες (δηλαδή, η θερμοκρασία και η αλατότητα) θα μπορούσαν επίσης να εμπλέκονται στη διακοπή της συνδεσιμότητας του πληθυσμού [15, 18, 31]. Πράγματι, τα σύγχρονα εμπόδια στη ροή των γονιδίων συνδέονται κυρίως με το Ωκεανογραφικό Μέτωπο Almeria-Oran (που οφείλεται στην παρατηρούμενη φυλογεωγραφική διάσπαση μεταξύ Ανατολικού Ατλαντικού και Μεσογείου Θάλασσας) [19, 32], καθώς και με τα συγκεκριμένα πρότυπα υδρογραφικής απομόνωσης σε ολόκληρο το Siculo- Τυνησιακό Στενό [33] υπεύθυνο για την οδήγηση της γενετικής διαφοροποίησης του πληθυσμού μεταξύ των λεκανών της Δυτικής και της Ανατολικής Μεσογείου [4]. Επιπλέον, η πιθανή αλληλεπίδραση μεταξύ ωκεανογραφικών (που περιλαμβάνει κυρίως τις απομονωτικές επιδράσεις του αντικυκλωνικού μετώπου της Πελοποννήσου [34] και του ρεύματος της Μαύρης Θάλασσας) και της περιβαλλοντικής απομόνωσης της Αδριατικής, του Ιονίου και του Αιγαίου έχει θεωρηθεί ότι εξηγεί τη γενετική ασυνέχεια που καταγράφεται στην ανατολική Μεσόγειος [19, 23, 25].

Μεταξύ των θαλάσσιων ζώντων της Ατλαντο-Μεσογείου, τα διαπαλιρροιακά θαλάσσια είδη είναι ακόμη λιγότερο διερευνημένα ως προς τη φυλογεωγραφική τους δομή και την εξελικτική ιστορία τους. Επιπλέον, οι σύγχρονες χωρικές κατανομές της γενετικής τους ποικιλότητας πιστεύεται ότι έχουν διαμορφωθεί από την επίδραση των κλιματικών ταλαντώσεων του Πλειστόκαινου [35]. Ως εκ τούτου, η πληθυσμιακή γενετική έρευνα των διαπαλιρροιακών θαλάσσιων ειδών θα βοηθούσε όχι μόνο στην αξιολόγηση του πιθανού αντίκτυπου των υποτιθέμενων βιογεωγραφικών ορίων στον Ανατολικό Ατλαντικό και τη Μεσόγειο, αλλά και στην αποκάλυψη της επίδρασης των μικροεξελικτικών διεργασιών (συμπεριλαμβανομένου του κατακερματισμού που προκαλείται από παγετώνες και της επαγόμενης από τον παγετώνα επανααποικισμού) σφυρηλάτηση μοτίβων γενετικής μεταβλητότητας και δομής.

Το κονδυλώδες καβούρι Eriphia verrucosa (Forskål, 1775) (Decapoda, Brachyura, Eriphiidae) αντιπροσωπεύει ένα καλό μοντέλο για την αντιμετώπιση των προαναφερθέντων ζητημάτων. Αυτός ο παράκτιος δεκάποδος είναι ένα από τα πιο σημαντικά οικολογικά παράκτια είδη, που διαδραματίζει κρίσιμο ρόλο στη δόμηση των παλιρροϊκών κοινοτήτων, ως εξαιρετικά αρπακτικό καβούρι της ακτής [36, 37]. Έχει ευρεία γεωγραφική κατανομή, που εκτείνεται από τη Μεσόγειο Θάλασσα (συμπεριλαμβανομένης της Μαύρης Θάλασσας) έως τον Ανατολικό Ατλαντικό Ωκεανό από τη Βρετάνη έως τη Μαυριτανία και τις Αζόρες [38, 39]. Το είδος κατοικεί σε πετρώδεις παράκτιες ζώνες και καταλαμβάνει υποθαλάσσιες ρωγμές σε σκιώδεις ζώνες με καλά ανεπτυγμένη κάλυψη φυκιών. Εμφανίζεται κυρίως στην κατώτερη μεσοπυροβόλο ζώνη (είναι πιο άφθονη στις υπέρυθρες και μεσογλωτιαίες ζώνες παρά στον υπερβολικό τόπο) [39] όπου μπορεί να συναντηθεί ανάμεσα σε πέτρες και φύκια κατά μήκος βραχώδεις ακτές σε ρηχά νερά έως βάθη 15 μέτρων [40] . Η αναπαραγωγή του E. verrucosa αρχίζει τον Μάιο ή τον Ιούνιο [41]. Η ωοτοκία γίνεται από τα τέλη Ιουλίου έως τα τέλη Αυγούστου [42], ανάλογα με τη θερμοκρασία του νερού. Το κονδυλώδες καβούρι θεωρείται πολύ παραγωγικό, χαρακτηριζόμενο από υψηλή γονιμότητα [41,42,43]. Το δυναμικό διασποράς του είδους είναι πιθανότατα υψηλό, αφού η πλήρης ανάπτυξη των προνυμφών λαμβάνει χώρα στον ωκεανό με τέσσερα ζωικά στάδια και ένα στάδιο μεγαλόπας [44]. Σύμφωνα με την πειραματική μελέτη που πραγματοποιήθηκε από τους Lumare και Gozzo [44], η ανάπτυξη των προνυμφών του E. verrucosa μπορεί να διαρκέσει 49 ημέρες σε θερμοκρασία 21 °C. Λαμβάνοντας υπόψη όλες αυτές τις οικολογικές πτυχές, η γενετική ομοιογένεια και η πανμιξία θα μπορούσαν να αναμένονται μεταξύ των πληθυσμών αυτού του είδους καρκινοειδών. Ωστόσο, πρόσφατες φυλογεωγραφικές έρευνες, που πραγματοποιήθηκαν σε άλλα είδη δεκάποδων του Άτλαντο-Μεσογείου (με παρόμοια χαρακτηριστικά της ιστορίας της ζωής E. verrucosa), αποκάλυψε περιορισμένα πρότυπα ροής γονιδίων, όπως στο πράσινο καβούρι Carcinus aestuarii [4, 8], το μαρμαρωμένο καβούρι Pachygrapsus marmoratus [21] και η παράκτια γαρίδα Palaemon elegans [2, 15]. Το αποτέλεσμα αυτών των μελετών κατέδειξε τη συμμετοχή άλλων παραγόντων, όπως ιστορικές διαδικασίες απομόνωσης, σύγχρονες ωκεανογραφικές ασυνέχειες καθώς και συμπεριφορά προνυμφών, στη διαμόρφωση προτύπων της γενετικής δομής του πληθυσμού των παράκτιων δεκάποδων.

Υπό το πρίσμα αυτών των εκτιμήσεων, σε αυτή τη μελέτη διερευνήσαμε τα ακόλουθα ερωτήματα: (1) Μπορούν τα κύρια εικαζόμενα εμπόδια στη ροή γονιδίων που εκτείνονται στον Ανατολικό Ατλαντικό και τη Μεσόγειο Θάλασσα να περιορίσουν τη γονιδιακή ροή μεταξύ των πληθυσμών E. verrucosa επιτρέποντας την εμφάνιση σημαντικών μοτίβων της γενετικής δομής του πληθυσμού; (2) Η παλαιοκλιματική και παλαιογεωγραφική εξέλιξη της γεωγραφικής περιοχής που ερευνήθηκε κατά τη διάρκεια του Τεταρτογενούς επηρέασε σημαντικά τη σύγχρονη χωρική κατανομή των γενετικών πολυμορφισμών και τις παραλλαγές τους στο χώρο και το χρόνο και ποιες είναι οι πιθανές εξελικτικές διαδικασίες που πιθανόν να εμπλέκονται στη διαμόρφωση της γενετικής ποικιλότητας και να επηρεάσουν τη χωρική γενετική δομή μέσα σε αυτό το είδος του δεκάποδου; Για να απαντήσουμε σε αυτά τα ερωτήματα, εξετάσαμε τη μιτοχονδριακή φυλογεωγραφία του είδους και ανακατασκευάσαμε την εξελικτική και δημογραφική του ιστορία. Μια εντατική δειγματοληψία του E. verrucosa διεξήχθη από ολόκληρο το εύρος κατανομής του, που εκτείνεται από τον Ανατολικό Ατλαντικό έως τη Μαύρη Θάλασσα (Εικ. 1 και Πίνακας 1), και δημιουργήθηκαν και συγκρίθηκαν αλληλουχίες του γονιδίου της υπομονάδας 1 της μιτοχονδριακής κυτοχρωμικής οξειδάσης (Cox1). Κατά την ενίσχυση αυτού του δείκτη στα δείγματα του δείγματος, βεβαιωθήκαμε ότι δειγματίσαμε την περιοχή του γονιδίου που έχει αποδειχθεί ότι είναι αρκετά μεταβλητή ώστε να αποκαλυφθεί σημαντική γενετική διαφοροποίηση σε προηγούμενες μελέτες σε θαλάσσια δεκάποδα [8, 15, 16]. Επιπλέον, η χρήση αυτού του δείκτη μας επέτρεψε να ενσωματώσουμε όλες τις προηγούμενες δημοσιευμένες ακολουθίες Cox1 στις αναλύσεις, προκειμένου να αυξήσουμε το μέγεθος του συνόλου δεδομένων που εξετάστηκε. Ωστόσο, δεδομένου ότι αναλύθηκε μόνο μικρό μέρος του γονιδιώματος του mtDNA, συνδυάσαμε διάφορα αναλυτικά εργαλεία προκειμένου να ανακτήσουμε τη μέγιστη ποσότητα πληροφοριών που περιέχονται στο mtDNA σε διαφορετικά ιεραρχικά επίπεδα (γενεαλογία, φυλογεωγραφική δομή, βαθμονομημένη φυλογένεση, ανακατασκευή προγονικής περιοχής και ιστορική δημογραφία). Αν και η αποκλειστική χρήση μονογονικά κληρονομούμενων δεικτών μπορεί να παρέχει μια παραμορφωμένη κατανόηση της φυλογεωγραφικής δομής, το μικρότερο αποτελεσματικό μέγεθος πληθυσμού του mtDNA σε σύγκριση με τους πυρηνικούς τόπους καθιστά το mtDNA κατάλληλο μοριακό δείκτη για την ανακατασκευή των εξελικτικών ιστοριών των ειδών [45].


2. Τα εγγενή ελαττώματα στις στατιστικές συχνοτήτων

Μέχρι εδώ, είδαμε μόνο ένα ελάττωμα στατιστικές συχνοτήτωνΤο Λοιπόν, είναι μόνο η αρχή.

Ο 20ός αιώνας είδε μια τεράστια έξαρση στο στατιστικές συχνοτήτων Εφόσον εφαρμόζεται σε αριθμητικά μοντέλα για να ελεγχθεί εάν το ένα δείγμα είναι διαφορετικό από το άλλο, μια παράμετρος είναι αρκετά σημαντική ώστε να διατηρείται στο μοντέλο και σε διάφορες άλλες εκδηλώσεις του ελέγχου υποθέσεων. Αλλά στατιστικές συχνοτήτων υπέστη μερικά μεγάλα ελαττώματα στον σχεδιασμό και την ερμηνεία του, τα οποία αποτελούσαν σοβαρή ανησυχία σε όλα τα προβλήματα της πραγματικής ζωής. Για παράδειγμα:

1. Οι τιμές p που μετρώνται σε σχέση με ένα στατιστικό δείγμα (σταθερό μέγεθος) με κάποιες αλλαγές πρόθεσης διακοπής με την αλλαγή στην πρόθεση και το μέγεθος του δείγματος. Δηλαδή, εάν δύο άτομα εργάζονται στα ίδια δεδομένα και έχουν διαφορετική πρόθεση διακοπής, μπορεί να λάβουν δύο διαφορετικές τιμές p για τα ίδια δεδομένα, κάτι που δεν είναι επιθυμητό.

Για παράδειγμα: Το άτομο Α μπορεί να επιλέξει να σταματήσει να πετάει ένα νόμισμα όταν ο συνολικός αριθμός φτάσει τα 100 ενώ το Β σταματάει στο 1000. Για διαφορετικά μεγέθη δειγμάτων, λαμβάνουμε διαφορετικές βαθμολογίες t και διαφορετικές τιμές p. Ομοίως, η πρόθεση διακοπής μπορεί να αλλάξει από σταθερό αριθμό αναστροφών σε συνολική διάρκεια αναστροφής. Και σε αυτήν την περίπτωση, είναι βέβαιο ότι θα διαφέρουμε p-τιμές.

2- Το διάστημα εμπιστοσύνης (C.I) όπως η τιμή p εξαρτάται σε μεγάλο βαθμό από το μέγεθος του δείγματος. Αυτό καθιστά το δυναμικό διακοπής απολύτως παράλογο, καθώς ανεξάρτητα από το πόσα άτομα κάνουν τις δοκιμές στα ίδια δεδομένα, τα αποτελέσματα πρέπει να είναι συνεπή.

3- Τα διαστήματα εμπιστοσύνης (C.I) δεν είναι κατανομές πιθανοτήτων, επομένως δεν παρέχουν την πιο πιθανή τιμή για μια παράμετρο και τις πιο πιθανές τιμές.

Αυτοί οι τρεις λόγοι είναι αρκετοί για να σας κάνουν να σκεφτείτε τα μειονεκτήματα του συχνότητα προσέγγισης και γιατί υπάρχει ανάγκη για bayesian προσέγγισηΤο Ας το μάθουμε.

Από εδώ, θα καταλάβουμε πρώτα τα βασικά της Bayesian Statistics.


Εισαγωγή

Τα φυσικά χαρακτηριστικά του τοπίου, όπως τα ποτάμια, μπορούν να λειτουργήσουν ως γενετικά όρια και να διαμορφώσουν τη δομή του πληθυσμού των ζώων, επειδή μπορούν να λειτουργήσουν ως σημαντικό γεωγραφικό εμπόδιο στη διασπορά και τη ροή γονιδίων (Funk et al., 2001 Whiteley, Spruell & Allendorf, 2004 Coulon et. al., 2004 Hartl et al., 2005 Coulon et al., 2006 Wang et al., 2015). Επιπλέον, έχει βρεθεί ότι τα ποτάμια επηρεάζουν τη γενετική δομή και την πληθυσμιακή απόκλιση σε διάφορα είδη (Gaines et al., 1997 Nupp & Swihart, 1998 Grubb, 2001 Bergl & Vigilant, 2007). Μέχρι στιγμής, τα ποτάμια έχουν αναγνωριστεί ως εμπόδιο στη ροή των γονιδίων σε διάφορες ταξινομικές ομάδες, όπως τα μικρά θηλαστικά (Lugon-Moulin & Hausser, 2002), τα ερπετά (Mockford et al., 2007 Zhao et al., 2011) και ακόμη και στα πουλιά (Fernandes et al., 2013). Στην Ευρώπη, μεγάλα ή μικρά ποτάμια εμποδίζουν τη διασπορά και την κίνηση στον ευρωπαϊκό ασβό (Meles meles) (Frantz et al., 2010). Ακόμη και για ορισμένα μεγάλα θηλαστικά, όπως ο γκρίζος λύκος, Κυνικός λύκος (Carmichael et al., 2001), το γιγάντιο πάντα, Ailuropoda melanoleuca (Zhu et al., 2011) και το ελάφι με λευκή ουρά, Odocoileus virginianus (Robinson et al., 2012), τα ποτάμια εξακολουθούσαν να παρουσιάζουν σημαντικά όρια στη διασπορά και τη ροή των γονιδίων, παρά την υψηλή κινητικότητά τους. Και επιπλέον, οι Hayes & Sewlal (2004) βρήκαν ότι ο ποταμός Αμαζόνιος είναι ένα αποτελεσματικό φράγμα διασποράς για τα μυρμήγκια (Thamnophilidae). Γενικά, τα ποτάμια μπορούν πράγματι να διευκολύνουν τη ροή γονιδίων σε ορισμένα αμφίβια (Spear et al., 2005).

Ο ποταμός Yangtze, ο τρίτος μεγαλύτερος ποταμός στον κόσμο, ρέει από τα δυτικά προς τα ανατολικά πριν εισέλθει στη Θάλασσα της Ανατολικής Κίνας (Chen et al., 2001). Το ευρύ κανάλι, η ταραχώδης ροή και οι πολλοί απότομοι βράχοι το έκαναν φυσικό γεωγραφικό φράγμα για ορισμένα ζώα, συμπεριλαμβανομένων των οικιακών ποντικών, Mus musculus (Jing et al., 2014), και πρώτοι άνθρωποι (Lynn, 1997 Chu et al., 1998 Su et al., 1999). Ακόμη και ορισμένοι παραπόταμοι του ποταμού Yangtze λειτουργούν επίσης ως σημαντικό γεωγραφικό φράγμα. Για παράδειγμα, ο ποταμός Dadu είχε λειτουργήσει ως το σημαντικό γενετικό όριο μεταξύ του πληθυσμού Daxiangling και του πληθυσμού Xiaoxiangling του γιγάντιου πάντα (Zhu et al., 2011). Στη νοτιοδυτική Κίνα, το χαμηλότερο σημείο του ποταμού Yalong είχε σημαντική επίδραση φραγμού στον ξύλινο βάτραχο οροπέδιο, Ράνα Κουκουνόρη (Zhao, Dai & Fu, 2009). Ωστόσο, για ορισμένα μεγάλα ζώα, ο ποταμός Yangtze δεν ήταν ένα ανυπέρβλητο γεωγραφικό εμπόδιο. Για παράδειγμα, οι αδύναμες πληθυσμιακές διαφοροποιήσεις μεταξύ του πληθυσμού της Νότιας Κίνας και του πληθυσμού του αγριόχοιρου της Βόρειας Κίνας (Sus scrofa) έδειξε ότι ο ποταμός Yangtze δεν αποτελούσε αποτελεσματικό γεωγραφικό φράγμα για τον αγριόχοιρο (Zhang et al., 2008). Ομοίως, οι Shi et al. (2010) αποκάλυψε υψηλό επίπεδο γονιδιακής ροής μεταξύ των δύο γειτονικών κινεζικών muntjac (Muntiacus reevesi) πληθυσμοί που χωρίζονται από τον ποταμό Yangtze, γεγονός που έδειξε ότι ο ποταμός Yangtze δεν ήταν ούτε ένα αποτελεσματικό γεωγραφικό εμπόδιο για τους Κινέζους muntjac.

Το φουντωτό ελάφι (Elaphodus cephalophus) είναι ιθαγενές είδος στην κεντρική και νοτιοδυτική Κίνα (Εικ. 1), από τα βουνά Hengduan, τις κορυφές γύρω από τη λεκάνη Szechwan και τα βουνά Qingling νοτιοανατολικά έως τα βουνά Wuyishan (Sheng & Lu, 1982 Sheng et al., 1992 Wang, 2003). Το φουντωτό ελάφι είναι ένα συνεσταλμένο ζώο, κυρίως μοναχικό ή βρίσκεται σε ζευγάρια. Κατοικεί σε ορεινό έδαφος με καλή κάλυψη (Sheng et al., 1992). Τις τελευταίες δεκαετίες, οι άγριοι πληθυσμοί των φουντωτών ελαφιών έχουν μειωθεί απότομα λόγω του υπερβολικού κυνηγιού από τους ντόπιους για κρέας και δέρμα και υποβάθμιση των οικοτόπων (Zhang & Wei, 2007). Επί του παρόντος, τα φουντωτά ελάφια κατηγοριοποιούνται ως «Σχεδόν απειλούμενα» (NT) από τη Διεθνή Ένωση για τη Διατήρηση της Φύσης (2015). Η κατανόηση της εξελικτικής ιστορίας και της δημογραφίας του πληθυσμού μαζί με την τρέχουσα γενετική δομή και ποικιλομορφία τους, συμπεριλαμβανομένων των γεωγραφικών παραλλαγών, επιτρέπει την αποτελεσματική διατήρηση και διαχείριση των απειλούμενων ειδών (Avise, 1989 Smith, Bruford & Wayne, 1993 O'Brien, 1994 Beaumont & Bruford, 1999 et al., 2002 Zhang et al., 2007 Bu, Liu & amp Nie, 2014). Δυστυχώς, δεν έχουν ακόμη εφαρμοστεί αποτελεσματικά μέτρα διατήρησης για τα φουντωτά ελάφια (Wu et al., 2007) και, μέχρι τώρα, λίγες μελέτες διερεύνησαν το γενετικό προφίλ των φουντωτών ελαφιών και τις πιθανές επιπτώσεις που επέβαλε σε αυτό ο ποταμός Yangtze .

Εικόνα 1: Η γεωγραφική κατανομή του φουντωτού ελαφιού (Elaphodus cephalophus).

Είναι ευρέως γνωστό ότι τα πρότυπα διασποράς ή γονιδιακής ροής μπορούν να επηρεάσουν σε μεγάλο βαθμό το εξελικτικό και προσαρμοστικό δυναμικό των πληθυσμών (Slatkin, 1987). Στην παρούσα μελέτη, επιχειρούμε να διερευνήσουμε την επίδραση φραγμού του ποταμού Γιανγκτσέ στα φουντωτά ελάφια. Καταγράφηκε ότι τα βουνά Wulingshan και Dabashan φιλοξενούν μεγάλους πληθυσμούς φουντωτών ελαφιών (Sheng et al., 1992), που απομονώνονται μεταξύ τους από τον ποταμό Yangtze (Εικ. 1), επομένως θα πρέπει να είναι η βέλτιστη περιοχή για να πραγματοποιηθεί αυτό. μελέτη. Σε αυτή τη μελέτη, ενσωματώσαμε δεδομένα που προέρχονται από την αλληλουχία της περιοχής ελέγχου mtDNA (CR) και 13 πυρηνικούς μικροδορυφορικούς τόπους και διερευνήσαμε το γενετικό προφίλ των πληθυσμών φουντωτών ελαφιών. Επιπλέον, αξιολογήσαμε την επίδραση που είχε ο ποταμός Yangtze στη γενετική δομή και τη γονιδιακή ροή του φουντωτού ελαφιού. Τα ευρήματα θα πρέπει να είναι χρήσιμα για στρατηγικές διατήρησης και διαχείρισης και να δίνουν προτεραιότητα στα αποτελέσματα της διαχείρισης σε άλλους πληθυσμούς.


ΕΥΧΑΡΙΣΤΙΕΣ

Τα ευρήματα και τα συμπεράσματα σε αυτό το άρθρο είναι αυτά των συγγραφέων και δεν αντιπροσωπεύουν απαραίτητα τις απόψεις της Υπηρεσίας ishαριού και Άγριας Ζωής των Ηνωμένων Πολιτειών, του Υπουργείου Γεωργίας των Ηνωμένων Πολιτειών (USDA) —Agricultural Research Service ή του Bureau of Land Management. Ευχαριστούμε τους K. E. Doherty, D. Gibson και C. P. Kirol για την παροχή συνοπτικών στατιστικών που δεν αναφέρονται σε δημοσιευμένα έγγραφα. Αυτή η έρευνα υποστηρίχθηκε από το USDA, το Working Lands for Wildlife της Υπηρεσίας Διατήρησης Φυσικών Πόρων.


ΒΟΗΘΗΤΙΚΕΣ ΠΛΗΡΟΦΟΡΙΕΣ

Μπορείτε να βρείτε πρόσθετες υποστηρικτικές πληροφορίες στην ηλεκτρονική έκδοση αυτού του άρθρου στον ιστότοπο του εκδότη.

Πίνακας S1.1. Εκκινητές που χρησιμοποιούνται για ενίσχυση PCR και προσδιορισμό αλληλουχίας.

Πίνακας S1.2. Η GenBank παρήγαγε και δημιούργησε δεδομένα ακολουθίας. Οι κωδικοί υποδεικνύουν αριθμούς προσχώρησης στη GenBank. Πανομοιότυποι κωδικοί σε διπλανές στήλες για Ascaphus truei και Leiopelma archeyi αντιπροσωπεύουν δειγματοληψία ανεξάρτητων τμημάτων του μιτοχονδριακού γονιδιώματος των ίδιων δεδομένων προσχώρησης. Μια παύλα (–) υποδηλώνει δεδομένα αλληλουχίας που δεν χρησιμοποιούνται ή δεν είναι διαθέσιμα/λήφθηκαν. Ένα αστέρι (*) υποδεικνύει δεδομένα αλληλουχίας που δημιουργήθηκαν από αυτήν τη μελέτη.

Πίνακας S1.3. Σχήματα διαμερισμάτων και μοντέλα υποκατάστασης επιλεγμένα από το PartitionFinder v.1.1.1 ( Lanfear et al., 2012) χρησιμοποιώντας το κριτήριο AIC για αναλύσεις Bayesian (BEAST2/*BEAST). Οι θέσεις κωδικονίων βρίσκονται σε παρένθεση.

Πίνακας S1.4. Τα Taxa που χρησιμοποιούνται ως σύνθετα υλικά στις αναλύσεις *BEAST.

Πίνακας S1.5. Τα όρια ειδών/πληθυσμών που συνάγονται από την ανάλυση Bayesian Poisson Tree Processes (bPTP). Ως δέντρο εισόδου χρησιμοποιήθηκε η φυλογένεση του BEAST2 mtDNA. Οι μεταγενέστερες πιθανότητες (PP) της μέγιστης πιθανότητας και οι αναλύσεις Bayes ήταν πανομοιότυπες. Οι πληθυσμοί παρατίθενται με σειρά κόμβων σύμφωνα με τη φυλογένεση (Εικ. 2 στο κύριο κείμενο).

Πίνακας S1.6. Δημογραφικές δοκιμές πληθυσμού για τα Sooglossidae. Θετικές αξίες του Tajima ρε και του Fu φάμικρό υποδεικνύουν σταθερή δομή πληθυσμού, επιλογή εξισορρόπησης ή πρόσφατη μείωση πληθυσμού, οι αρνητικές τιμές υποδεικνύουν θετική επιλογή ή υποδηλώνουν στοιχεία πρόσφατης πληθυσμιακής επέκτασης. Της Τατζίμα ρε και R 2 ερμηνεύονται ως σημαντικά στο Π < 0,05, Fu's φάμικρό στο Π < 0,02.

Πίνακας S1.7. Αποτελέσματα εκτεταμένης γραφικής παράστασης Bayesian Skyline (EBSP) για πληθυσμούς sooglossid. Τα αποτελέσματα είναι το 95% υψηλότερο διάστημα οπίσθιας πυκνότητας (HPD) για αλλαγές μεγέθους πληθυσμού από όλους τους τόπους σε συνδυασμένη ανάλυση. Το σταθερό μέγεθος πληθυσμού δεν μπορεί να απορριφθεί εάν το διάστημα HPD 95% περιλαμβάνει 0. Το σύμβολο συν (+) υποδηλώνει επέκταση πληθυσμού. Τα χαμηλά μεγέθη δειγμάτων μπορεί να οδηγήσουν σε αναξιόπιστα αποτελέσματα EBSP (Heller & Siegismund, 2013) και δεν ελήφθησαν σταθερές τιμές ESS για τον πληθυσμό Silhouette του Σεχελοφρύνη γαρντινέρι μέχρι να αφαιρέσουμε τους υποεκπροσωπούμενους τόπους (pomc, κουρέλι1, rho).

Εικόνα S1.1. Μέγιστη πιθανότητα συναγόμενης φυλογένεση μιτοχονδριακού DNA των Sooglossidae. Leiopelmatoidea (Leiopelma+Ascaphus) rooted outgroup. Η υποστήριξη διακλάδωσης υποδεικνύεται από τις τιμές μέγιστης πιθανότητας εκκίνησης (BS). Η γραμμή κλίμακας υποδεικνύει αντικαταστάσεις ανά τοποθεσία.

Εικόνα S1.2. Ο Bayesian συνήγαγε τη φυλογένεση του μιτοχονδριακού DNA των Sooglossidae χρησιμοποιώντας το δέντρο Yule πριν από το BEAST2. Η υποστήριξη διακλάδωσης υποδεικνύεται από Bayesian posterior probabilities (PP). Η γραμμή κλίμακας υποδεικνύει αντικαταστάσεις ανά τοποθεσία.

Εικόνα S1.3. Εκτεταμένη Bayesian Skyline Οικόπεδα μεγέθους πληθυσμού με την πάροδο του χρόνου για Sooglossus sechellensisΤο Η πλήρης όψη του οπίσθιου μέρους όλων των δειγμάτων που συνοψίζονται από τη διάμεσο και το 95% διάστημα HPD εμφανίζεται για τους πληθυσμούς Mahé (πάνω), Praslin (κέντρο) και Silhouette (κάτω). Οι βάτραχοι Praslin είναι ο μόνος πληθυσμός που δεν υποστηρίζει σταθερό μέγεθος πληθυσμού. Οι αναλύσεις EBSP περιλάμβαναν και τους έξι τόπους. Χρόνος στο Χ-ο άξονας είναι σε εκατομμύρια χρόνια. Πληθυσμός στο yΟ -άξονας αντιπροσωπεύει το πραγματικό μέγεθος πληθυσμού υποθέτοντας ένα χρόνο παραγωγής 1 έτους.

Εικόνα S1.4. Εκτεταμένη Bayesian Skyline Οικόπεδα μεγέθους πληθυσμού με την πάροδο του χρόνου για Sooglossus thomassetiΤο Η πλήρης όψη του οπίσθιου μέρους όλων των δειγμάτων που συνοψίζονται από το διάμεσο και το 95% διάστημα HPD εμφανίζεται για τους πληθυσμούς Mahé (πάνω) και Silhouette (κάτω). Οι αναλύσεις EBSP περιελάμβαναν και τους έξι τόπους. Χρόνος στο Χ-ο άξονας είναι σε εκατομμύρια χρόνια. Πληθυσμός στο y-η άξονας αντιπροσωπεύει το πραγματικό μέγεθος του πληθυσμού, υποθέτοντας χρόνο παραγωγής 1 έτους.

Εικόνα S1.5. Εκτεταμένη Bayesian Skyline Οικόπεδα μεγέθους πληθυσμού με την πάροδο του χρόνου για Sechellophryne gardineriΤο The full view of the posterior of all the samples that are summarized by the median and 95% HPD interval is shown for the Mahé (top) and Silhouette (bottom) populations. EBSP analyses of the Mahé population comprised all six loci. Analyses of the Silhouette population comprised two loci (16s, rag2). Time on the Χ-axis is in millions of years. Population on the y-axis represents the effective population size assuming a generation time of 1 year.


Αποτελέσματα

Hi-D maps genome dynamic properties at nanoscale resolution in living cells

Motion of densely distributed fluorescent molecules was quantitatively reconstructed from a series of conventional confocal fluorescence microscopy images by a dense optical flow method [20]. By integrating the resulting flow fields, a trajectory was computed for each pixel (Fig. 1a Additional file 1: Note S1 Additional file 1: Fig. S1). The type of diffusion characterizing each pixel’s chromatin motion was chosen in an unbiased manner using a Bayesian inference from a set of five common models to fit each trajectory’s mean squared displacement (MSD) [21] (Fig. 1b, left panel Additional file 1: Fig. S2). The best fitting models were directly mapped onto the nucleus (Fig. 1b right panel) (“Methods” section). We found that only a small fraction of trajectories displayed directed diffusion (Fig. 1b), while the bulk of chromatin exhibited sub-diffusive behavior. Distinguishing between the comparable cases of anomalous and confined diffusion is a challenging task, given the limited duration of the experiment. After examination of a range of parameters governing these different types of diffusion, our results suggest that chromatin diffusion in human U2OS cells can be adequately described as anomalous to avoid misinterpretation (Additional file 1: Note S2 Additional file 1: Fig. S3). The resulting biophysical parameters calculated for each pixel by Hi-D (diffusion constant ρε, anomalous exponent α, and drift velocity V) are presented in color-coded 2D heatmaps (Fig. 1c) (“Methods” section). They are distributed in a mosaic of irregular shape and dimensions of similar values (Fig. 1c). These parameter maps clearly demonstrate that chromatin dynamics are spatially heterogeneous and partitioned. These maps also illustrate the notion that chromatin dynamics are spatially correlated in the micrometer range [18, 20]. To further characterize this heterogeneous distribution, the parameter distributions were deconvolved into discrete subpopulations using a general mixture model (GMM) (Fig. 1c “Methods” and Additional file 1: Fig. S4). The GMM identified three populations of chromatin mobility referred to as slow, intermediate, and fast (“Methods” exemplary in Fig. 1c), irrespective of the parameter under consideration (diffusion constant or anomalous exponent) or transcriptional state of the cell. We found that chromatin dynamics characterized by directed motion involving a drift velocity (V) was less present than free and anomalous diffusion and provided significantly less data for V than for the other two parameters (Fig. 1c). Hence, drift velocity was not retained for further analysis.

Hi-D enables spatially resolved mapping of genome dynamic properties at nanoscale resolution in living cells. Workflow: ένα A series of Ν = 150 confocal microscopy images acquired at 5 fps (left) (here SiR-DNA stained living U2OS cells). Dense optical flow was applied to define (N-1) flow fields of the images (center, color coded) based on fluorescence intensity of each pixel (size = 65 nm). Individual trajectories are reconstructed over the duration of acquisition (right). σι MSD model selection (left): Trajectories of a 3 × 3 neighborhood of every pixel are used to calculate a mean MSD curve and its corresponding covariance matrix. By a Bayesian inference approach, the type of diffusion fitting each individual curve is chosen (free diffusion (D), anomalous diffusion (DA), directed motion (V), or a combination (DV) or (DAV). The spatial distribution of the selected models for each pixel is shown as a color map. ντο Maps of biophysical parameters (ρε, α, και V) extracted from the best describing model per pixel reveal local dynamic behavior of DNA in large domains. The distribution is deconvolved using a general mixture model

Validation of the Hi-D approach in simulation and experiment

In order to examine the suitability of calculated trajectories and associated diffusion constants by Hi-D to whole-chromatin imaging conditions, we compared Hi-D to dynamic multiple-target tracing (MTT), a single-particle tracking (SPT) method which is commonly used for dense molecule tracking [22] (Fig. 2a,b Additional file 1: Note S3 Additional file 1: Fig. S5 Additional file 1: Fig. S7). While the SPT method outperforms the Hi-D approach in scenarios of sparsely labeled molecules (Fig 2a), Hi-D analysis provided considerably more accurate estimates of local diffusion constants than SPT in scenarios of densely labeled molecules or structures of heterogeneous label density such as chromatin (Fig. 2b). Hi-D therefore constitutes an approach to extract dynamic parameters of biomolecules with dense labeling where SPT is unsuitable. One should, however, keep in mind that SPT and Hi-D are meant to analyze images from drastically different labeling conditions and should thus refrain from a direct comparison between single-locus dynamics analyzed by SPT and local bulk chromatin dynamics by Hi-D (Additional file 1: Note S4 Additional file 2: Movie S1).

Experimental validation of the Hi-D approach. ένα Exemplary frame of a simulated time series with low density (0.001/px 3 ) of emitters undergoing Brownian motion convolved by a typical point spread function (left). The time series is subject to Hi-D and single-particle tracking estimating the trajectories of emitters. From the estimated trajectories, the MSD is computed and compared to the ground truth diffusion constant. The relative error in the determined diffusion constant is shown. σι High density (0.02/px 3 ) of emitters with patches of super-high density (0.035/px 3 ) encircled for visualization, imitating regions of densely packed chromatin. Dashed lines show the optimal value, i.e., perfect agreement between estimation and ground truth. Red lines indicate the median value. Data from 10 independent simulations. Statistical significance assessed by a two-sample Kolmogorov-Smirnov test (***: Π < 0,001). ντο MSD curves computed in fixed (n = 13) and living quiescent (− serum n = 13) and serum stimulated (+ serum n = 14) U2OS cells. Diffusion constants for the three average curves were derived by regression yielding ρε = (0.87 ± 0.1) · 10 −3 μm 2 /μικρό for quiescent, ρε = (2.6 ± 0.1) · 10 −4 μm 2 /μικρό for stimulated, and ρε = (6.1 ± 0.1) · 10 −6 μm 2 /μικρό for fixed cells. MSD curves show considerably higher MSD values for living cells and diffusion constants are two orders of magnitude higher for living cells thus confirming the detection of motion well above noise background. ρε Diffusion constants derived from a nucleus corrupted with varying levels of signal-to-noise ratio. Results are consistent up to a lower bound of

20 dB. μι Map of diffusion constants computed by Hi-D (left) and iMSD (right). Diffusion constants are color coded from their minimum to their maximum value (blue to yellow for absolute values see φά). Red arrows indicate regions of high mobility detected by both methods. φά Diffusion constants shown in μι και σολ corresponding values of the anomalous exponent computed by Hi-D (blue) and iMSD (red)

To ensure that the calculated dynamics are not a consequence of imaging noise, we experimentally validated the sensitivity of the approach by calculating the MSD for formaldehyde fixed and living U2OS cells labeled by SiR-DNA in quiescence (− serum) or normal growth (+ serum). Diffusion constants derived from the MSD curves by Bayesian inference were about two orders of magnitude greater in living cells than in fixed cells (Fig. 2c) confirming that Hi-D enables quantifying DNA dynamics well above the noise background. To confirm the robustness of extracted parameter values with respect to varying levels of imaging noise, Hi-D was applied to nuclei to which noise was artificially added. The signal-to-noise ratio (SNR) of the original nuclei were about 26 dB and subsequently reduced stepwise down to 16 dB. The distributions of computed diffusion constants were consistent up to a lower limit of about 20 dB, below which the distribution is considerably biased towards larger values and broadens (Fig. 2d, Additional file 1: Fig. S8). Likewise, features of the spatial map of diffusion constants were equally conserved for SNR values as low as 20 dB, demonstrating the robustness of Hi-D for varying imaging noise (Additional file 1: Fig. S8). In analogy to the robustness to varying SNR levels, Hi-D is thus robust to photobleaching effects (if SNR ≥ 20 dB) since flow fields are only estimated between consecutive images, for which illumination changes due to photobleaching are usually negligible. Furthermore, Hi-D was also shown to be robust to small variations in time intervals of acquired time series as long as the expected motion between frames was in the order of the pixel size (Additional file 1: S9). We further validated Hi-D against iMSD, a well-established method to extract dynamic information of dense molecules, based on the spatial correlation function of intensity fluctuations caused by diffusing molecules, which are recorded using camera-based systems [23]. Using successive calculations of iMSD to overlap regions of interest, we computed a diffusion map similar to Hi-D-derived maps (Additional file 1: Note S5). Quantitatively, both methods yield diffusion constants of the same order of magnitude (Hi-D (1.6 ± 0.8) · 10 −3 μm 2 /s , iMSD (2.2 ± 4.5) · 10 −3 μm 2 /s, mean ± standard deviation), which are consistent with reported values using SPT and correlation spectroscopy methods applied to interphase chromatin [14, 18]. However, the distribution of values derived by iMSD was considerably broader than the distribution revealed by Hi-D (Fig. 2f). The distribution of anomalous exponents computed by iMSD showed many spurious values at the limit of the scale, while Hi-D consistently returns reasonable values (Fig. 2g). We thus conclude that Hi-D reveals dynamic parameters of the same order of magnitude as iMSD but is advantageous in the estimation of multiple parameters simultaneously, by virtue of the featured Bayesian model selection. Hi-D is thus an accurate, robust, fast, and easy to use tool to determine dynamics of macromolecules nucleus-wide.

Single-cell biophysical property maps of genome conformation and behavior

To concomitantly monitor position and distribution of the DNA mobility populations under different biological conditions, we determined Hi-D maps of the same serum-starved and then stimulated cell (Fig. 3a). Transcription is largely inhibited in cell-cycle arrested cells grown in a serum-free medium (Additional file 1: Fig. S10). Adding serum to the medium stimulates mRNA production through transcriptional activity [20, 24,25,26]. As above, diffusion constants of DNA motion were calculated for each pixel based on the model selected by Bayesian inference. Small diffusion constants characterized motion of chromatin prominently located at the nuclear envelope (dark blue). Plotting the average diffusion constants versus the distance from the nuclear periphery showed that the mobility within a rim of 1 μm from the periphery increases linearly before adopting a nearly constant value in the inner volume of the nucleus (Additional file 1: Fig. S11). At numerous sites across the remaining nuclear volume, fast diffusive areas of irregular dimensions spanning 0.3 − 3 μm in diameter (yellow areas in Fig. 3a) are embedded in the bulk of moderately dynamic chromatin. Areas of different parameter values seamlessly transition into one another without clearly defined boundaries, reminiscent of spatially correlated chromatin dynamics [20]. Upon serum stimulation, the spatial distribution of high and low diffusion constants was largely conserved (compare the presence of yellow regions in the quiescent and serum-stimulated cell in Fig. 3a), but the diffusion constant was globally strongly reduced by nearly one order of magnitude. Deconvolution of the distribution of diffusion constants and labelling of pixels according to the mobility population determined by the GMM (Fig. 3b slow—red, intermediate—orange, and fast—yellow) yields a map in agreement with this observation. Deconvolution hence classifies regions according to the values of a given parameter compared to other regions within the same nucleus. When nuclear activity is modulated, changes in this classification can be measured. In particular, the fast diffusing population with respect to the bulk chromatin in quiescent cells is reduced upon serum stimulation (Fig. 3c) and re-classified as intermediate population. Connected areas with high mobility appear eroded (Fig. 3b). In contrast, the slow population occupying

6% of the nuclear area, which is almost exclusively located at the nuclear periphery, was invariant to transcriptional changes (Fig. 3b, c). Despite considerable reorganization of the relative distribution of mobility populations and overall reduced intensity of motion, the type of diffusion governing the nuclear parameter maps showed only moderate changes upon stimulation of transcriptional activity (Fig. 3d).

Hi-D maps single-cell biophysical properties of genome conformation and behavior. ένα Diffusion constant spatially mapped onto the nucleus of a quiescent cell (left) and the same nucleus upon serum stimulation σι Spatial distribution of populations found by the GMM for the diffusion constant for quiescent (left) and actively transcribing cells (right). ντο Relative share of populations on the cell volume (n = 12). Numbers in percent. ρε For each population in σι, the relative share of chosen MSD models is represented as a stacked histogram in the quiescent state (left bars) and actively transcribing state (right bars). μι Spatial distribution of populations for the anomalous exponent for quiescent (left) and actively transcribing cells (right). φά Detailed insight into the spatial patterning of the low population of the anomalous exponent. The intermediate and high population is shown in light and dark red respectively

Anomalous diffusion dominated across the entire nucleus (0.3 ≤ α ≤ 0.73) forming a mosaic-like pattern, which underwent, compared to maps of diffusion constants, considerable remodeling upon transcriptional activation (Fig. 3e, f). Within this pattern, patches of super-diffusive (red: α > 1) motion segregated into distinct islands which became more fragmented upon serum stimulation. Random contacts or re-distribution of existing contacts of the chromatin with itself may give rise to such variations in anomalous exponent upon serum stimulation [27]. Because the diffusion constant of chromatin fibers appears unaffected for moderate degrees of crosslinking [28], we expect that association of proteins with DNA upon serum stimulation could favor global decrease of mobility in vivo. Hi-D reveals high-resolution spatial changes in mobility and in anomaly of chromatin diffusion in single cells. Further investigation may tell us if all or a subset of visible physical domains correspond to the ones determined using chromosome conformation capture (Hi-C).

Transcription modulates chromatin and RNA polymerase II motion

To further explore the relationship between global chromatin dynamics and transcriptional activity, we examined the dynamics of RNA polymerase II (RPB1-Dendra2 RNA Pol II) in live U2OS cell nuclei (Fig. 4a) at different transcriptional states. Hi-D analysis resolved three mobility populations of RNA Pol II (Fig. 4b), which is consistent with the existence of three kinetically different groups of RNA Pol II based on the half-life of chromatin-binding [29, 30]. Diffusion constants of the three dynamic populations in actively transcribing cells (grown in normal condition) were significantly greater compared to transcriptionally less-active cells (serum-starved cells) (Fig. 4b). In quiescent cells, the fraction of quickly diffusing RNA Pol II complexes was reduced compared to actively transcribing cells. Upon elongation inhibition using 5,6-dichloro-1-β-D-ribofuranosylbenzimidazole (DRB), the slowly diffusing fraction was greater than in untreated cells, indicating tenacious immobilization of RNA Pol II on the DNA template after initiation (Fig. 4c). The average diffusion constants in serum-starved and DRB-treated cells stayed roughly unchanged in all three populations, suggesting that RNA Pol II is unbound in the absence of serum [25].

Biophysical properties of chromatin are sensitive to transcriptional activity. ένα Fluorescence image of RPB1, a RNA polymerase II subunit, fused to Dendra2 (left), the spatial mapping of the diffusion constant (middle) and population deconvolution (right). σι Violin plots of the mean diffusion constant of RNA Pol II for all three mobility groups in quiescent (− serum n = 18), actively transcribing (+ serum n = 20) and elongation inhibited (+ DRB n = 21) cells are shown dark blue, light blue and green denote the slow, intermediate, and fast population, respectively. ντο Relative share of the populations on the cell volume for starved (n = 13), stimulated (n = 14) and DRB-treated (n = 18) cells. Numbers in percent. ρε Οπως και σι for the diffusion constant and ρε the anomalous exponent of DNA dynamics (n = 13 cells), red, gold, and yellow denote the slow, intermediate, and fast population, respectively. Statistical significance assessed by a Friedman test (*Π < 0.05, **Π < 0.01, ***: Π < 0.001)

We then compared the effect of transcriptional activity on chromatin dynamics in serum-starved and serum-stimulated cells. In contrast to RNA Pol II mobility, the average diffusion constant of DNA in serum-starved U2OS nuclei decreased by nearly one order of magnitude for all three populations upon addition of serum. Arresting RNA Pol II before elongation did not change the observed diffusion constants, compared to undisturbed transcription (Fig. 4d). These cell-population results are consistent with results from single-cell analyses (Fig. 3) and strengthen our hypothesis that nuclear processes considerably hamper diffusion of chromatin. In a quiescent state, only essential nuclear processes are maintained. Fewer protein complexes acting upon DNA in a could facilitate motion of the chromatin fiber. Upon serum stimulation, binding of transcription factor complexes and other proteins to DNA increase crowding and reduce the freedom to move and hence the apparent chromatin dynamics, at least in a subset of domains. Increased DNA-protein interactions and interchromatin contacts also enhance spatial correlation of chromatin dynamics in serum supplemented compared to quiescent cells [20]. Serum addition to starved cells likely stimulated RNA Pol II binding to DNA. When inhibiting elongation, transcription factories are still present [24] and, in agreement with chromatin coherence, DNA mobility remains constrained [20].

Independently of the culture conditions, a ground-state Rouse-like behavior characterizes chromatin in the examined nuclei (MSD fit with α close to 0.5) [31, 32]. Upon serum stimulation of starved cells, anomalous diffusion became predominant and its value (α

0.33) is indicative of entangled polymers [33]. This behavior was also determined for a single labeled site next to an actively transcribing gene [13]. Entanglement could stem from random DNA-protein contacts, a model coherent with polymer simulations inspired by chromosomal capture data [34]. Hindered motion of chromatin and RNA Pol II is thus a direct consequence of forming transcription “hubs” or factories to which chromatin is tethered [25].

Chromatin dynamics is uncoupled from compaction

We next asked if chromatin dynamics are influenced by the compaction of chromatin since heterochromatin is widely believed to be less dynamic than euchromatin [16]. Eu- and heterochromatin domains were determined in serum-starved and serum-stimulated cells by quantifying fluorescence intensity as described in [35] (Fig. 5a). We found that the average flow magnitude between successive frames was independent of the compaction state of chromatin (Fig. 5b). Likewise, the distribution of diffusion constants did not correlate with chromatin density or euchromatin and heterochromatin (Fig. 5c). Peripheral heterochromatin overlapped with the slow motion domain at the nuclear rim (Fig. 5d) consistent with previous findings [16]. In the inner nuclear volume however, we did not observe any tendency of heterochromatin being associated with a specific mobility population. Instead, we observed that mobility populations were distributed randomly among euchromatin and heterochromatin regions (Fig. 5e) with the exception that in serum-starved cells, the heterochromatin fraction was slightly enriched in the slow diffusing population at the nuclear periphery. Furthermore, we found that regions characterized by a specific anomalous exponent did not preferentially overlap with either eu- or heterochromatin (Fig. 5f, g). These results also hold for MCF7 cells and different fluorescent markers for chromatin (Additional file 1: Fig. S12). These findings were confirmed in NIH3T3 cells expressing GFP-HP1α, a well-established marker for heterochromatin (Additional file 1: Fig. S13). In addition, Hi-D analysis of HP1α hints towards previously proposed liquid phase separation [36]. Our results thus suggest that chromatin undergoes diffusion processes which are, in general, unrelated to the compaction level of chromatin. However, compact chromatin is characterized by increased contact frequency of the chromatin fiber with itself, which could enhance the extent of coherent chromatin motion. To test this hypothesis, we calculated Moran’s Index of Spatial Autocorrelation [37] for the flow magnitude assessed at different time lags in eu- or heterochromatin (Fig. 5h). We found that heterochromatin exhibits enhanced spatial autocorrelation compared to euchromatin across all accessible time lags. Furthermore, the spatial autocorrelation decreases with increasing time lags in serum-starved cells, while in serum-stimulated cells, autocorrelation is enhanced in the long-time limit (over 30 s). This finding points to active processes establishing spatial coherence in the long term [18, 20] while random processes such as thermal fluctuations decrease autocorrelation at time scales greater than 10 s in serum-starved cells.

Chromatin compaction and dynamics do not spatially correlate. ένα Spatial classification of signal intensity into euchromatin and heterochromatin [35] overlaid on an exemplary fluorescence image for quiescent (left) and stimulated (right) cells. σι Average flow magnitude and ντο diffusion constant (n = 12) in euchromatin and heterochromatin for starved (left) and serum-stimulated cells (right). Statistical significance assessed by a two-sample τ-δοκιμή. ρε Overlay with the diffusion populations found by Hi-D. Black solid line corresponds to eu-/heterochromatin region boundaries. μι Diffusion populations show a similar distribution over hetero- and euchromatin. The colors refer to the slow, intermediate, and high population respectively and each point corresponds to one nucleus. Statistical significance assessed by a two-sample τ-test (*Π < 0.05, **Π < 0.01, ***Π < 0,001). f–g Anomalous exponent as ρεμι. η Spatial autocorrelation at euchromatin (green) and heterochromatin (purple) of the flow magnitude between all accessible time lags in quiescent and serum-stimulated cells


Exploring the landscape using the MCMC

We should explore the deformed posterior space generated by our prior surface and observed data to find the posterior mountain ranges. However, we cannot naively search the space: any computer scientist will tell you that traversing $N$-dimensional space is exponentially difficult in $N$: the size of the space quickly blows-up as we increase $N$ (see the curse of dimensionality ). What hope do we have to find these hidden mountains? The idea behind MCMC is to perform an intelligent search of the space. To say "search" implies we are looking for a particular object, which perhaps not an accurate description of what MCMC is doing. Recall: MCMC returns δείγματα from the posterior distribution, not the distribution itself. Stretching our mountainous analogy to its limit, MCMC performs a task similar to repeatedly asking "How likely is this pebble I found to be from the mountain I am searching for?", and completes its task by returning thousands of accepted pebbles in hopes of reconstructing the original mountain. In MCMC and PyMC lingo, the returned sequence of "pebbles" are the samples, more often called the traces.

When I say MCMC intelligently searches, I mean MCMC will hopefully converge towards the areas of high posterior probability. MCMC does this by exploring nearby positions and moving into areas with higher probability. Again, perhaps "converge" is not an accurate term to describe MCMC's progression. Converging usually implies moving towards a point in space, but MCMC moves towards a broader area in the space and randomly walks in that area, picking up samples from that area.

At first, returning thousands of samples to the user might sound like being an inefficient way to describe the posterior distributions. I would argue that this is extremely efficient. Consider the alternative possibilities::

  1. Returning a mathematical formula for the "mountain ranges" would involve describing a N-dimensional surface with arbitrary peaks and valleys.
  2. Returning the "peak" of the landscape, while mathematically possible and a sensible thing to do as the highest point corresponds to most probable estimate of the unknowns, ignores the shape of the landscape, which we have previously argued is very important in determining posterior confidence in unknowns.

Besides computational reasons, likely the strongest reason for returning samples is that we can easily use The Law of Large Numbers to solve otherwise intractable problems. I postpone this discussion for the next chapter.

Algorithms to perform MCMC

There is a large family of algorithms that perform MCMC. Simplestly, most algorithms can be expressed at a high level as follows:

This way we move in the general direction towards the regions where the posterior distributions exist, and collect samples sparingly on the journey. Once we reach the posterior distribution, we can easily collect samples as they likely all belong to the posterior distribution.

If the current position of the MCMC algorithm is in an area of extremely low probability, which is often the case when the algorithm begins (typically at a random location in the space), the algorithm will move in positions that are likely not from the posterior but better than everything else nearby. Thus the first moves of the algorithm are not reflective of the posterior.