“Dit is geen werk van wetenschappers. Dit is het werk van een groep slecht opgeleide laboranten”.
Met deze woorden gaat Dr. Dan Graur van Houston University (Texas) de onderzoekers van het Encode-consortium te lijf in het vakblad Genome Biology and Evolution.
“Alles was Encode beweert is fout. Om te beginnen zijn hun statistieken vreselijk”, verkondigde de wetenschapper in de Britse krant The Guardian.
http://gbe.oxfordjournals.org/content/early/2013/02/20/gbe.evt028.full.pdf+html
http://blogs.scientificamerican.com/the-curious-wavefunction/2013/02/21/encode-applemaps-and-function-why-definitions-matter/
http://www.guardian.co.uk/science/2013/feb/24/scientists-attacked-over-junk-dna-claim
Encode (Encyclopedia Of DNA Elements, red.) is een project waarbij negen jaar lang meer dan vierduizend vorsers hebben gewerkt aan het ontrafelen van het menselijk DNA.
Tot voor kort was men ervan overtuigd dat slechts drie procent van het DNA functioneel is, .
De overige zevenennegentig procent werd bestempeld als ‘junk-DNA’. De onderzoekers van Encode verstomden echter in september 2012 de wetenschappelijke wereld. Zij concludeerden dat tachtig procent van het menselijke DNA een cruciale functie heeft in het lichaam.
Toch niet zo nutteloos
Encode verklaarde dat achttien procent van die nutteloos geachte DNA werkt als een soort schakelbord dat genen aan- en uitschakelt. Dit bepaalt of een cel een darmcel, spiercel dan wel niercel zal worden. Ook regelt het junk-DNA de hoeveelheid proteïnen die een bepaald gen moet produceren.
Die resultaten liggen nu onder vuur.
Graur en enkele onderzoekers van Johns Hopkins University (Baltimore) noemen de cijfers van Encode absurd.
“Omdat een stuk DNA biochemische activiteit vertoont, heeft het nog geen noemenswaardige functie in de cel”, aldus Graur.
Encode zou veel te snel concluderen dat DNA functioneel is.
Graur argumenteert dat de data van Encode niet betrouwbaar zijn en dat het project vooral slaagde op vlak van marketing en het creëren van een massahype.
Onderzoeksbudget is doorn in het oog
Dr. Ewan Birney van het Europees Instituut voor Bio-informatica is een van de onderzoekers achter Encode. Hij noemt de kritieken onterecht.
“De manier waarop men ons aanvalt, is oneerlijk en ongemotiveerd. Dr. Birney benadrukt dat de focus op de bijeengesprokkelde data moet liggen en niet op de hypotheses.
Volgens hem legt de discussie een te grote nadruk op het begrip ‘functioneel’.
De overvloedige data die zijn team heeft verzameld is bruikbaar voor geneeskundige en wetenschappelijke toepassingen in de toekomst. Volgens Birney is het grote budget waarover het Encode-consortium kon beschikken een doorn in het oog van Graur en andere critici.
Dr. Kevin Verstrepen, verbonden aan de KU Leuven en de VUB, zegt dat de waarheid ergens in het midden ligt.
“Graur haalt goede argumenten aan. De drie procent van ons DNA dat de genen bepaalt, is vrij resistent voor veranderingen. Fouten in ons DNA hebben meestal een negatief effect. In de functionele drie procent komen die fouten zelden voor. In het junk-DNA komen wel veel veranderingen voor. Dat ze zo vatbaar zijn voor veranderingen, is een indicatie dat ze geen sterke functie hebben.”
Evolutionaire speeltuin
Dr. Verstrepen haalt aan dat junk DNA, een term van Francis Crick, een te negatieve betekenis heeft gekregen.
Verstrepen beklemtoont dat ze misschien geen grote functie hebben, maar kunnen gezien worden als een evolutionaire speeltuin: ze bieden basismateriaal om verder te evolueren.
Verstrepen zegt dat de Encode-onderzoekers correct werk hebben geleverd.
“Heel veel erfelijke ziektes kunnen we niet plaatsen op het functionele DNA, maar op wat we junk DNA noemen. Dat DNA is misschien niet cruciaal, zoals het Encode-consortium beweert, maar heeft vaak wel een functie.”
Volgens hem is het in zekere zin waar dat Encode te sterke conclusies heeft getrokken en deze nogal krachtig geformuleerd heeft. Aan de andere kant stelt hij dat het niet eenvoudig is nuances aan te brengen wanneer je heel ingewikkelde genetische materie naar een breed publiek wil brengen.
Dr. Graur moet ook in eigen borst kijken wanneer hij Encode beschuldigt. “Met de stijl waarin hij Encode aanvalt maakt hij zich schuldig aan dezelfde praktijken die hij Encode verwijt”, aldus Verstrepen. V
Volgens hem heeft het consortium genoeg kanalen om zich te verdedigen. Deze discussie kan dan ook zelf nog tot interessante bevindingen leiden. (JB)
http://selab.janelia.org/people/eddys/blog/?p=683
1.- Onderzoekers in de biologie weten al vijftig jaar dat genen worden gecontroleerd door regulerende elementen in niet-coderende DNA.
2.- Het is duidelijk dat in ieder geval de belangrijkste ENCODE papers niet zoiets beweren als wat de kranten publiceren
3.- Het menselijk genoom bezit veel junk-DNA
Maar genoomgrootte varieert nogal veel tussen verschillende soorten ….
Je zou kunnen denken dat blijkbaar meer complexe organismen, zoals de mens , meer DNA zouden moeten bezitten dan eenvoudiger organismen zoals eencellige amoeben, maar dat blijkt niet waar te zijn.
Salamanders hebben 10 X meer DNA dan wij; LONGVISSEN ongeveer 30 X meer.
____Misschien weten we niet echt weten hoe “complexiteit” te definiëren of te meten: misschien zijn we gewoon te antropocentrisch wanneer we denken dat we zelf een voorbeeld van ” grote (indien al niet de beste )
complexiteit ” zijn . Wie zegt dat amoeben minder complex zijn dan de mens? Ooit gekeken naar een amoebe? ____
De belangrijkste constatering is niet alleen dat heel verschillende wezens zeer verschillende genoom -maten bezitten maar vooral dat zelfs “hierarchisch geneste “soorten zeer verschillend genoom -maten kunnen hebben.
Dit feit, verrassend destijds, smeekte om een goede uitleg.
Als er twee soorten onderling vergelijkbaar zijn , maar waarbij hun genoom tot 10x kan verschillen in grootte, wat is al dat extra DNA dan voor nodig ?
Deze observatie over genoom maten (genaamd de ‘C-waarde’ paradox, om technische redenen) ondersteunde het idee dat een genoom misschien snel kon uitbreiden (en/of krimpen) (op een evolutionaire tijdschaal)
als gevolg van een aantal neutrale (niet-adaptieve) processen – Ofwel :
dat misschien vele organismen DNA zonder directe functionele effecten op het organisme zelf , moesten dulden ….. DNA dat evolutionair werd gecreëerd , in stand gehouden(en replicerend doorgegeven ) ;
in het bijzonder door ingebouwd geraakte neutrale mutaties en/ of zelfs parasitaire mechanismen in het(gastheer) genoom
Iemand noemde dat allemaal “junk” DNA, en dat was waarschijnlijk een ongelukkige term, want dat heeft veel mensen van bij het begin woest gemaakt ; het is immers nogal beledigend om iemand te vertellen dat zijn
prachtige huis vol staat vol met troep.
Een belangrijke ontdekking die een bevredigende verklaring van de C-waarde paradox leverde , was de ontdekking dat genomen, vooral die van dieren en planten , grote aantallen transposons (mobiele) elementen
bevatten .
Die Mobiele genetische elementen repliceren zich op de (meestal lichte) kosten van hun gastheer -genoom-replicatie mechanismen .
Zo bezit ongeveer 10% van het menselijke genoom ongeveer
een miljoen kopieën van het kleine beweegbare element genaamd Alu.
Een ander groot deel van het genoom bestaat uit een mobiele element L1.
Transposons zijn gelieerd aan virus-achtige taktieken , en we denken dat ze voor het grootste deel parasitair van aard zijn . Ze infecteren een genoom, repliceren zich , verspreiden en vermenigvuldigen zich ,
en uiteindelijk zullen ze sterven, muteren, en vervallen een/of , hun DNA-sequenties verliezen .
Soms zal een zich replicerend en hoppend Alu element aankomen op een andere plaats(locatie) in het gastheer genoom
waarbij het iets in dat genoom om zeep helpt . Maar meestal zal een nieuwe Alu sprong gewoon ergens in de junk belanden zonder merkbaar effekt ( omdat het geen echte of noodakelijke functie binnen het gastheer genoom , vervult )
Het leek erop dat als we kijken naar al de verschillende genoom -maten, bijna alles van die” raadselachtige” grootte variaties kan worden wordt verklaard door het genoom te beschouwen als volgestouw met verschillende aantallen van krachtige en verschillende transposons.
Sommige wezens, zoals kogelvis, hebben slechts lage transposon – belastingen
Sommige wezens, zoals salamanders, longvis, amoeben, maïs, en lelies, zijn beladen met enorme aantallen transposons.
Het menselijk genoom bestaat ongeveer voor 50% uit transposon-afgeleide sequenties _____ net op de 50% grens waarbij iemand kan gaan beweren : “het menselijk genoom is meestal junk”
en iemand anders evengoed kan zeggen “het menselijk genoom is meestal geen junk “.
In 1980, verschenen twee belangrijke papers – door Orgel en Crick , en door Sapienza en Doolittle – mooi en uitgebreid en met het argument dat het genoom “egoïstisch”( selfisch ) of “junk” DNA, bevat ….. grotendeels transposon-afgeleide sequenties en in soms vrij grote hoeveelheden
Ze waren wel zo voorzichtig te verklaren dat , bijvoorbeeld, het verrassend zou zijn als de evolutie niet af en toe sommige nuttige functies uit deze deze grote hoeveelheid extra DNA-sequentie zou kunnen ineen prutsen
Sterker nog, we vinden nu vele interessante voorbeelden van transposon-afgeleide spullen die worden/werden gecoöpteerd voor organismale functies (maar dit zijn de uitzondering, niet de regel).
Zonder te proberen om hatelijke of pedant academisch te zijn , houd ik er rekening mee dat ze beide papers en hun auteurs onvermeld laten noch citeren /
Dat betekent, (ongeacht wat we lezen in de kranten) dat ENCODE eigenlijk niet probeerde hun (goed ondersteunde ) gegevens (over het junk DNA ) te interpreteren
Transposon afgeleide sequenties zijn het schoolvoorbeeld van “junk DNA” omdat we positief kunnen identificeren wat transposon-afgeleide sequenties zijn en wat niet , dmv een geautomatiseerde analyse en reconstructie van de evolutionaire geschiedenis van transposon- invasies van de genomen.
Er is kans op ander niet-functioneel DNA “junk” in het DNA die we op dit moment niet kunnen herkennen , maar het belangrijkste punt is dat de dode restanten van vele transposons iets voorstellen wat we met een hoge mate van waarschijnlijkheid (nog steeds ) kunnen indentificeren –
Niet-coderende DNA is deels junk, deels regulatorisch , deels onbekend
Het is cruciaal om te beseffen dat “niet-coderende” DNA GEEN synoniem is voor “junk” DNA. Het huidige model van het menselijke genoom, dat ENCODE nu systematisch en volledig bevestigd en heeft uitgebreid, is dat het ongeveer 1% eiwit-codering(, in misschien ongeveer 20.000 “genen”) gemiddeld ongeveer 1500 basen omvat (waarbij het begrip ” gen ” amorf, maar nuttig is , we kennen er eentje als we eentje zien ).
Genen worden aan-en uitgezet door regulerende DNA-gebieden, zoals promoters en versterkers(enhancers ) – zoals reeds al vijftig jaar werd uitgewerkt r, te beginnen met hoe bacteriële virussen(bacteriofagen ) werken .
Bij dieren en mensen, zitten er ( denkt de auteur ) misschien 10-20 regulerende gebieden per gen, elk misschien 100-300 basen lang, dus, heel ruw, misschien in de orde van ongeveer 1000-6000 grondslagen van coderende informatie tenbehoeve van regulatorische sdequenties per 1500 codering bases in een gen.
I’m only giving hand-wavy back of the envelope notions here because it’s actually quite difficult to pin these numbers down exactly; our current knowledge of regulatory DNA sequences in detail is distressingly incomplete. Ik ben alleen het geven van de hand golvende achterkant van de envelop begrippen hier, want het is eigenlijk heel moeilijk om deze cijfers vastpinnen precies; onze huidige kennis van regulerende DNA-sequenties in detail is bedroevend onvolledig. That’s something that ENCODE’s trying to help figure out, in systematic fashion, and where a lot of ENCODE’s substantive value is. Dat is iets dat ENCODE probeert figuur te helpen, in een systematische manier, en waar veel ENCODE de inhoudelijke waarde. The point is, we already knew there was likely at least as much regulatory DNA as coding DNA, and probably more; we just don’t have a very satisfying handle on it all yet, and we thought we needed an ENCODE project to survey things more comprehensively. Het punt is, we al wisten dat er waarschijnlijk minstens zoveel regulerende DNA als coderend DNA, en waarschijnlijk meer, we gewoon niet hebben een zeer bevredigend handvat op het nog allemaal, en we dachten dat we nodig hadden een CODEREN project te overzien dingen uitgebreider.
So when you read a Mike Eisen saying “those damn ENCODE people, we already knew noncoding DNA was functional” , and a Larry Moran saying “those damn ENCODE people, there is too a lot of junk DNA” , they aren’t contradicting each other. Dus als je leest een Mike Eisen zeggen “die verdomde ENCODE mensen, wisten we al niet-coderende DNA was functioneel” , en een Larry Moran zegt “die verdomde ENCODE mensen, er is te veel junk-DNA ‘ , zijn ze niet tegenspreken elke andere. They’re talking about different (sometimes overlapping) fractions of human DNA. Ze hebben het over verschillende (soms overlappende) fracties van menselijk DNA. About 1% of it is coding. Ongeveer 1% van het coderen. Something like 1-4% is currently expected to be regulatory noncoding DNA given what we know (and our knowledge about regulatory sites is especially incomplete). Iets als 1-4% wordt momenteel verwacht dat de regelgeving niet-coderende DNA gegeven wat we weten (en onze kennis over de regelgeving sites is vooral incompleet) zijn. About 40-50% of it is derived from transposable elements, and thus affirmatively already annotated as “junk” in the colloquial sense that transposons have their own purpose (and their own own biochemical functions and replicative mechanisms), like the spam in your email. Ongeveer 40-50% van het is afgeleid van transposons, en dus bevestigend reeds geannoteerd als “junk” in de omgangstaal zin dat transposons hebben hun eigen doel (en hun eigen biochemische functies en replicatiemechanismen), net als de spam in uw e-mail . And there’s some overlap: some mobile-element DNA has been co-opted as coding or regulatory DNA, for example. En er is enige overlap: sommige mobiele-element DNA werd gecoöpteerd als codering of regulatoire DNA, bijvoorbeeld.
Now that still leaves a lot of the genome. Nu dat laat nog veel van het genoom. What’s all that doing? Wat is dat allemaal doen? Transposon-derived sequence decays rapidly, by mutation, so it’s certain that there’s some fraction of transposon-derived sequence we just aren’t recognizing with current computational methods, so the 40-50% number must be an underestimate. Transposon-afgeleide sequentie snel vervalt, door mutatie, dus het is zeker dat er een aantal fractie van transposon-afgeleide volgorde nog niet herkennen met de huidige computationele methoden, zodat het 40-50% nummer moet een onderschatting zijn. So most reasonable people (ok, I) would say at this point that the human genome is mostly junk (“mostly” as in, somewhere north of 50%). Dus de meeste redelijke mensen (ok, ik) zou op dit punt zeggen dat het menselijk genoom is meestal junk (“meestal” als in, ergens ten noorden van 50%).
At the same time, we still have only a tenuous grasp on the details of gene regulation, even though we think we understand the broad strokes now. Op hetzelfde moment, we hebben nog slechts weinig greep op de details van de genregulatie, hoewel we denken dat we nu begrijpen de grote lijnen. Nobody should bet against finding more and more regulatory noncoding DNA, either. Niemand zou inzetten tegen het vinden van meer en meer regelgeving niet-coderend DNA, ofwel. The human genome surely contains a lot of unannotated functional DNA. Het menselijk genoom bevat zeker veel unannotated functionele DNA. The purpose of the ENCODE project was to help us sort this out. Het doel van het ENCODE project was om ons te helpen dit uitzoeken. Its data sets, and others like them, will be fundamental in giving us a comprehensive view of the functional elements of the human genome. Zijn datasets, en anderen zoals zij, zal fundamenteel zijn in het geven van ons een uitgebreid overzicht van de functionele elementen van het menselijk genoom.
ENCODE’s definition of “functional” includes junk ENCODE’s definitie van “functionele” omvat junk
ENCODE has assigned a “biochemical function” to 80% of the genome. CODEREN heeft een “biochemische functie” tot 80% van het genoom toegewezen. The newspapers add, “therefore it’s not junk”, but that’s a critically incorrect logical leap. De kranten voegen, “daarom is het niet junk”, maar dat is een kritisch onjuiste logische sprong. It presumes that junk DNA doesn’t have a “biochemical function” in the sense that ENCODE chose to operationally define “function”. Zij veronderstelt dat junk-DNA niet een “biochemische functie” in de zin dat ENCODE ervoor gekozen om operationeel “functie” te definiëren. So in what sense did ENCODE define the slippery concept of biological function, to allow them to assign a human genome fraction (to two significant digits, ahem)? Dus in welke zin heeft ENCODE bepalen de glibberige begrip van biologische functie, om hen in staat stellen om een menselijk genoom fractie (tot twee significante cijfers, ahem) toe te wijzen?
ENCODE calls a piece of DNA “functional” if it reproducibly binds to a DNA-binding protein, is reproducibly marked by a specific chromatin modification, or if it is transcribed. CODEREN noemt een stuk DNA “functionele” als het reproduceerbaar bindt aan een DNA-bindend eiwit, reproduceerbaar wordt gekenmerkt door een specifieke chromatine modificatie, of als het wordt getranscribeerd. OK. OK. That’s a fine, measurable operational definition. Dat is een prima, meetbare operationele definitie. (One might wonder, why not just call “DNA replication” a function too, and define 100% of the genome as biochemically functional, but of course, as Ewan Birney (the ENCODE czar) would tell you, I would never be that petty. No sir.) I am quite impressed by the care that the ENCODE team has taken to define “reproducibility”, and to process their datasets systematically. (Men kan zich afvragen, waarom niet gewoon bellen “DNA-replicatie” een functie ook, en bepalen 100% van het genoom als biochemisch functioneel, maar natuurlijk, als Ewan Birney (de ENCODE tsaar) je zou vertellen, zou ik nooit dat kleine . Nee meneer.) Ik ben behoorlijk onder de indruk van de zorg die de ENCODE team heeft genomen om “reproduceerbaarheid” te definiëren, en om hun datasets systematisch te verwerken.
But as far as questions of “junk DNA” are concerned, ENCODE’s definition isn’t relevant at all. Definitie, maar voor zover de vragen van “junk DNA” betreft, ENCODE is niet relevant bij allen. The “junk DNA” question is about how much DNA has essentially no direct impact on the organism’s phenotype – roughly, what DNA could I remove (if I had the technology) and still get the same organism. De “junk DNA” vraag is over hoeveel DNA heeft in wezen geen direct effect op fenotype van het organisme – ruwweg, wat DNA kon ik verwijderen (als ik de techniek) en nog steeds hetzelfde organisme. Are transposable elements transcribed as RNA? Zijn transposons getranscribeerd als RNA? Do they bind to DNA-binding proteins? Hebben ze binden aan DNA-bindende eiwitten? Is their chromatin marked? Wordt hun chromatine gemarkeerd? Yes, yes, and yes, of course they are – because at least at one point in their history, transposons are “alive” for themselves (they have genes, they replicate), and even when they die, they’ve still landed in and around genes that are transcribed and regulated, and the transcription system runs right through them. Ja, ja, en ja, natuurlijk zijn ze – omdat minstens op een punt in hun geschiedenis, transposons zijn “leven” voor zichzelf (ze hebben genen, ze repliceren), en zelfs wanneer ze sterven, hebben ze nog steeds in landden en om genen die worden getranscribeerd en gereguleerd, en de transcriptie-systeem loopt dwars door hen heen.
Thought experiment: if you made a piece of junk for yourself — a completely random DNA sequence! Gedachte-experiment: als je een stuk schroot voor jezelf gemaakt – een volstrekt willekeurige DNA-sequentie! — and dropped it into the middle of a human gene, what would happen to it? – En liet het in het midden van een menselijk gen, wat zou er gebeuren om het te? It would be transcribed, because the transcription apparatus for that gene would rip right through your junk DNA. Het zou worden getranscribeerd, omdat de transcriptie apparaat voor dat gen recht zou rippen via uw junk-DNA. ENCODE would call the RNA transcript of your random DNA junk “functional”, by their technical definition. ENCODE zou het RNA-transcript van uw willekeurige DNA junk “functioneel”, door hun technische definitie noemen. And if even it weren’t transcribed, that would be because it acted as a different kind of functional element (your random DNA could accidentally create a transcriptional terminator). En als zelfs dat niet getranscribeerd, dat zou zijn omdat het fungeerde als een ander soort functioneel element (een willekeurige DNA kan per ongeluk maak een transcriptiebeëindiger).
The random genome project De willekeurige genoomproject
So a-ha, there’s the real question. Dus a-ha, er is de echte vraag. The experiment that I’d like to see is the Random Genome Project. Het experiment dat ik graag zou willen zien is de Random Genome Project. Synthesize a hundred million base chromosome of entirely random DNA, and do an ENCODE project on that DNA. Synthetiseren honderd miljoen base-chromosoom van geheel willekeurige DNA, en geen CODEREN project op dat DNA. Place your bets: will it be transcribed? Plaats uw inzet: het zal worden overgeschreven? bound by DNA-binding proteins? gebonden door DNA-bindende eiwitten? chromatin marked? chromatine gemerkt?
Of course it will. Natuurlijk zal het.
The Random Genome Project is the null hypothesis, an essential piece of understanding that would be lovely to have before we all fight about the interpretation of ENCODE data on genomes. De Random Genome Project is de nul-hypothese, een essentieel stuk van begrip dat mooie voordat we aan alle strijd over de interpretatie van de gegevens te coderen op genomen zou zijn. For random DNA (not transposon-derived DNA, not coding, not regulatory), what’s our null expectation for all these “functional” ENCODE features, by chance alone, in random DNA? Voor willekeurige DNA (niet transposon-afgeleide DNA, geen codering, geen regelgeving), wat is onze null verwachting voor al deze “functionele” ENCODE functies, alleen door toeval, in willekeurige DNA?
(Hat tip to The Finch and Pea blog, a great blog that I hadn’t seen before the last few days, where you’ll find essentially the same idea.) (Hoed topje naar De Vink en Pea blog, een geweldige blog die ik niet eerder had gezien de laatste paar dagen, waar je in wezen hetzelfde idee vindt.)
Evolution works on junk Evolutie werkt op junk
Even if you did the Random Genome Project and found that a goodly fraction of a totally random DNA sequence was “functional”, transcribed and bound and chromatin-marked, would this somehow diminish your view of the human genome? Zelfs als je dat deed de Random Genome Project en vond dat een flink deel van een totaal willekeurig DNA-sequentie was “functioneel”, getranscribeerd en gebonden en chromatine-gemarkeerde, zou dit een of andere manier verminderen uw weergave van het menselijk genoom?
Personally, I don’t think we can understand genomes unless we try to recognize all the different noisy, neutral evolutionary processes at work in them . Persoonlijk denk ik niet dat we kunnen begrijpen genomen tenzij we proberen om alle verschillende erkennen luidruchtig, neutraal evolutionaire processen aan het werk in hen . Without “noise” — without a background of specific but nonfunctional transcription, binding, and marking — evolution would have less traction, less de novo material to grab hold of and refine and select, to make it more and more useful. Zonder “ruis” – zonder een achtergrond van specifieke, maar niet-functionele transcriptie, binding, en markering – evolutie zou minder grip hebben, minder de novo materiaal te houden van en te verfijnen grijpen en te selecteren, om het meer en meer bruikbaar te maken. Genomes are made of repurposed sequence, borrowed from whatever happened to be there, including the “junk DNA” of invading transposons. Genomen zijn gemaakt van hergebruikt volgorde, geleend van wat er gebeurd om er te zijn, met inbegrip van de “junk DNA” van binnenvallende transposons.
As Sydney Brenner once said, there’s a difference between junk and garbage; garbage is stuff you throw out, junk is stuff you keep because it just might be useful someday. Zoals Sydney Brenner zei ooit, er is een verschil tussen rommel en vuilnis, vuilnis is dingen die je eruit gooien, junk is dingen die je te houden, want het zou wel eens nuttig zijn.
Conflict of interest/full disclosure: I was a member of the national advisory council to the NIH National Human Genome Research Institute at the time ENCODE was conceived and planned – so I’m not quite as innocent and disinterested in policy questions of NIH NHGRI big science projects and media engagement strategy as this post may have made it sound. Belangenconflict / full disclosure: ik was een lid van de nationale adviesraad voor de NIH National Human Genome Research Institute op het moment ENCODE is bedacht en gepland – dus ik ben niet zo onschuldig en belangeloze in beleidsvragen van NIH NHGRI grote wetenschappelijke projecten en media engagementstrategie als deze post kan het geluid gemaakt hebben.
Grappig dat we met dit aantal weer terug zijn op het peil van 2001! En dan heb ik nog niet meegerekend dat eiwit-coderende genen gemiddeld ongeveer 4 verschillende eiwitten produceren (tgv alternative splicing) waardoor er plm. 80.000 eiwitten worden geproduceerd, waardoor we terug zijn bij de schattingen van eind jaren 90. Zou je kunnen zeggen. Wat zeker opvalt is dat het aantal RNA-genen enorm omhooggeschoten is ten opzichte van 10 jaar geleden. Bijna net zoveel als ‘gewone’ genen. En dan heb ik nog niet genoemd 11.224 pseudogenen: ‘dode’ genen waarvan een deel soms in sommige celtypen in sommige individuen afgelezen wordt. Die tel ik even niet mee.
Hoeveel dna is functioneel?
De controversiële claim van ENCODE is dat 80% van het menselijk dna ‘biochemisch functioneel’ is. Maar hun definitie van ‘functioneel’ is heel ruim:
“Operationally, we define a functional element as a discrete genome segment that encodes a defined product (for example, protein or non-coding RNA) or displays a reproducible biochemical signature (for example, protein binding, or a specific chromatin structure).” [4] (2)
Vrij vertaald: 80% van het menselijk dna ‘doet iets’. Dit is een veel ruimere defintie dan gebruikelijk in de (evolutie)biologie. In de evolutie betekent ‘functioneel’ dat iets survival value heeft (fitness). Maar de taak die ENCODE zichzelf gesteld heeft is alle activiteit van alle dna vast te stellen in dat is inclusief modificaties van histonen die aan dna vastzitten. En ook als het dna maar in één celtype actief is. Zo heeft ENCODE de activiteit in 147 verschillende celtypes getest. Dat is nieuw. Het gaat om de totaliteit. Wil je een compleet overzicht dan moet je alles meenemen. Zo is die 80% ontstaan.
Nog maar een paar jaar geleden stond in een standaardwerk [5] dat van een typisch genome één derde (33%) wordt afgelezen (dat heet: transcriptome omdat het op transcriptie gebaseerd is, dat is de productie van RNA). Volgens ENCODE is dat nu 62%. De rest is betrokken bij histonen, en andere eiwitten die aan dna binden. Van die 62% is de meerderheid intronen, want die worden ook afgelezen, maar daarna er uit geknipt (splicing).
Maximum aantal genen?
Zou het menselijk genoom echt 100.000 ‘genen’ kunnen hebben? [10] Of een miljoen??? Volgens Manfred Eigen [6] kan een organisme niet onbeperkt veel genen hebben omdat die informatie iedere generatie betrouwbaar gecopieerd moet worden en mutaties zullen zich op den duur ophopen zodat de originele informatie verloren zal gegaan. Anders gezegd: het aantal informatie dragende bases heeft een maximum. Dat wordt bepaald door de mutatiefrequentie. De maximale mutatiefrequentie is het omgekeerde (reciprocal) van het aantal informatie dragende bases. Dus heb je een mutatiefrequentie van 1 op de miljoen dan zal het maximum aantal informatieve bases 1 miljoen zijn.
We moeten dus genen omrekenen in bases. Schattingen in de literatuur voor het totaal aantal relevante bases (exons) van de mens is 30 miljoen bases (30 Mb) verdeeld over 180.000 exons [7]. Als je het aantal RNA genen erbij optelt zou je grofweg op 60 miljoen bases komen (schatting!). Verder hebben we nog dna dat betrokken is in gen regulatie. Volgens ENCODE [8] zou dat tenminste zo veel bases in beslag nemen als eiwit-coderende genen, dus tenminste nog eens 30 miljoen. Totaal: tenminste 90 miljoen bases. Uit de literatuur [9] blijkt dat de mutatiefrequentie in de orde van 1 op de 100 miljoen is. De menselijke soort zou dus net zoveel significant dna hebben dat hij kan onderhouden. Te mooi om waar te zijn? Gezien het feit dat het berekeningen op de achterkant van een bierviltje gemaakt zijn, lijkt dat inderdaad te mooi om waar te zijn!
Postscript
(19 – 23 sept):
Als we die 80% functioneel dna omrekenen naar bases: 80% van 3,2 miljard bases = 2,56 miljard bases, dan is niet in te zien hoe die bases onderhouden kunnen worden als er een mutatiefrequentie is van 1 : 100 miljoen (1 : 10-8) per generatie! Het menselijke genome zou maximaal 100 miljoen bases functioneel dna kunnen bevatten. Dat is 3,1% van het totale dna. ENCODE komt neer op ruim 25x hoger! Daar kom ik zeker nog een keer op terug!
Populatiegeneticus en evolutiebioloog Joe Felsenstein heeft bevestigd dat de error threshold een onafhankelijk argument tegen 80% functioneel dna in het menselijk genome is (hier).
Een onafhankelijke (ruwe) berekening gebaseerd op “very roughly, maybe on the order of about 1000-6000 bases of noncoding regulatory information per 1500 coding bases in a gene” (Sean Eddy):
aantal bases in genen: 20.687 x 1500 = 31.030.500 bases
aantal bases in regulators: 20.687 x 3500 = 72.404.500 bases
totaal: 103.435.000 bases
in het menselijk genome die er toe doen.
Dus 103 miljoen komt heel aardig overeen met mijn berekening gebaseerd op het idee van Manfred Eigen [6] (nl 100 miljoen)!
Postscript 3 Okt 2012
“Mammalian conservation suggests that ~5% of the human genome is conserved due to noncoding and regulatory roles ” [11]. Dit is dus méér dan alleen eiwit-coderende genen (“Short noncoding RNAs are as strongly constrained as protein-coding regions”) en méér dan de schatting 3,1% hierboven.
Een onafhankelijk manier om het percentage functioneel dna te bepalen is misschien het perc. dna dat in zoogdieren geconserveerd (constrainted, conserved) is?
Noten
- John Maynard Smith (1999) The Origins of Life (p.16).
- Mark Ridley (2000) Mendel’s Demon meldt 60.000 genen, tabel op p. 82.
- Carina Dennis, Richard Gallagher (2001) The Human Genome. Palgrave. p. 19; p.67; p.72; p.110; p.112.
- The ENCODE Project Consortium: ‘An integrated encyclopedia of DNA elements in the human genome‘, Nature 57-74 6 sep 2012 (Open Access). “we annotated 8,801 small RNAs and 9,640 long non-coding RNA (lncRNA) loci” dus totaal 18.441 RNA genen.
- James Watson et al (2008) Molecular Biology of the Gene (sixth ed.), p.705.
- Manfred Eigen (1996) Steps Towards Life, p.20: “the longer a sequence is, the more accurate its reproduction must be, otherwise errors accumulate in successive generations and the original information is lost”.
- Targeted Capture and Massively Parallel Sequencing of Twelve Human Exomes.
- “raising the possibility that more information in the human genome may be important for gene regulation than for biochemical function.” zie: [4].
- Joris A. Veltman & Han G. Brunner (2012) De novo mutations in human genetic disease Nature Reviews Genetics 13, 565-575 (August 2012).
- In: Peter Sudbery (1998) Human Molecular Genetics, p. 36 wordt genoemd dat het theoretisch maximum bij de mens 100.000 genen zou zijn gebasserd op o.a. het aantal gemuteerde genen dat tolerabel zou zijn (maar is schatting!).
- Lucas D. Ward (2012) Evidence of Abundant Purifying Selection in Humans for Recently Acquired Regulatory Functions, Science 28 September 2012
uit de reacties
(*1)
Wat ik niet gemeld had was dat het totaal aantal bases in het menselijk genoom 3,2 miljard bases is. Daarom neem ik aan dat die 80% van 3,2 miljard is, dus 2,56 miljard. Dit is vele malen meer dan de 90 miljoen bases waar ik op uit kom.
Als die 2,56 miljard van belang zijn voor de fitness van het individu dan zou een dergelijke hoeveelheid informatie moeilijk of niet intact gehouden kunnen worden in de loop van de menselijke evolutie gezien de mutatiefrequentie. Het probleem dat ik beschreef in mijn blog wordt dus vele malen groter. In feite is 2,56 miljard significante bases niet intact te houden. Dat is het probleem.
(2)De controversiële claim van ENCODE is dat 80% van het menselijk dna ‘biochemisch functioneel’ is.
Het is heel duidelijk hoe ze via een optelsom van de verschillende celtypen aan de 80% komen. Ewan Birney suggereerde dat als men meer celtypen zou meenemen in het onderzoek, men zelfs tot 100% ‘functioneel’ DNA zou kunnen komen.
Je hebt het over niet-coderende genen en omdat de terminologie in ENCODE toch al zo lastig is, is het misschien beter alles vanaf het begin van de discussie duidelijk te maken. Ik dacht dat per definitie genen eiwit-coderend waren.
RNA dat niet afgelezen wordt is geen gen. Dat wordt niet zo genoemd, ook in het artikel van ENCODE niet. Ze hebben het over RNA-elementen. Neemt niet weg, zoals ENCODE ook laat zien, dat dit niet een functie kan hebben.
°……Het begrip ‘RNA genes’ is geen interne contradictie. Je vindt het begrip bv hier: Non-coding RNA genes and the modern RNA world
Als genen stukken dna zijn met een begin en eind, die gereguleerd worden, net als coderende genen op bepaalde tijdstippen in bepaalde celtypen worden afgelezen, evt introns kunnen bezitten, wat is er fout aan het begrip rna genen?
De berekening op het bierviltje zou best eens kunnen kloppen.
Het is interessant dat ENCODE 2007 het heeft over’ biologically active’ en ENCODE 2012 over ‘biochemically active’ (jouw Zouden ze dat ‘verbeterd’ hebben ?
° Nog even een linkje naar dit blog van ‘the finch and pea’ van Mike White. Een mooie nabeschouwing over het junk DNA en een kritiek op het ijverig uitrekenen van de percentages. Vooral de laatste alinea is prachtig.
http://thefinchandpea.com/2012/09/20/the-non-functional-concept-of-genome-function/#more-6686
° Echter , hun definitie van ‘functioneel’ is heel ruim:
“Operationally, we define a functional element as a discrete genome segment that encodes a defined product (for example, protein or non-coding RNA) or displays a reproducible biochemical signature (for example, protein binding, or a specific chromatin structure).” [4]
Gerdien de Jong
Vrij vertaald: 80% van het menselijk dna ‘doet iets’.
Dat is een heel vrije vertaling, maar het geeft wel aan waar het probleem met ‘functional’ hier ligt. ‘A reproducible biochemical structure‘ kun je niet zonder meer vertalen in ‘iets doen’.
http://selab.janelia.org/people/eddys/blog/?p=683
“Thought experiment: if you made a piece of junk for yourself — a completely random DNA sequence! — and dropped it into the middle of a human gene, what would happen to it? It would be transcribed, because the transcription apparatus for that gene would rip right through your junk DNA. ENCODE would call the RNA transcript of your random DNA junk “functional”, by their technical definition.”
° Om te concluderen dat DNA ‘iets doet’ moet je laten zien wat het doet: dat is niet gebeurd.
° Inderdaad de definitie van functioneel is het probleem. Testen wat het fenotypisch effect is van duizenden rna transcripts en duizenden dna-eiwit complexen is werk voor duizenden biologen van deze en de komende generaties.
Nog interessanter dan een stukje random dna in een gen laten integreren is het ‘The random genome project: Synthesize a hundred million base chromosome of entirely random DNA, and do an ENCODE project on that DNA’. Dat is niet zomaar interessant, het is het verplichte CONTROLE experiment!
Zonder dat kun je de data van ENCODE niet interpreteren. Maw je moet weten wat een groot stuk random dna voor activiteiten vertoond met de ENCODE testen. Ik heb geleerd dat controles de essentie zijn van een wetenschappelijk experiment. Zo’n controle heeft ENCODE niet gedaan. Wel reproduceerbaarheid, maar dat is niet genoeg.
°Maar wat nu als die biochemische modificaties van dna en histonen die ENCODE gevonden heeft, geen enkel effect hebben op het fenotype van de drager? op zijn gezondheid? op de evolutionaire fitness (aantal nakomelingen)? dwz evolutionair neutraal zijn?
°Waarom mag iets niet evolutionair neutraal zijn?. Als iets “displays a reproducible biochemical signature (for example, protein binding, or a specific chromatin structure)”, is het dan niet gewoon ook belangrijk, onafhankelijk of het iets doet met het fenotype etc?
°…..Het gaat er niet om of het belangrijk is, maar dat de auteurs duidelijk moeten zijn: iets ‘functioneel’ noemen terwijl je in de verste verte de functie niet kent, is misleidend of tenminste uitermate verwarrend.
°ENCODE doet goed onderzoek maar hun taalgebruik is ontzettend verwarrend. gedeetelijk komt dit ook omdat het genoom op biochemisch niveau zelf zeer verwarrend is. Maar je hoeft het daarom nog niet verwarrend te omschrijven!!!
In de evolutiebiologie zijn we al gewend aan split genes: introns middenin genen die wel afgelezen worden maar daarna uitgeplitst en afgebroken. en we zijn gewend aan neutrale variatie in base verschillen (Kimura).
Maar er worden kennelijk ook vele stukken dna afgelezen (=transcriptie) ver buiten plekken waar een gen ligt. Daarvan zegt ENCODE dus dat ze evolutionair neutraal zijn: ze hebben geen aantoonnare functie (geen eiwit of regulator functie):
“no specific benefit to the organism” = dragen niet bij aan de evolutionaire fitness. Daarom is het zeer verwarrend om dat desondanks ‘biologically active‘ te noemen.
ENCODE suggereert dat die stukken dna ‘probeersels’ zijn van evolutie: doet het iets waar het organisme achteraf baat bij heeft (fitness verhogend) en dan gaat selectie dat bevorderen. Zoiets is aangetoond voor bijv. transposons die heel soms per ongeluk een gunstig effect hadden op het organisme.
Maar we blijven voorlopig met een genoom zitten dat een heleboel activiteiten vertoond waarvan we geen flauw idee hebben waar het goed voor is.

DNA needs to interact with proteins and RNA to direct the activity of a cell. ENCODE is attempting to catalog these interactions.
http://arstechnica.com/staff/2012/09/most-of-what-you-read-was-wrong-how-press-releases-rewrote-scientific-history/
http://arstechnica.com/science/2013/05/carnivorous-plant-has-deleted-most-of-its-junk-dna/
°
Recente reacties