De rol van DNA-informatie in classificatie van wilde verwanten
Crop wild relatives en classificatie
Wilde verwanten van gewassen (crop wild relatives, CWR) worden steeds populairder in plantenveredeling, omdat gewenste eigenschappen uit wilde verwanten in gecultiveerde gewassen gebruikt kunnen worden. Voorbeelden zijn resistenties tegen ziekten en plagen, en tolerantie tegen hogere zoutconcentratie, droogte of juist overstromingen. Genenbanken hebben daarom veel aandacht voor het verzamelen en opslaan van een grote variatie aan CWR in hun collecties. Elke gewasvariant wordt als aparte accessie geregistreerd in de collectie en taxonomisch geclassificeerd om precies te bepalen om welke soort of variant het gaat.
Bij het classificeren op basis van uiterlijke kenmerken (morfologische classificatie) treden soms fouten op. Omdat een juiste classificatie van wilde verwanten belangrijk is voor gebruikers van het materiaal, zijn genenbanken gebaat bij het opsporen en verbeteren van deze fouten. Daarnaast is betrouwbare classificatie van soorten niet alleen belangrijk voor genenbanken, maar ook voor bijvoorbeeld ecologische inventarisaties of het opsporen van voedselfraude.
DNA-informatie kan een belangrijke rol spelen bij taxonomische classificatie. Hiervoor is het concept DNA-barcoding ontwikkeld, waarbij een bepaalde DNA-sequentie wordt gebruikt om een organisme eenduidig te classificeren. Echter, deze methode is niet altijd betrouwbaar voor sommige groepen organismen, zoals planten.
Verbeterde classificatie via DNA-informatie
Om DNA-informatie toch in te kunnen zetten voor classificatie van planten, zijn andere methodes nodig. In het recent gepubliceerde artikel ‘Reliable genomic strategies for species classification of plant genetic resources’ keken onderzoekers van het CGN naar de beste methodes om planten juist te kunnen classificeren door middel van Single Nucleotide Polymorphism (SNP)-gegevens, een type DNA-informatie. Daarnaast worden suggesties en aanbevelingen gedaan om genenbanken te helpen hun gegevens te verbeteren, waaronder het ontwikkelen van een methode hiervoor. Datasets met SNP-gegevens zijn voor veel soorten al beschikbaar en worden in toenemende mate geproduceerd, waardoor geschikte methodes snel ingezet kunnen worden.
De geteste methodes maken gebruik van machine learning, een vorm van kunstmatige intelligentie. Computers worden via datasets met voorbeelden getraind om patronen in de data, bijvoorbeeld fouten, te herkennen, zodat soortgelijke patronen in nieuwe datasets efficiënt kunnen worden opgespoord via algoritmes. Om de geschiktheid van verschillende methodes te onderzoeken, gebruikten de auteurs een dataset van Helianthus spp. (zonnebloem) en twee datasets van Solanum spp. (tomaat). Door expres fouten in de datasets aan te brengen, werd getest welke methode deze fouten er het beste uit haalt. Daarnaast was het belangrijk om te weten welke methode juist geen extra fouten introduceert.
De conclusie van de auteurs is dat een conservatieve variant van het algoritme 3-Nearest Neighbours (3-NN) de meest betrouwbare uitkomst oplevert. Deze variant van het algoritme kijkt bij elke accessie naar de huidige classificatie en vergelijkt dit met de twee meest gelijkende accessies (op basis van SNP-gegevens) om te bepalen of deze classificatie aannemelijk is. Van alle geteste methodes verbeterde 3-NN de kwaliteit van de gebruikte datasets het meest en de auteurs geven aan dat dit ook voor andere datasets zou kunnen gelden. Een bijkomend voordeel van 3-NN is dat er minder monsters nodig zijn om de analyse uit te voeren, waardoor nauwkeurige classificatie ook mogelijk is wanneer van een CWR weinig accessies aanwezig zijn.
Bron foto: Thor Swift