Ensamblaje del transcriptoma y descubrimiento de genes del tallo carnoso de Cistanche Deserticola-Ⅰ
Sep 06, 2024
Fondos
Cistanche deserticola es una planta parásita completamente no fotosintética con gran valor medicinal y se distribuye principalmente en el desierto del noroeste de China. Su tallo carnoso seco es un tónico crucial enmedicina tradicional chinacon funciones de mejorar principalmente la función sexual masculina y fortalecer la inmunidad, pero se han realizado pocos estudios mecanicistas en parte debido a la falta de recursos genómicos y transcriptómicos.

CISTANCHE TUBULOSA NATURAL MEDICINA TRADICIONAL CHINA PHGS75% ECH 30% ACT 12%
Resultados
En este estudio, realizamos una secuenciación profunda del transcriptoma en el tallo carnoso de C. deserticola y se generaron alrededor de 80 millones de lecturas utilizando la secuenciación de pares de Illumina en la plataforma HiSeq2000. Utilizando el ensamblador Trinity, obtuvimos 95.787 secuencias de transcripción con longitudes de transcripción que oscilaban entre 200 pb y 15.698 pb, con una longitud promedio de 950 bases y una longitud N50 de 1.519 bases. Se identificaron 63.957 transcripciones como expresadas activamente con FPKM mayor o igual a 0,5, en las cuales 30.098 transcripciones se anotaron con descripciones de genes o términos de ontología genética mediante análisis de similitud de secuencias en varias bases de datos públicas (Uniprot, NR y Nt en NCBI y KEGG). . Además, identificamos genes enzimáticos clave implicados en la biosíntesis de lignina y glucósidos feniletanoides (PhG), que se sabe que son los principales ingredientes activos. Se identificaron cuatro genes de fenilalanina amonio-liasa (PAL), la primera enzima clave en la biosíntesis de lignina y PhG, basándose en la comparación de secuencias y el análisis filogenético. También se propusieron por primera vez dos vías de biosíntesis de PhG.
Conclusiones
En total, completamos un análisis global del transcriptoma del tallo carnoso de C. deserticola utilizando tecnología RNA-seq. Se identificó una colección de genes enzimáticos relacionados con la biosíntesis de lignina y glucósidos feniletanoides a partir de las transcripciones ensambladas y anotadas, y también se predijo la familia de genes de PAL. Los datos de secuencia de este estudio proporcionarán un recurso valioso para realizar futuras investigaciones de biosíntesis de glucósidos de feniletanoide y estudios genómicos funcionales en esta importante planta medicinal.
Introducción
C. deserticola es un género mundial de plantas perennes del desierto de la familia Orobanchaceae y es una especie completamente no fotosintética y generalmente crece como una planta holoparásita subterránea. Está parasitado en las raíces del psammófito Haloxylon ammodendron (Chenopodiaceae), que habita principalmente en desiertos y semidesiertos debido a su alta tolerancia a la sequía y la salinidad. C. deserticola muestra una fuerte resistencia a las duras condiciones ambientales y se distribuye principalmente en el noroeste de China, especialmente en Mongolia Interior, Gansu y Xinjiang. Se considera una especie silvestre en peligro de extinción en los últimos años debido al aumento del consumo por parte del ser humano. C. deserticola, que a menudo se llama ginseng del desierto, se conoce comúnmente como jopo del desierto y el tallo carnoso seco se ha utilizado ampliamente como un tónico tradicionalmente importante en China y Japón durante muchos años. Fue registrado inicialmente en Shen Nong Ben Cao Jing (Diccionario de Materia Médica China, 1977) hace aproximadamente 1800 años y fue considerado como una de las principales fuentes de laHierba medicinal china Cistanche.

CISTANCHE TUBULOSA NATURAL PARA MEJORAR LA FUNCIÓN SEXUAL PHGS75% ECH 30% ACT 12%
Los extractos de C. deserticola poseen una amplia gama de funciones medicinales, especialmente para su uso en la mejora de la función sexual, tonificación de los riñones, protección del hígado, actividad aperitiva, mejora de la memoria, actividad inmunomoduladora, antioxidante, antiinflamatoria, antiviral, etc. Los principales componentes bioactivos de C. deserticola son los glucósidos feniletanoides (PheG, PhG). Hasta la fecha, se han aislado más de 20 glucósidos feniletanoides del tallo suculento de C.deserticola. Entre ellos,acteósido y echinacósidoson dos componentes principales con actividades farmacológicas importantes y están documentados como estándares de calidad de C. deserticola en la farmacopea china (ediciones de 2005 y 2010). Los tres componentes químicos de los PhG son el ácido orgánico, el sacárido y el feniletanoide; sin embargo, los detalles sobre las vías biosintéticas de los feniletanoide siguen siendo poco conocidos en C.deserticola.
A pesar de la importancia comercial y medicinal de C.deserticola, los datos genómicos y transcriptómicos de esta especie son muy limitados. No hay tecnologías ecológicamente racionales disponibles en la base de datos del NCBI y la información completa del genoma de esta especie sigue sin estar disponible, excepto la secuencia del genoma del cloroplasto. Los datos transcriptómicos limitados dificultan el estudio de los mecanismos biosintéticos de PhG. La tecnología RNA-seq puede generar secuencias de las partes expresadas del genoma objetivo e identificar genes [18] utilizando las plataformas tecnológicas NGS (como Applied Biosystems SOLiD, Illumina HiSeq y Roche 454). Se está volviendo cada vez más popular en el ensamblaje de transcriptomas de novo, ya que es un enfoque potente y rentable con alta resolución y amplio rango dinámico, especialmente porque tiene la ventaja de explorar transcripciones de baja abundancia. Debido a sus diversas ventajas, RNA-seq es específicamente atractivo para organismos no modelo con recursos genéticos limitados. Sin embargo, no existe una investigación detallada sobre el transcriptoma de C. deserticola mediante RNA-seq.
En este estudio, secuenciamos globalmente el transcriptoma del tallo de C. deserticola utilizando la plataforma Illumina Hiseq2000 y obtuvimos datos sin procesar de 7,9G. Mediante ensamblaje y anotación, extrajimos los genes involucrados en la biosíntesis de PhG y los genes responsables de toda la biosíntesis de lignina. Nuestro análisis de RNA-seq generó el primer transcriptoma de consenso de C. deserticola y proporcionó nuevos conocimientos sobre una comprensión integral del valor medicinal de C. deserticola. Además, el método descrito aquí se puede aplicar ampliamente a transcriptomas de perfiles para facilitar el descubrimiento de genes implicados en vías de biosíntesis de componentes medicinales específicas en otra planta medicinal con recursos genómicos muy limitados.
Materiales y métodos
Recolección de material vegetal
El tallo suculento fresco de C. deserticola en la etapa de excavación se recolectó de una base de plantas en la ciudad de BayanHot de la Liga Alxa en Mongolia Interior, en el noroeste de China. El permiso de recolección se obtuvo del propietario (Grupo HongKui CongRong) de la base de la planta. El espécimen del comprobante fue depositado en la Instalación Genómica Central del Instituto de Genómica de Beijing de la Academia de Ciencias de China. Después de la limpieza, los tejidos del tallo suculento se cortaron en trozos pequeños y se congelaron inmediatamente en nitrógeno líquido y luego se almacenaron a -80 grados hasta su posterior procesamiento.
Extracción de ARN, construcción de bibliotecas de ADNc y secuenciación de Illumina
El ARN total se extrajo del tallo suculento utilizando el reactivo TRIzol (Invitrogen Inc., California, EE. UU.) de acuerdo con las instrucciones del fabricante. Las muestras resultantes se trataron con ADNasa I para eliminar cualquier ADN genómico. Los ARN extraídos se cuantificaron utilizando un bioanalizador Agilent 2100 (Agilent Technologies) y se verificó su integridad mediante electroforesis en gel de agarosa desnaturalizante con tinción con bromuro de etidio. En análisis posteriores se utilizaron muestras de ARN con proporciones A260/A280 entre 1,9 y 2,1, proporciones de ARN 28S:18S superiores a 1,0 y números de integridad de ARN (RIN) -8.5.
Las bibliotecas de RNA-seq se generaron utilizando los kits de preparación de muestras de ARN Illumina Truseq. Se aisló ARN poli(A)+ a partir de ARN total utilizando perlas Dynal liga(dT)25 según las instrucciones del fabricante. Después de la purificación, se añadió un tampón de fragmentación para romper el ARNm en fragmentos cortos. Se sintetizó la primera cadena de ADNc utilizando estos fragmentos cortos como plantillas, junto con la transcriptasa inversa SuperScript III y el cebador hexámero aleatorio N6. Luego se sintetizó el ADNc de segunda hebra usando tampón, dNTP, RNasaH y ADN polimerasa I. El ADNc de doble hebra resultante se sometió a reparación terminal usando ADN polimerasa T4, fragmento Klenow de ADN polimerasa I y polinucleótido quinasa T4, y se ligó a Adaptadores que utilizan ADN ligasa T4. Los fragmentos ligados al adaptador se purificaron utilizando un kit de extracción por PCR QiaQuick y eluyeron con tampón EB. Después del análisis mediante electroforesis en gel de agarosa, se seleccionaron fragmentos adecuados como plantillas para la amplificación por PCR. La secuenciación de la biblioteca de ADNc resultante se llevó a cabo con un sistema Illumina HiSeq 2000.
Transcripciones de ensamblaje de novo y cuantificación de expresión génica.
Las lecturas sin procesar generadas a partir de la secuenciación se limpiaron eliminando las secuencias del adaptador (ATCTCGTATGCCGTC) utilizando un método interno. Luego llevamos a cabo un riguroso proceso de filtrado de baja calidad. En primer lugar, las bases con una puntuación de calidad phred inferior a 20 se recortarían desde el extremo 3' de la secuencia, hasta encontrarse con una base con una calidad superior (mayor o igual a 20). Si la longitud de lectura fuera inferior a 50 pb, se descartaría. En segundo lugar, las lecturas se filtrarán aún más según el criterio de que el 70 % de las bases de una lectura tengan puntuaciones de alta calidad (mayor o igual a 20). En tercer lugar, solo se utilizaron lecturas de extremos emparejados para el ensamblaje posterior. El ensamblaje de transcripciones de novo se realizó utilizando la versión Trinity_20130216 [30] que constaba de tres módulos de software sucesivos: Inchworm, Chrysalis y Butterfly. Los parámetros de ensamblaje se establecieron de la siguiente manera: -seqType fq-JM 300G -min_contig_length 200-CPU 20-inchworm_cpu {{21} }bfly CPU 20.
Para cuantificar la abundancia de transcripciones, las lecturas secuenciadas de los extremos de los pares se realinearon con las transcripciones ensambladas utilizando un script en Trinity. Las lecturas mapeadas se utilizaron para la cuantificación mediante el software RSEM (RNA-Seq by Expectation Maximization). La abundancia de genes o isoformas estuvo representada por el valor de fragmento por kilobase de transcripción por millón de fragmentos mapeados (FPKM); aquellas transcripciones con un valor de FPKM igual o mayor que 0.05 se definieron como expresadas.
Anotación funcional de transcripciones expresadas.
No existen conjuntos de anotaciones genéticas de C. deserticola excepto el genoma del cloroplasto [1]. Anotamos las transcripciones expresadas comparándolas con los conjuntos de datos actualizados de Genbank Nt, Genbank Nr y TAIR10_ pep_20101214_por separado utilizando el programa BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.
Anotación de la ruta Gene Ontology y KEGG Mediante alineación de similitud de secuencia con la base de datos Uniprot (la anotación Gene Ontology (GO) de todas las transcripciones ensambladas se obtuvo utilizando un archivo de asociación descargado de (ftp://ftp.ebi.ac.uk/pub/ bases de datos/GO/goa/UNIPROT/gene_association. goa_uniprot.gz). La agrupación de términos GO de genes expresados se realizó mediante scripts personalizados y anotamos genes en el cuarto nivel para el Categorías CC, BP y MF por separado.
La información de la ruta KEGG se asignó para todas las secuencias de proteínas previstas utilizando la herramienta en línea KAAS (KEGG Automatic Annotation Server) [34]. Las secuencias en formato fasta se enviaron a solicitud de KAAS y se descargaron los archivos resultantes de toda la información de las vías relacionadas con el transcriptoma del tallo de C. deserticola. Se utilizaron 13 conjuntos de datos de genes de organismos vegetales en KEGG para la anotación utilizando el método BBH (bidireccional best hit).

EXTRACTO NATURAL DE CISTANCHE TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%
Análisis RT-qPCR
Después de la digestión con ADNasa I, aproximadamente 5 ug de ARN total se convirtieron en ADNc de primera cadena mediante la reacción de transcripción inversa con cebadores oligo(dT)15 y el sistema de transcripción inversa GoScript (Promega). Luego, los productos de ADNc se diluyeron 10- veces con agua desionizada libre de nucleasas antes de usarlos como plantilla en PCR en tiempo real. Los ADNc específicos se amplificaron mediante el sistema GoTaq 2-Step RT-qPCR (Promega) en un volumen de 20 ul. La amplificación por PCR se realizó a una temperatura de hibridación de 60 grados con el sistema de detección de PCR en tiempo real 7500 (Applied Biosystems) de acuerdo con las instrucciones del fabricante. Las abundancias relativas de transcripción se calcularon mediante el método del umbral del ciclo comparativo con el gen "comp10579_c0" como estándar interno, utilizando el software 7500 Manager.
Los pares de cebadores para RT-PCR se diseñaron basándose en software en línea (//primer3.ut.ee/) y se enumeran en el conjunto de datos S1.
Resultados
Secuenciación de ARN y ensamblaje de transcriptoma de novo del tallo carnoso de C. deserticola
El tallo de C. deserticola se ha utilizado ampliamente como tónico tradicionalmente importante en China y Japón durante muchos años. Para obtener una descripción general global de la expresión genética en el tallo carnoso de C. deserticola, recolectamos muestras de tallo de C. deserticola de la misma base de planta en 2013 y 2014, respectivamente. Se extrajeron los ARN totales y se purificaron los ARN poliA+ para construir bibliotecas de secuencias de ARN de extremos emparejados. Se obtuvieron 79,433,734 y 86,019,176 lecturas de extremos de pares correspondientes a casi 8 mil millones y 8,6 mil millones de bases de la secuencia utilizando la secuenciación Illumina HiSeq 2000.

plataforma en muestras de 2013-año y 2014-año (Tabla 1). Después de eliminar las secuencias del adaptador y filtrar lecturas de baja calidad (ver detalles en Métodos), se utilizaron 64,831,040 lecturas de pares de alta calidad en la muestra de 2013-años para el ensamblaje del transcriptoma de novo. Utilizando el ensamblador de secuencias Trinity [30], se generaron 51.719 genes y 95.787 secuencias de transcripción con longitudes de transcripción que oscilaban entre 200 pb y 15.698 pb. La longitud promedio de las transcripciones ensambladas es de 950 bases y la longitud de N50 es de 1519 bases. El número de transcripciones de diferentes longitudes reveló que el 57,32% de las transcripciones ensambladas tenían aproximadamente 500 pb o más (Fig. 1A). Las lecturas de pares de alta calidad en la muestra de 2014-años se asignaron al transcriptoma ensamblado. Además, encontramos que el número de transcripciones para cada gen ensamblado variaba y el 69% de los genes con una isoforma expresaban mientras que el 31% de los genes expresaban dos o más transcripciones (Fig. 1B).
Cuantificación de expresión y anotación funcional de transcripciones ensambladas.
La abundancia de genes o transcripciones se cuantificó utilizando el paquete RSEM, en el que las lecturas secuenciadas se realinearon con las secuencias de genes o transcripciones ensambladas usando Bowtie, y esas lecturas mapeadas se usaron para la cuantificación. Se calculó el valor de FPKM para cada gen o transcripción y, finalmente, identificamos 63,957 y 52,857 transcripciones expresadas activamente (valor de FPKM mayor o igual a 0.5) en muestras de tallos carnosos de C. deserticola en 2{{17} }13 y 2014, respectivamente. 44.776 transcripciones (70,01% en la muestra de 2013-año, 84,71% en la muestra de 2014-año) se expresaron comúnmente en las dos réplicas, y la correlación (coeficiente de correlación de Pearson: 0,91979) de sus datos de expresión fue como se muestra en la figura S1. Los datos sin procesar de secuenciación se cargaron en la base de datos NCBI SRA (números de acceso: SRX857402 y SRX858938). Utilizamos genes expresados identificados en la muestra de 2013-años para análisis posteriores. La información de anotación funcional para todas las transcripciones expresadas se obtuvo mediante dos métodos. En primer lugar, todas las transcripciones expresadas se alinearon con bases de datos de secuencias de nucleótidos (GenBank nt) y péptidos (GenBank nr y péptido Arabidopsis) conocidas por separado mediante el algoritmo BLAST. De 63.957 transcripciones expresadas,

29.220 (45,7%) fueron anotadas y mostraron homología con secuencias en cualquiera de las tres bases de datos temáticas con corte de valor E 1e-20. Mientras tanto, las regiones codificantes candidatas para todas las secuencias de transcripción expresadas se predijeron utilizando el software TransDecoder, y los ORF más largos para cada transcripción se usaron para la búsqueda del dominio Pfam. Como resultado, se anotaron 21.358 (33,4%) transcripciones según la base de datos de Pfam. En general, 30.098 (47,1%) transcripciones coincidieron significativamente con genes conocidos en las bases de datos públicas mediante la combinación de los dos métodos anteriores. La lista completa de transcripciones expresadas con anotación de funciones se mostró en datos complementarios (conjunto de datos S2).
Examinamos las 20 transcripciones más expresadas (Tabla 2), correspondientes al 18,99% de todas las lecturas de secuenciación, y descubrimos que la mayoría de ellas son genes que responden a reacciones abióticas.

estímulo de estrés. La dehidrina (DHN), una clase de proteínas de estrés hidrofílicas y termoestables con una gran cantidad de aminoácidos cargados que pertenecen a la familia Abundante de embriogénesis tardía (LEA) del Grupo II, es el gen más expresado. Se detectaron tres transcripciones diferentes de dehirina (comp28713_c0_seq1/2/4) altamente expresadas en tallos carnosos que pueden estar involucrados en la protección de las células contra el daño causado por el estrés por sequía. También se encontró que otros genes relacionados con el estrés, como la proteína de choque térmico, la proteína relacionada con patógenos y la metalotioneína, se expresan altamente, lo que puede estar relacionado con su entorno de supervivencia severo. Además, algunos genes constitutivos, incluido el gen del ARN ribosomal 26S (comp22329_c2_seq1), proteína reprimida por auxina/asociada a la latencia (comp20999_c0_seq1), El factor de ribosilación de ADP (comp20499_ c0_seq1) también se transcribió en gran medida.

CISTANCHE TUBULOSA NATURAL PARA MEJORAR LA INMUNIDAD PHGS75% ECH 30% ACT 12%







