Ақпарат

Нормалданған ген шеткіR/DESeq2 дейін есептеледі?

Нормалданған ген шеткіR/DESeq2 дейін есептеледі?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Екі әйгілі дифференциалды экспрессия пакеті шикі гендік матрицаны санауды болжайды. Бұл мағынасы бар, себебі статистикалық модель кітапхананың тереңдігін модельдейді. Бірақ егер мен есептеулерді ERCC РНҚ стандартты көрсеткішімен қалыпқа келтірсем ше? Бұл статистикалық күшке әсер ете ме? Жалған-позитивті? Неліктен нормаланған санау матрицасын беру ұсынылмайды?


Кеңес олар ұсынған көлемде тамшуырлау арқылы енгізілген вариацияларға байланысты ERCC спик-индерін мүлдем қолданбау болып табылады.

Сондай-ақ, ағында DESeq және EdgeR-ді нормалау арқылы DESeq және EdgeR пайдалану жолын түсіндіреді, бұл процесс DESeq-пен айтарлықтай жеңілірек болады, мұнда сіз calcSizeFactors-ті тек қана қосынды оқуларының санау матрицасында пайдалануға болады. EdgeR көмегімен lib.sizes параметрін қолдана отырып, мәндерді тапсыруға тура келеді.

Егер сіз limma-voom арқылы бөлшек санауды қолданғыңыз келсе, менің ойымша; Мен бөлшек болып табылатын RSEM санауында voom көмегімен жақсы нәтижелерге қол жеткіздім.


R ішіндегі RNA-Seq деректерін талдау - деректеріңіздегі дифференциалды экспрессияланған гендерді зерттеңіз!

Бұл оқулықта теріс бином DESeq2, pheatmap және tidyverse пакеттерін пайдаланып R-де дифференциалды ген экспрессиясын талдау үшін пайдаланылды. RNA-Seq деректерінің жұмыс процесі:

  • FASTQ тізбектеу файлдарының тізбектеу мүмкіндіктерінен
  • Тізбектелген оқу сапасын бағалаңыз
  • Оқудың шығу тегін анықтау үшін геномдық туралауды орындаңыз
  • Сәйкестендірілген оқулардың санау матрицасын құрыңыз, яғни әр геннің экзонына сәйкес келетін оқулар саны.

Реферат

Фон

RNA-Seq деректерінен дифференциалды гендерді анықтау үшін бірнеше R пакеттері бар. Талдау процесі үш негізгі қадамды қамтиды, атап айтқанда нормалау, дисперсияны бағалау және дифференциалды өрнекті сынау. Бұл процестің сапасын бақылау қадамдары ұсынылады, бірақ міндетті емес, ал деректер жиынының сипаттамаларын тексермеу жалған нәтижелерге әкелуі мүмкін. Бұған қоса, қалыпқа келтіру әдістері мен статистикалық модельдер пайдаланушылар жиі білмейтін барабар түрлендірулерсіз пакеттер бойынша алмастырылмайды. Осылайша, сапаны жүйелі бақылау қадамдарын қамту және ұсынылған әдістерді дұрыс қолданбау қателерінің алдын алу үшін арнайы талдау құбырлары қажет.

Нәтижелер

SARTools-бұл RNA-Seq санау деректерін дифференциалды талдауға арналған R құбыры. Ол блокаторлық фактормен немесе онсыз бір биологиялық фактордың екі немесе одан да көп шарттары бар конструкцияларды өңдей алады (мысалы, сериялық эффект немесе үлгі жұптастыру). Ол DESeq2 мен edgeR -ге негізделген және R пакетінен және екі R сценарийінен тұрады (сәйкесінше DESeq2 және edgeR үшін). Параметрлердің аз санын реттеп, R сценарийлерінің бірін орындай отырып, пайдаланушылар талдаудың толық нәтижелеріне, соның ішінде дифференциалды экспрессияланған гендердің тізімдерін және (i) сапаны бақылау және модель гипотезаларын тексеру үшін диагностикалық графиктерді көрсететін HTML есебін қоса алады. (ii) барлық талдау процесін, параметр мәндерін және қолданылатын R пакеттерінің нұсқаларын қадағалайды.

Қорытындылар

SARTools деректер жиынының жүйелі сапасын бақылауды, сондай-ақ үлгі параметрлерін реттеуге көмектесетін диагностикалық сызбаларды қамтамасыз етеді. Ол DESeq2 мен edgeR негізгі параметрлеріне қол жеткізуге мүмкіндік береді және оқытылмаған пайдаланушылардың екі пакеттің кейбір функцияларын теріс пайдалануына жол бермейді. Талдау процесінің барлық параметрлерін қадағалай отырып, ол қайталанатын зерттеулердің талаптарына сәйкес келеді.

Дәйексөз: Varet H, Brillet-Guéguen L, Coppée J-Y, Dillies M-A (2016) SARTools: RNA-Seq деректерін кешенді дифференциалды талдауға арналған DESeq2 және EdgeR негізіндегі R құбыры. PLoS ONE 11 (6): e0157022. https://doi.org/10.1371/journal.pone.0157022

Редактор: Кен Миллс, Белфаст патшайымы университеті, БҰҰТҚЫ ПАТШАЛЫҚ

Алынған: 2016 жылдың 6 сәуірі Қабылданды: 2016 жылдың 23 мамыры Жарияланды: 2016 жылғы 9 маусым

Авторлық құқық: © 2016 Varet және т.б. Бұл Creative Commons Attribution License шарттары бойынша таратылатын ашық қол жетімді мақала, ол түпнұсқа авторы мен дереккөзі көрсетілген жағдайда кез келген ортада шектеусіз пайдалануға, таратуға және көбейтуге рұқсат береді.

Деректердің қол жетімділігі: Барлық тиісті деректер https://github.com/PF2-pasteur-fr/SARToolsPaperData сайтында қолжетімді.

Қаржыландыру: Бұл жұмысты Agence Nationale pour la Recherche басқаратын «Investissements d'Avenir» бағдарламасы аясында қаржыландырылатын France Génomique National инфрақұрылымы қолдады (ANR-10-INBS-09 келісім-шарты).

Бәсекелес мүдделер: Авторлар бәсекелес мүдделер жоқ деп мәлімдеді.


РНҚ-дағы FPKM-ге қарсы санайды

Көбінесе адамдардың РНҚ-секвін орындау себебі геннің экспрессия деңгейлерін сандық түрде анықтау болып табылады. Теориялық тұрғыдан алғанда, РНҚ-сек-бұл қатынас деңгейіндегі деректер, және сіз заңды түрде 1-үлгідегі А генін 2-үлгіге, сондай-ақ 1-үлгідегі А мен В-ге қарсы генді салыстыра білуіңіз керек.

РНҚ-сег деректерінде геннің немесе транскрипттің немесе кез келген нәрсенің экспрессиясын өлшеудің екі негізгі жолы бар:

  1. есептейді бұл ген сияқты берілген ерекшеліктің сәйкес келетін оқулар саны.
  2. FPKMs немесе F рагменттері P er K илобазасы экзонның миллионға шаққанда оқуы әлдеқайда күрделі. Фрагмент ДНҚ фрагментін білдіреді, сондықтан жұптастырылған оқуды қамтитын екі оқу бір деп есептеледі. Экзонның бір килобазасы фрагменттердің саны гендегі (немесе транскрипттегі) барлық экзондардың жалпы ұзындығына бөлу арқылы қалыпқа келтірілетінін білдіреді. Бұл сиқыр әр түрлі ұзындықта болса да А генін В генімен салыстыруға мүмкіндік береді. Миллион оқуға бұл мән кітапхана көлеміне сәйкес қалыпқа келтірілгенін білдіреді. Бұл сиқырлық 1-үлгідегі РНҚ-тізбегі кітапханасында 60 миллион жұп оқылған болса да, 2-үлгі кітапханасында тек 30 миллион жұп оқылған болса да, 1-үлгідегі А генін 2-үлгімен салыстыруға мүмкіндік береді.

(Шын мәнінде, бұл пост көрсететіндей, екі әдістің арасында тек осылардан гөрі көбірек айырмашылықтар бар 𔂿, мен бұл туралы қорытындыда ораламын.)

Менің ойымша, экзоникалық ұзындық пен кітапхананың өлшемі бойынша қалыпқа келтіру маңызды емес сияқты, сондықтан мен FPKM-ді қолданамын және неге ешкім есептеулерді қолданатынын ешқашан түсінбедім. Бірақ егер сіз өз талдауыңызды қорғағыңыз келсе, сіз кез келген сұраққа «иә» деп жауап беруіңіз керек, мен мұны істедім, мен тапқанымды осында жасадым, және мен талдауды санау арқылы қайталағым келді. Сонымен қатар, санаумен айналысатын әріптесім маған FPKM бір үлгі мен екіншісінің арасындағы кейбір айырмашылықты жылтыратып, тым көп нормалауды қолданатынын айтты. Неліктен бұлай болуы мүмкін? Мен талдауды қайталауды санау арқылы қайталаймын деп шештім, мен мінез-құлықтың қалай ерекшеленетінін түсіну үшін FPKM-мен жанама салыстыру жүргізе аламын.

Екеуін салыстыру үшін мен RNA-seq деректер жинағына жүгіндім: Human BodyMap 2.0. Бұл жаттығудың мақсаттары үшін мен тек белгілі транскрипттерді қараймын.

FPKMs қалай есептеледі

сандарды қалай есептеу керек

Сіз bedtools multicov көмегімен санауды есептей аласыз, бірақ bedtools -N 1 параметрі бар Cufflinks -тен айырмашылығы қайда қарау керектігін айту үшін BED форматындағы транскрипт аннотация файлы қажет, multicov сіз үшін жаңа транскрипттерді ашпайды. Есептеулерді мен бұрын есептеген FPKM -мен тікелей салыстыру үшін мен сол транскрипт аннотация файлын қолданғым келіп, оны GTF -тен BED форматына түрлендіргім келді.

Бірден, бәрі күрделене түседі. Түпнұсқа транскрипттік аннотация файлында экзон немесе кодтау тізбегі немесе кодонды бастау немесе тоқтату бар бір транскрипттің әрбір тіркесімі үшін бір жол бар екенін байқадым. Тек екі экзоны бар PRNP-ді қарастырайық (эксон 1 - 5′ UTR және экзон 2 - кодтау тізбегі және 3′UTR) және шын мәнінде тек бір ғана транскрипт – – – мен білетін ешқандай негізгі сплайсинг вариациялары жоқ. Бұл файлда 18 жол бар.

Бұл PRNP-тің 4 түрлі нұсқасы оны қандай да бір жолмен Ensembl's дерекқорына әртүрлі транскрипттер ретінде енгізгендіктен, кейбіреулерінде қате кодтау тізбегі координаталары анық емес (шынайы кодтау тізбегі hg19 кезінде chr20:4680625 аяқталады).

Қалай болғанда да, егер бұл PRNP үшін өте нашар болса, онда көптеген біріктіру нұсқалары бар гендер үшін қанша қатар бар екенін елестете аласыз:

Бұл бізге қиындық тудырады. Енді, егер біз қалаған әрбір ықтимал экзон үшін біз тек GTF файлын BED файлына түрлендіретін bedops -те gtf2bed құралын қолдана аламыз:

5 мин). Бірақ, мүмкін, біздің талдау бірлігі - бұл транскрипттер немесе гендік белгілер. Егер біз экзон бойынша санау, содан кейін транскрипт немесе ген таңбасы бойынша топтастыру және экзон санының қосындысын алатын болсақ, біз PRNP-дегі әрбір экзонды төрт есе санап, TTN-дегі әрбір экзонды одан да көп рет санайтын боламыз! Бізге қажет нәрсе - GTF файлын гендік таңбаның бір жолына түрлендіру, егер гендік таңба біздің талдау бірлігі болса.

Erik Aronesty ‘s ea-utils-те дәл осылай жасауға Perl сценарийі бар екені белгілі болды. Ол gtf2bed деп аталады, жоғарыдағы кереует құралы сияқты, сондықтан түсінікті болу үшін мен оны gtf2bed_2.pl деп атадым. Жүктеп алу және іске қосу үшін:

1 минут. (Ескерту: егер сіз бұл жазбаны құбыр ретінде қолдансаңыз, онда алынған BED файлын өзгертусіз пайдалану бірнеше локалистерде көрсетілген гендер үшін өте мағынасыз нәтижелер беруі мүмкін екенін ескеріңіз, әрі қарай осы мақалада SNORD60 талқылауын қараңыз).

Алынған төсек файлын ашсаңыз, сіз бірінші үш бағанның тек хромосома, (ең ерте) транскрипцияның басталатын жері және (соңғы) геннің транскрипциясының ақырғы торабы екенін көресіз. барлық ықтимал транскрипттер бойынша осы гендегі сайттар.

Енді gtf2bed_2.pl өте дұрыс BED12 пішімін сақтайды, сондықтан жасайды exon құрылымы туралы ақпаратты blockSize және blockStarts бағандары түрінде сақтаңыз. Бірақ мультиков алғашқы үш бағаннан басқа ештеңені оқымайды. Сондықтан біз жасаған файлды есептегенде, сіз интрондар мен экзондарды бірдей есептейсіз. Айналадан сұрау арқылы айта алатын болсам, әркім өзінің РНҚ-сегментін осылай жасайды.

Мұны FPKM -мен салыстырыңыз, онда манжеттер тек экзоникалық оқуларды есептейді және экзонның жалпы ұзындығын генмен қалыпқа келтіреді, егер сіз есептесеңіз (кем дегенде осы құбырға сәйкес / егер сіз басқа нәрсені жасамасаңыз) сіз интроникалық оқуларды қосасыз. ФПКМ-ден айырмашылығы, сіздің кітапханаларыңызда mRNA-ға дейінгі ластану (демек интрониялық қамту) әсер етеді.

Осының бәрін айтқаннан кейін мен келесідей мультицов жүгірдім:

Бұл процессордың шамамен 50 сағат уақытын алды.

Айтпақшы, осы пәрмен үшін BAM файлдарының тізімін жасау бұл жолы мен echo -n көмегімен жасадым:

Алынған файлда gtf2bed_2.pl plus құрған 12 бағаннан тұратын бастапқы файл болады, бұл жағдайда мен шақырған 16 БАМ-дің әрқайсысы үшін 16 қосымша баған мультиковты қолдануды есептейді.

бірнеше ковариаттар

FPKMs, теориялық тұрғыда, кітапхананың өлшемі мен транскриптінің өлшемі бойынша қалыпқа келтірілген есептер болғандықтан, менде бұл талдау үшін осы екі мән болуы керек деп ойладым. Мен кітапхана өлшемін samtools view -c арқылы әрбір BAM-дағы оқулар саны ретінде есептедім:

Бұл таңқаларлық ұзақ уақытты алады (

30 мин/БАМ), сондықтан әрқайсысын жұмыс ретінде ұсыну қажет.

Мен қалаған басқа ковариат әр геннің ұзындығы болды. Бірақ қайсысы ұзындығы, сұрайсыз ба? Мен жаңа ғана жасаған BED файлын қолдана отырып, транскрипцияның ең ерте басталу сайтынан ең соңғы ықтимал транскрипцияның соңғы сайтына дейінгі ұзындықты алу оңай:

Егер сіз экзоникалық ұзындықты қаласаңыз, бұл аздап алдау. Әлбетте, манжеттер бұл ақпаратты нормалау үшін қолданылғандықтан белгілі бір түрде біледі, сондықтан мен Cufflinks изоформ.fpkm_tracking файлына қайта қарадым және оның әр транскрипт үшін ұзындық мәні бар екенін көрдім. Сіз оны осылай шығаруға болады:

Бірақ genes.fpkm_tracking бұл гендер үшін жоқ, өйткені бірнеше транскрипциясы бар геннің бір ұзындығын таңдау ыңғайсыз. Кейбір керемет сценарийлер мен bedtools біріктіру арқылы сіз гендегі барлық ықтимал экзондар бірлестігінің ұзындығын ала аласыз, бұл біз жаңа ғана жасаған gene.lengths.txt файлына ұқсас, бұл барлық мүмкін транскрипттердің бірлестігінің ұзындығы. Бірақ маған бұл міндетті түрде қажет емес.

Дәлел үшін мен әр гендік таңба үшін орташа ұзындықты да есептедім, бірақ бұл өрескел. Алдымен мен гендік белгілер мен ұзындықты bash-та ұстадым:

содан кейін R -ге оралған бірнеше SQL:

Қолымдағы санақтарды, FPKM және ковариаттарды ескере отырып, мен бұл шаралардың бір-бірінен қалай және неге ерекшеленетінін түсінуге кірістім.

Біріншіден, скучно орнату заттары:

Ең негізгі сұрақ: есептеулер мен ФПКМ өзара байланысты ма? Мен, әрине, солай деп үміттенер едім! Біз мұны бірнеше жолмен сұрай аламыз. Біріншіден, бұл сұрақты барлық гендік белгілер мен маталар комбинациясы бойынша сұрайық.

Бұл біртүрлі. Сызықтық кеңістікте (Pearson ’s корреляциясы) есептеулер мен FPKMs айтарлықтай, бірақ әрең корреляцияланған, rho = .006. Деңгейлік кеңістікте (Спирмен корреляциясы) олар өте күшті корреляцияланған, rho = ,81. Бұл деректер не болуы мүмкін қарау сияқты?

Бұл өте экстремалды: бұл көзқараста гендердің екі түрі бар сияқты: кейбір саны бар, бірақ

0 FPKMs, және кейбір FPKMs бірақ

0 есептеледі. Кез келген корреляцияны көргеніміз таңқаларлық.

Егер біз мұнда қарастырылған көптеген ұлпалардағы әрбір геннің орташа мәнін алсақ, бұл да дұрыс:

Ең шектен шыққан екі көрсеткіш IGHJ6 және SNORD60 болды, сондықтан мен оларды жеке қарастырдым.

IGHJ6 ұзындығы небәрі 61 бит, chr14:106,329,408-106,329,468, сондықтан оның саны аз, бірақ жоғары FPKM болуы таңқаларлық емес. Екінші жағынан, SNORD60 сондай-ақ қысқа ген, snoRNA бар болғаны 83 а.к. 16: 2,205,024-2,205,106. Сонымен, SNORD60 ′s мәмілесі қандай?

Алдымен мен бастапқы деректерге қарадым:

13-21 миллион оқылым, бірақ көптеген тіндерде FPKM нөл. Мәселенің көзін табу көп уақытты қажет етпеді: санауларды жасау үшін пайдаланған BED файлында SNORD60 ұзындығы 204 Мб:

Бұл GTF түпнұсқалық файлында мүлдем басқа геномдық локустарда үш экзонмен көрсетілгендіктен болады.

Мен осы GTF -ны BED файлына түрлендіру үшін gtf2bed_2.pl іске қосқан кезде, ол транскрипттің соңғы нүктесі ретінде ең төменгі бастапқы базаны және ең жоғарғы базаны таңдады.

Мұндай жағдайларды сүзудің қандай да бір әдісін табу таңқаларлықтай қиын болды. Менің BED файлымдағы гендік ұзындықтардың гистограммасы бұрынғы сызбалар сияқты экстремалды:

Ұзындығы қате екені анық гендерді сүзгілеу үшін кейбір кесінділерді іздеп, мен Google-да «адамның ең ұзын генін» таптым және шамамен 2,3 Мб өлшемді DMD таптым. ≤ 2.3Mb гендерінің гистограммасы бірінші гистограммадан сәл жақсы көрінеді:

Бұл мен күткен экспоненциалды үлестірімге жақынырақ, бірақ мен бұл бөлуде әлі де қате ұзақ гендер бар деп күдіктенемін.

Егер 2,3 Мb геннен тұратын бұл ішкі жиын неғұрлым ұтымдырақ болса және кем дегенде кейбір ең өрескел қателерді жойса, мен осы ішкі жиындағы FPKM-ге қарсы сандардың көп өзгергіштігін түсіндіруге болады деп үміттенген болар едім:

Бірақ жоқ, FPKM-дің сызықтық моделі

санау тек .008 R^2 береді. Модельге геннің ұзындығын қосу көмектеспеді:

Санақтарды геннің ұзындығына бөлу аздап ғана көмектесті, бұл бізді R^2-ге .016 дейін жеткізді:

Бұл деректер жиынына 52 686 Ensembl генінің таңбалары кіреді, сондықтан мен тек 23 705 hg19 RefSeq гендерін қарастырсақ, деректер жақсырақ жұмыс істей ме деп ойладым. Бұл аз ғана көмектесті, бұл бізді R^2-ге .026 дейін жеткізді:

Мен осы шектеулі деректер жиынтығымен барлық гендік-тіндік комбинацияларға оралғанда, ақырында Pearson ’s корреляциясы үшін .26, ал Spearman ’s үшін .83 болды.

Бұл мен күткендегідей тығыз корреляция әлі де емес, өйткені бұл екі өлшем дәл сол деректер жинағындағы бірдей нәрсені – гендік экспрессияны – кеңінен өлшеуі керек. Салыстыру үшін, мен әртүрлі үлгілер үшін RNA-seq деректерінде стандартты ген экспрессиясының QC конвейерін іске қосқанда, бірақ сол конвейер арқылы шақырылғанда, мен жиі .85 немесе одан жоғары үлгілер арасындағы Pearson корреляциясын табамын. Бұл жерде екі түрлі құбырмен аталатын деректер үшін мен тек .26 Pearson ’s аламын. Бұл, мүмкін, гендік экспрессияның нәтижелері қаншалықты мүмкін болатынын тағы бір сәтсіз еске салу. Қолданылатын технологиялар (әр түрлі биоақпараттық құбырларды қосқанда) негізгі үлгілерге қарағанда көбірек өзгергіштікті енгізеді.

Мен түсініктеме экзоникалық ұзындық пен геннің жалпы ұзындығының айырмашылығы болуы мүмкін деп ойладым. Бұл жерде сан гендердің жалпы ұзындығына бағаланады, содан кейін мен оларды гендердің жалпы ұзындығына бөлдім, ал FPKM экзон бойынша бағаланады және экзоникалық ұзындықпен нормаланады. ≤ 2,3 Мб және RefSeq гендердің осы салыстырмалы түрде жақсы жұмыс істейтін жиынтығы ішінде жалпы ұзындық пен экзоникалық ұзындық арасындағы корреляция әлі де сызықтық кеңістікте тек 0,19 және дәреже кеңістігінде 0,49 болады:

Бұл мәселенің кем дегенде бір бөлігі экзон мен интронды қамтитын есептеулер тек экзондарды қамтитын FPKM -ден мүлде өзгеше нәрсені өлшейтінін көрсетеді.

Осылайша, бұл екі көрсеткіш жай ғана басқа нәрсені өлшейтін сияқты және әртүрлі жауаптар алады (олардың арасындағы төмен корреляция дәлелдейді). Бұл ең көп дегенде екі әдістің біреуі А генін В генімен салыстыру үшін қолайлы екенін көрсетеді, яғни. Spearman ’s корреляциясы күшті болғандықтан, екеуі де реттік деңгейдегі талдаулар үшін жақсы болуы мүмкін.

Бұл жай ғана А генін В генімен салыстыру. Бірақ көбінесе талдауларымызда біз іздейтін жауап - экспрессия деңгейі қызығушылықтың кейбір айнымалыларымен, айталық, генотиппен, дәрі-дәрмекпен емдеу немесе уақыт нүктесімен корреляциялық гендерді табу. Мұндай нәтижелер әрбір жеке ген үшін есептеулер мен ФПКМ үлгілер бойынша корреляцияланған жағдайда ғана санаулар мен ФПКМ арасында қайталанатын болады. Бұл жағдайда біздің “samples ” - бұл Human BodyMap 2.0 бағдарламасындағы 16 түрлі ұлпа. Әр геннің деңгейі әртүрлі ұлпалар арқылы қаншалықты қайталанатынын бағалау үшін мен алдымен Пирсон корреляцияларының “жанартау сызбасын” жасадым:

Нәтижелер мен күткеннен әлдеқайда жақсы:

Пирсон корреляциясы % гендер
оң (p & lt .05) 83%
жоқ (p > .05) 6%
теріс (p & lt .05) 0.01%
ЖҚ* 11%

*NA мәндері барлық тіндерде 0 санауы бар немесе барлығында 0 FPKM бар жолдардан туындайды, сондықтан корреляциялық тест сәтсіз аяқталды.

Бір таңқаларлығы, мен оны Spearman ’s-мен қайта іске қосқанда, нәтижелер іс жүзінде бірдей болды (жоғарыдағы кестедегі барлық сандар пайыздың бір бөлігінде болды).

Сондықтан көптеген гендер үшін бұл геннің әртүрлі үлгілерінің экспрессия деңгейлері арасындағы айырмашылық кем дегенде осы жерде қарастырылатын екі метрика арасында номиналды түрде қайталанатын болады: санау және FPKM. Дегенмен, мен бұл тұжырымға тым көп мән беруден тартынамын, себебі мен мұнда мысал ретінде қолданатын нәрселер әр түрлі өрнек. ұлпалар, айырмашылығына қарағанда жеке тұлғалар. Тіндердің гендік экспрессиясының айырмашылығы биология үшін өте үлкен және өте маңызды, сондықтан мен жеке адамдар арасындағы айырмашылық әлдеқайда нәзік болады деп күтер едім. Жеке тұлғалар арасындағы айырмашылықтар FPKM-де көрінетін сияқты, мен бұл мысалда айта алмаймын.

қорытындылар

“FPKM” – фрагменттер экзонның килобазасына шаққанда миллион оқуға – – FPKM өңделмеген сандардан айырмашылығы экзоникалық ұзындық пен кітапхана өлшемімен қалыпқа келтірілген ген экспрессиясының өлшемі екенін білдіреді. Дегенмен, осы мысал барысында мен санау мен FPKM арасында бірнеше басқа айырмашылықтар бар екенін түсіндім:

  • Оқу бірнеше экзон анықтамаларын немесе бірнеше транскрипт анықтамаларын қабаттаса, Манжететтер FPKM есептеген кезде оқуды қай транскриптке(лерге) тағайындау туралы шешім қабылдайды. Есептеу, кем дегенде, қарапайым құбырда мен мұнда ұсынылған, соншалықты күрделі емес.
  • Осының нәтижесінде сандар әдетте тек гендік белгімен бағаланады. Егер олар транскрипт арқылы бағаланса, көптеген гендердің көптеген транскрипттері бар болғандықтан, көптеген оқылғандар екі еселенген (немесе тіпті ондаған рет саналған) болар еді. Салыстырмалы түрде геномдық локустар аз, оларда екі түрлі ген бір -біріне сәйкес келеді.
  • FPKM тек экзоникалық туралауды есептейді, санауларға (кем дегенде, бұл құбыр) интрондар кіреді. Геннің жалпы ұзындығы (интрондарды қосқанда) оның экзоникалық ұзындығымен (rho = .19) қарапайым ғана байланысты, сондықтан бұл үлкен айырмашылықты тудырады.
  • Санауды тудыратын құбыржолдар әдетте транскриптті ашуға қабілетті емес. Оның орнына сіз оларға белгілі гендері бар геномдық локустардың тізімін беруіңіз керек (FPKM көмегімен бұл міндетті емес). Транскрипттердің бір генге бір қатарға бірігуі жоғарыда SNORD60 үшін көргеніміздей мағынасыз нәтиже бермейтініне мұқият болу маңызды.

Осы айырмашылықтардың барлығы дәл сол деректер жиынында – – деп осында шақырған FPKM және санаулардың бір-бірімен неліктен соншалықты аз корреляцияға ие екендігін есепке алуға ықпал ететін сияқты (R^2 < .01 тіпті ген ұзындығының ауытқуларын алып тастағаннан кейін де). ). Осыған қарамастан, FPKMs және есептейді кез келген ген үшін біршама репродуктивті болуы мүмкін, дегенмен бұл талдау әр түрлі ұлпаларды (гендік экспрессияда үлкен айырмашылықтары бар) емес, әр түрлі индивидтерді (гендік экспрессияда нәзік айырмашылықтары бар) қарастырды.

Есептер мен FPKM мүлдем басқа нәрселерді өлшейтін сияқты, бұл пікірталасқа түседі, бұл неғұрлым дұрыс өлшеу. Мен өзімді сыртқа шығарып, FPKMs үшін біраз дауласамын. mRNA-seq кітапханалары мРНҚ үшін байытылған, әдетте полиА таңдау арқылы, осылайша интрониялық қамтудың көпшілігін жояды деп үміттенеміз. Сіз тек мРНҚ алу үшін зертханалық әдісті қолданып жатқаныңызды ескере отырып, сіздің құбырыңыз соған сәйкес болуы керек және тек экзондарды санауы керек. Әлбетте, FPKM -лер экзоникалық ұзындық пен кітапхананың көлемін, барлық жақсы нәрселерді нормалауды және белгілі бір транскрипттерге оқуды тағайындауды қамтитын неғұрлым күрделі әдісті білдіреді. Мен естіген емеспін, бұл дәлелді жоққа шығаратындарды мен естіген емеспін, олар өзгермелілігі мен белгілі бір нәрселер үшін күші болуы мүмкін басқа өлшем. Бірақ мен көрген ештеңе бұл қосымша өзгергіштік сіз талдағыңыз келетін нәрсені көрсетеді деп сендірмеді.

Айтуынша, бұл постқа менің бастапқы мотивациям сіз әрқашан екі жақтан да талдау жасағыңыз келеді, сондықтан сіз кез келген сұраққа жауап бере аласыз.

Эрик Валлабх Миникель туралы

Эрик Валлабх Миникель прион ауруының алдын алу үшін өмір бойы ізденіс үстінде. Ол MIT және Гарвард кең институтында негізделген ғалым.


Материалдар мен тәсілдер

Бұл бөлімде біз зерттеуімізде қолданылған нормалау әдістерін, сондай-ақ салыстыру кезінде қолданылған нақты критерийлерді сипаттаймыз. Біз сондай-ақ TCGA зерттеуін және әдістерді бағалау үшін қолданылатын симуляциялық зерттеуді талқылаймыз. Біз үш талдаудың жұмыс үрдісін қолдана отырып, дифференциалды өрнектеуге әр түрлі нормалау әдістерінің әсерін қарастырдық (1-сурет). Мұнда 1 және 2 жұмыс ағындары кітапхананың көлемін қалыпқа келтіру әдістерінің дифференциалды өрнектерге әсерін салыстырады, ал 3 жұмыс процесі жасырын артефактілерді бағалаудың әр түрлі әдістерін салыстырады, содан кейін осы белгісіз факторлар үшін үлгі қалыпқа келтіреді, сонымен қатар шығындарды есепке алмаудың әсерін қарастырады. дифференциалды өрнекті талдау үшін нормализацияға байланысты еркіндік дәрежелері. Ескерту 1–3 жұмыс үрдістері TCGA жатыр мойнын зерттеуі үшін пайдаланылады, ал симуляциялық зерттеу үшін тек 3 жұмыс процесі қарастырылады.

Кітапхана көлемін қалыпқа келтіру әдістерінің жұмыс үрдісі 1 (дизайн матрицасында қызығушылықтың негізгі факторы бар) және жұмыс үрдісі 2 (дизайн матрицасында негізгі қызығушылық факторымен бірге пакеттік идентификатор бар) көмегімен дифференциалды өрнектерді талдауға әсер етуін салыстыру үшін CESC деректер жиынтығын қолдану. Workflow 3 жасырын артефактілерді бағалаудың әр түрлі әдістерін салыстырады, содан кейін осы белгісіз факторлар үшін іріктеуді қалыпқа келтіреді және CESC жиынтығын да, имитациялық деректерді де қолдана отырып, дифференциалды өрнекті талдау үшін нормализацияға байланысты еркіндік дәрежесінің жоғалуын есепке алмаудың әсерін қарастырады. Симуляцияланған және CESC деректері үшін біз DE гендерін анықтаудың екі әдісін қарастырдық (яғни, жұмыс процесі 3): (1-бөлім) постмермализацияға негізделген талдау және (2-бөлім) сериялық әсерлерді қалыпқа келтіру дизайн матрицасы арқылы аяқталады. қызығушылықтың негізгі айнымалысын қамтиды. Назар аударыңыз, 3 -жұмыс үрдісінде UQ қалыпқа келтіру әдісі модельделген деректер үшін қарастырылмаған, сонымен қатар белгілі техникалық артефакт жоқ (мысалы, пакеттік идентификатор).

Ген ұзындығын қалыпқа келтіру

Микроаррациялық деректермен байқалмайтын, бірақ RNA-Seq зерттеулерінің аяқталуынан байқалатын техникалық ауытқу-бұл ген ұзындығының гендердің молдығына әсері. Атап айтқанда, үлкен гендердің гендік ұзындығы мен өлшемінің айырмашылығына байланысты кіші гендермен салыстырғанда сөзсіз жоғары оқу саны болады [15]. Бұл бұрмалауды түзетудің жиі қолданылатын әдістерінің бірі-RPKM/FPKM қолдану (миллион карталық оқуда кило-базаға оқулар/фрагменттер) [15,29,30]. Гендердің ұзындығын түзетудің тағы бір әдісі - бұл геннің ұзақтығын да, оқу ұзындығының реттілігін де ескеретін TPM (миллионға транскрипт) әдісі, бірақ ол әлі де реттілік тереңдігі мен жасырын техникалық артефактілер сияқты кейбір кемшіліктерге ұшырауы мүмкін [10, 24]. ERPKM – ген ұзындығын тиімді оқу ұзақтығымен алмастыратын RPKM жақсартуы (яғни, ген ұзындығы – оқу ұзақтығы + 1) [23]. Бұл әдістер геннің ұзындығындағы айырмашылықтарды түзету үшін гендерді қайта масштабтауды көрсетеді S1A сур.

Бұл әдістердің барлығы жалпы немесе тиімді есептеулерге негізделген қалыпқа келтіретін тәсілдерге сүйенеді және үлгілерде транскрипттің гетерогенді таралуы болған кезде нашар жұмыс жасайды [12,31]. Гендердің ұзындығы бойынша масштабтау дифференциалды экспрессияның біржақты бағасын бере алады және геннің ұзақтығы мен санының арасындағы оң позитивті байланыс ген ұзындығының нормализациясын қолдану арқылы толығымен жойылмайды [10,12,30,31]. Алайда, TPM және RPKM/FPKM мәндері, егер мақсат гендер арасындағы экспрессия деңгейлерін салыстыру болса (мысалы, гендерді салыстыру бойынша), дифференциалды экспрессиялық талдауды өрнектердің үлгілері бойынша салыстыру қажет болған жағдайда қолдануға болады [15,24] .

Кітапхана көлемін қалыпқа келтіру

Үлгілер арасындағы вариацияның бір көзі кітапхана өлшеміндегі айырмашылық болып табылады, мұнда кітапхана өлшемі берілген үлгі үшін жасалған оқулардың жалпы саны болып табылады. Кітапхана көлемінің айырмашылығы көптеген факторларға байланысты болуы мүмкін, соның ішінде үлгілерді мультиплекстеудегі айырмашылықтар (үлгілерді ағындық ұяшықтағы жолақтарға бөлу) немесе гендердің экспрессия деңгейіндегі жаһандық айырмашылықтар (S1B сур). Кітапхана өлшемін қалыпқа келтіру мақсаты кітапхана өлшемін көрсететін әрбір үлгідегі өңделмеген оқылған сандарды бір үлгіге тән фактор арқылы масштабтау арқылы кітапхана өлшемдерін салыстыруға болатын ету болып табылады. Үш жиі қолданылатын әдіс бар: жоғарғы квартиль (UQ), M мәндерінің кесілген ортасы (TMM) және салыстырмалы журнал өрнегі (RLE).

  • Жоғарғы квартил (UQ): Бұл қалыпқа келтіру әдісі бойынша, барлық үлгілер үшін нөлдік оқылатын саны бар гендерді алып тастағаннан кейін, қалған гендер саны олардың үлгісімен байланысты қалыпқа келтіру факторларын есептегенде нөлден өзгеше санақтардың жоғарғы квартиліне бөлінеді және орташа жоғарғы квартильге көбейтіледі. деректер жиынының барлық үлгілері бойынша [12]. Бұл қалыпқа келтіру әдісі EDASeq және edgeR Биоөткізгіш пакеттері [32,33].
  • M мәндерінің қысқартылған орташа мәні (TMM): Бұл қалыпқа келтіру әдісі гендердің көпшілігі дифференциалды түрде экспрессияланбайды (DE) гипотезасына негізделген. Әрбір үлгі үшін TMM коэффициенті есептеледі, ал бір үлгі сілтеме үлгісі ретінде, ал басқалары сынама үлгілері ретінде қарастырылады. Әрбір сынақ үлгісі үшін ең көп экспрессияланған гендер мен ең үлкен лог қатынасы бар гендерді алып тастағаннан кейін, TMM осы сынақ пен сілтеме арасындағы журнал қатынасының орташа өлшенген мәні ретінде есептеледі. DE гипотезасы төмен болғандықтан, TMM 1 -ге жақын болуы керек. Егер олай болмаса, оның мәні кітапхана өлшемдеріне қолданылуы тиіс түзету коэффициентінің бағасын береді [21]. Бұл нормалау әдісі edgeR Әдепкі қалыпқа келтіру әдісі ретінде биоөткізгіш пакеті [33].
  • Салыстырмалы журнал өрнегі (RLE): TMM сияқты, бұл нормаландыру әдісі де гендердің көпшілігі DE емес деген гипотезаға негізделген. Берілген үлгі үшін RLE масштабтау коэффициенті барлық гендер бойынша оның оқылуының барлық үлгілердегі геометриялық орташа мәніне қатынасының медианасы ретінде есептеледі. Гендердің көпшілігі DE емес деп есептей отырып, берілген гипотезаны орындау үшін берілген үлгінің арақатынасының медианасы барлық оқылған есептеулерге түзету коэффициенті ретінде пайдаланылады [34]. Бұл қалыпқа келтіру әдісі енгізілген DESeq және DESeq2 Биоөткізгіштер пакеттері [34,35].

Үлгіні нормалау бойынша

Кітапхана өлшемін қалыпқа келтіру әдістері негізінен реттілік тереңдігіне сәйкес келетіндіктен және басқа техникалық вариацияларға реттелмейтіндіктен, деректер сапасын және биологиялық сәйкес гендерді анықтау мүмкіндігін жақсарту үшін үлгі бойынша қалыпқа келтіру әдістері басқа техникалық артефакттарды түзету үшін ұсынылды. Алайда, мұндай вариацияның техникалық көздері қызығушылық тудыратын негізгі биологиялық фактормен байланыстырылғанда немесе шешілгенде оларды шешу қиынға соғады, сондықтан HTS зерттеулерін аяқтаған кезде жақсы эксперименттік дизайн қажет. Осылайша, техникалық артефактілерді қалыпқа келтіруді аяқтағанда, біз қызығушылықтың негізгі факторы барлық артефактілерден тәуелсіз деп есептейміз [16,17,25]. Сонымен қатар, техникалық вариациялардың көптеген ықтимал көздері зерттеушіге жазылмаған немесе белгісіз. Сондықтан белгілі техникалық артефактілерді қалыпқа келтіруден басқа, әлеуетті белгісіз немесе жасырын айнымалыларды бағалау және түзету де кепілдендіріледі [18].

Белгілі техникалық артефакт

Неғұрлым күрделі модельдеу әдістерінен айырмашылығы, сәйкес статистикалық модель (мысалы, сызықтық регрессия модельдері) шеңберінде белгілі техникалық артефактілерді тікелей түзетуді көздейтін тәсіл. Мысал ретінде қызығушылықты салыстырудың дәлдігін жақсартуы мүмкін белгілі техникалық артефактілермен бірге дизайн матрицасына қызығушылықтың негізгі биологиялық факторлары бар модельді қосуға болады [16,36]. Сонымен қатар, ұсынылған қалыпқа келтірудің кейбір әдістері кішігірім іріктеу өлшемдерінен асып кетпейді, мұнда икемді эмпирикалық Bayes әдісі деп аталады. ComBat, шағын іріктеу өлшемдерімен сериялық әсердің берік түзетулерін ұсыну ұсынылды [26,27]. Алайда, Combat Бұл әдіс биологиялық модельге аз көңіл бөледі және биологиялық модельді көрсетпестен, жаһандық вариацияны төмендетеді. Сонымен қатар, ComBat Кішігірім партиялармен (немесе үлгі өлшемімен) қолдану үшін өте маңызды болып табылатын белгілі техникалық артефактілерді түзетуді болдырмау үшін эмпирикалық Bayes әдісі қолданылады.

Белгісіз техникалық артефакт

Жақында осы вариация көздерін анықтау үшін жасырын факторларды бағалау арқылы белгісіз техникалық вариацияларды бағалау және жою үшін қалыпқа келтіру әдістері жасалды. Бұл әдістердің кейбіреулері деректердің қажетсіз өзгеруін анықтау үшін сингулярлық декомпозицияға (SVD) немесе басқа факторлық талдау әдістеріне сүйенеді. Бұл тәсілдерді қолданудың бір мәселесі – қажетсіз техникалық вариацияны қызығушылық тудыратын биологиялық факторлардан ажырату қиындығы. Демек, жағымсыз бақылау гендеріне факторлық талдау жасау арқылы белгісіз техникалық вариацияларды реттеу әдісі ұсынылды (RUV) [17,37]. Therefore, variations in the expression levels of these genes can be assumed to be unwanted variations. Housekeeping genes [38] or spike-in controls [39] are the examples of negative controls. However, RUV method does not need the negative control genes or samples [17]. Other commonly used methods to address this problem in identifying the unknown technical variations are the surrogate variable analysis (SVA) [18] and principal component analysis (PCA) [40]. It should be noted that in the case of RUV, SVA and PCA methods, it is possible that some of the estimated latent factors are not technical artifacts but rather represent true biology presented in the data. Thus, it is important to adjust for any known biological factors of interest and known technical artifacts prior to estimation of latent factors. The correct usage of these methods in estimating the latent technical artifacts has the potential to increase statistical power in downstream differential expression analysis, while note that increasing the number of estimated batch effects also can reduce power due to the additional bias of degrees of freedom [27,41].

After estimating the latent factors using RUV, SVA and PCA approaches, an appropriate statistical approach (e.g., linear model or ComBat) is used to obtain the normalized data.

  • Remove Unwanted Variation (RUV): Under this approach, the factors of unknown technical variations are estimated and removed by performing the factor analysis on suitable sets of negative control genes or samples by keeping the primary factor of interest. Therefore, RUV [17] method is divided into three sub-methods: RUVg, RUVs, and RUVr. The RUVg and RUVs are used when negative control genes and negative control samples (i.e., samples whose read counts are not influenced by the primary factor of interest) exist. However, RUVr (i.e., residual RUV) does not require the existence of negative control genes or samples. SVD is then computed on the residual matrix to estimate the factors of unknown technical variations. The number of factors of unwanted variation, k, should be guided by considerations that include samples sizes, extent of technical effects captured by the first k factors, and extent of differential expression [17,25].
  • Surrogate Variable Analysis (SVA): In this approach, the unknown technical variations or “surrogate variables” (SV’s) are estimated by applying SVD on the computed residual matrix and selecting significant eigenvectors [18,25,42]. The first step in SVA is to determine the number of SVs using one of the two methods, “BE” or “Leek” as noted in [18,26,43]. The “BE” method is based on a permutation procedure originally proposed by Buja and Eyuboglu [43], while the “Leek” method provides an interface to the asymptotic approach proposed by Leek [42], where under the specific assumptions, the right singular vectors are asymptotically consistent for latent artifacts as the number of features grows large. Once the number of SVs is calculated, then using the two-step algorithm following Leek and Storey [18] to estimate unknown technical artifacts.
  • Principal Component Analysis (PCA): This approach is completed by applying SVD to the scaled residual matrix to estimate the factors of unknown technical variations [44]. One can determine the number of PCs to include in the model by multiple methods, including: PCs that explain a given percent of the variation PCs that are associated with the biological factors of interest (i.e., confounders) top PCs regardless of association with the primary factors of interest application of the Tracy-Widom test for determining eigenvalues significantly different from zero (noting that the assumption of independence is not valid) [45–47] or determine the PCs to include based on a permutation testing approach similar to that implemented in the SVA method.

Issues of loss of degrees of freedom

For practical purposes it is more convenient to perform downstream analyses on the batch adjusted or normalized data without further consideration of technical artifacts effects. However, adjustment for technical artifacts reduces the effective degrees of freedom in the dataset and thus changes the null distribution of the test statistics. Not accounting for this change in the degrees of freedom due to normalization for batch effects may lead to increase the false positive rates, especially when the primary factors of interest are not equally represented in all batches or batch effects act as a confounder [41]. It should be noted that whatever our normalization approach is, one is in essence reducing the degrees of freedom in the data which in turn should lower the statistical power of the test. For example, let’s assume there are two studies (Study A and Study B) with the same sample size. Let’s also assume that Study A implemented good experimental design and did not need to normalize for any known or unknown technical artifacts, while Study B did not implement adequate experimental design and thus needed extensive across sample normalization. In this situation, Study A will have more power to detect a true biological effect compared to Study B. However, the loss of degrees of freedom associated with Study B due to normalization is often overlooked in the implementation of analysis approach involving across sample normalization followed by association analysis of gene expression levels with the biological factor of interest. In the following sections, we assess the extent of the impact of the loss of degrees of freedom on the type I error rate on association testing via a simulation study.

Comparison of methods

TCGA cervical study.

To compare the normalization methods and their impact on the differential expression analysis, publically available data from the TCGA cervical study (CESC) was used [28]. Level 3 RNA-Seq data (summarized gene expression levels) and clinical patient data were downloaded via Genomic Data Commons (GDC) (https://gdc.cancer.gov/) (July 2017). The large-scale study the size of the TCGA unavoidably generated technical artifacts. These factors (e.g., tissue source site, plate ID, sequence center) were tracked for each sample with this information contained within the original TCGA ID. These known factors can also be downloaded from MBatch, a web-based analysis tool for normalization of TCGA data developed by MD Anderson. (https://bioinformatics.mdanderson.org/tcgabatcheffects).

For the CESC study, gene expression data was measured on 60,433 genes and 178 cervical tissue samples (144 squamous cell carcinomas, 31 adenocarcinomas and 3 adenosquamous cancers). The integrative clustering analysis reported in the main CESC TCGA paper used mRNA, DNA methylation, miRNA and copy number variation data identified two squamous-carcinoma-enriched groups and one adenocarcinomas-enriched group [28]. The two squamous-carcinoma groups differ largely based on gene expression levels where one squamous cluster had high expression of keratin gene family members (keratin-high) and the other squamous cluster had low expression of keratin genes (keratin-low). Hence, for comparison of the normalization methods and impact on the differential expression analysis results, we restricted our analysis to the squamous cell carcinomas and set out to determine DE genes between the keratin-high (N = 47) and keratin-low (N = 86) tumors groups. After filtering non-expressed or low-expressed genes based on counts per million (CPM), 20,884 genes with CPM values above 1 in at least 3 libraries remain.

Simulation study.

An extensive simulation study was completed to compare the performance of SVA (“BE” and “Leek”) and PCA (based on different percent of variation) methods to identify the number of latent factors (i.e., SVs), and determine SVs, where the residual RUV method was also included. Then, the performance of different across latent factor identification methods were followed by normalization compared using Euclidean distance. The simulation study also investigated the impact of not accounting for the loss of degrees of freedom due to normalization on testing (i.e., impact on the type I error rate). The empirical type I error rate was computed for each “null” gene in which the proportion of the simulated datasets (out of 1,000 simulations) with differential gene expression p-value less than 0.05. Then, for the set of simulated null genes, the average type I error rate was computed by averaging the individual “null” gene type I error rates. In the simulation of the data, we considered two main scenarios: (I) only the batch effect(s) simulated (no primary biological factor) and (II) batch effects plus the effect of a biological variable of interest, where batch and biological effect were uncorrelated. The technical artifact was simulated to represent different mechanisms: discrete number of batches or runs of the samples (e.g., two groups) or a trend effect due to time of run with a continuous effect. The primary biological effect simulated was a binary factor, such as a treatment group and a control group. Note that in the simulation study, the genes with p-values less than 0.05 are considered to be DE.

We have g = 1,…,Г. гендер, n = 1,…,Н samples, k = 1,2 biological groups, and l = 1,…,Л batches. Болсын xgnkl be the count for gene g in biological group k, sample n, and batch l, with a Negative Binomial distribution: xgnkl

NegBin(μgnkl,..g). The parameters μgkl және ..g are the mean and dispersion, respectively. Under each scenario (I or II), we changed the sample size (N = 20, 50, 100, 200), the percentage of genes were affected by the batch effect(s) (5%, 10%, 15%), and the percentage of DE genes (0%, 3%, 5%, 10%, 15%). For each scenario, 1,000 datasets were generated, where for each dataset we simulated expression levels for G = 1,000 genes. The baseline parameters and (no batch or biological effects, “null” hypothesis) were estimated using the maximum likelihood estimation (MLE) for the keratin-high samples from the CESC data. The different “non-null” simulated datasets were generated as follows.

Under the scenario I, we considered the binary batch (i.e., sequencing in different labs), continuous batch (e.g., time of day), and both binary and continuous batches. While under the scenario II, we took into account the effect of primary biological factor along with the batch effects (both binary and continuous). Then, the non-null genes (i.e., DE genes) were affected by the batch effect(s) or/and primary biological factor were generated using a mean shift and dispersion , where ωj = (ω1j,ω2j,…,ωGj) және γj = (γ1j,γ2j,…,γNj) represent the j th effect of batch or primary biological variable, and J represents the total number of variables as batch and primary biological in the study (see S1 Table).

For the scenario I, to generate only the binary batch variable (i.e., l = 1,2),γ1 was generated from the Bernouli distribution and ω1 was generated from the Normal distribution (μ = 0,σ = 2). While for the continuous batch variable (i.e., l = 1,…,Н),γ1 was generated from the standard Uniform distribution, У(0,1), and ω1 were generated from the Normal distribution (μ = 0,σ = 6). If we consider both binary and continuous variables (J = 2), then γj және ωj for j = 1,2 were generated as explained before. Lastly, for the scenario II, to take into account the effect of biological factor along with the batch effects (both binary and continuous), then γ3 және ω3 were generated from the Bernoulli distribution and the Normal distribution (μ = 0,σ = 2), respectively. The reason of changing the values of σ is that to provide the moderate effects for batch and primary biological variable under each scenario. The code to generate the simulated data is available at S1 File.


Қолданылуы

a DESeqDataSet, or matrix of counts

logical, whether to blind the transformation to the experimental design. blind=TRUE should be used for comparing samples in an manner unbiased by prior information on samples, for example to perform sample QA (quality assurance). blind=FALSE should be used for transforming data for downstream analysis, where the full use of the design information should be made. blind=FALSE will skip re-estimation of the dispersion trend, if this has already been calculated. If many of genes have large differences in counts due to the experimental design, it is important to set blind=FALSE for downstream analysis.

by default, this is not provided and calculated automatically. if provided, this should be a vector as long as the number of rows of object, which is log2 of the mean normalized counts from a previous dataset. this will enforce the intercept for the GLM, allowing for a "frozen" rlog transformation based on a previous dataset. You will also need to provide mcols(object)$dispFit .

a single value, the variance of the prior on the sample betas, which if missing is estimated from the data

in case dispersions have not yet been estimated for object , this parameter is passed on to estimateDispersions (options described there).


Differential gene expression analysis

Differential expression analysis means taking the normalised read count data and performing statistical analysis to discover quantitative changes in expression levels between experimental groups. For example, we use statistical testing to decide whether, for a given gene, an observed difference in read counts is significant, that is, whether it is greater than what would be expected just due to natural random variation.

Methods for differential expression analysis

There are different methods for differential expression analysis such as edgeR and DESeq based on negative binomial (NB) distributions or baySeq and EBSeq which are Bayesian approaches based on a negative binomial model. It is important to consider the experimental design when choosing an analysis method. While some of the differential expression tools can only perform pair-wise comparison, others such as edgeR, limma-voom, DESeq and maSigPro can perform multiple comparisons.

In Figure 11, below, we outline the RNA-seq processing pipeline used to generate data for Expression Atlas.

11 -сурет RNA-seq processing pipeline used to generate gene expression data in Expression Atlas.

In this pipeline raw reads (FASTQ files) undergo quality assessment and filtering. The quality-filtered reads are aligned to the reference genome via HISAT2. The mapped reads are summarised and aggregated over genes via HTSeq. For baseline expression, the FPKMs are calculated from the raw counts by iRAP. These are averaged for each set of technical replicates, and then quantile normalised within each set of biological replicates using limma.

Finally, they are averaged for all biological replicates (if any). For differential expression, genes expressed differentially between the test and the reference groups of each pairwise contrast are identified using DESeq2.


In projects that involve samples from different biological conditions, statistical analyses can be used to identify quantitative changes in gene expression between the different conditions. We perform this analysis using the DESeq2 framework (Love et al., 2014). The main output is a table that contains the average expression, fold-change, and associated statistics such as the P and corrected P values for each gene.


FPKM vs raw read count for differential expression testing

I'm a plant pathology student and we used RNA sequencing to examine differential expression of genes related to a specific pathway in response to a stressor in two plant varieties (a tolerant and susceptible line). I was recently criticized while presenting my RNA-seq results for using FPKM values rather than raw read counts when examining differential expression of a given gene across conditions and with the expression of other genes.

We used Illumina sequencing and mapped using Tophat followed by Cufflinks, then Cuffdiff. This professor was under the impression that FPKM values are too normalized, and that you loose accuracy if the gene is incorrectly annotated and/or the gene is very short or very long. My question, is this a criticism that you have heard before? Is it necessarily wrong to present data as FPKM values? I'm just curious what the opinion is on this subject.

Ok --- so it seems this question comes up көп (I'm going to sit down and write a blog post about this at some point). There are a couple of things worth pointing out from your question.

First, most packages істемеу support the use of TPM or FPKM for differential expression testing. This means that e.g. it's completely wrong to feed them to programs expecting counts (e.g. DESeq2 or EdgeR). One reason for this is that these measures are normalized. What I mean by this is that, for example, if you sum the TPM of all genes/transcripts in a sample, the sum will always be 1,000,000 this is a direct result of the way TPM is calculated. FPKM will behave in a similar manner (though, as many have pointed out, TPM should always be preferred to FPKM which has a more arbitrary and less stable normalization term).

Some tools do make use of FPKM for differential expression testing (the Tuxedo tools), but they also maintain extra information about samples (e.g. the total number of reads) that allow for the proper comparison of these normalized measures across samples. On the other hand, most popular stand-alone DE tools (e.g. DESeq2, EdgeR, etc.) expect counts as input. This is because they perform their own, internal, normalization to help account for effect size (1000 reads coming from a transcript means something different when there are 10 million reads in my sample vs. 50 million). My personal recommendation would be to use salmon (disclosure: I'm the author of this tool P) to process your sample, and then feed the "NumReads" column (appropriately rounded) to a DE tool like DESeq2. That being said, the pipeline that it sounds like you followed (i.e. TopHat => Cufflinks => CuffDiff) is not unreasonable --- these tools were meant to be used together. While some recent surveys have shown that they can be outperformed by other methods, I don't believe there is anything systematically wrong on that front.

On a finer point, regarding what was said by the professor that

FPKM values are too normalized, and that you loose accuracy if the gene is incorrectly annotated and/or the gene is very short or very long.


Anders, S., and Huber, W. (2010). Differential expression analysis for sequence count data. Геном Биол. 11:R106. doi: 10.1186/gb-2010-11-10-r106

Bacher, R., Chu, L., Leng, N., Gasch, A. P., Thomson, J. A., Stewart, R. M., et al. (2017). SCnorm: robust normalization of single-cell RNA-seq data. Нат. Әдістері 14:584. doi: 10.1038/nmeth.4263

Bullard, J. H., Purdom, E., Hansen, K. D., and Dudoit, S. (2010). Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments. BMC биоинформатикасы 11:94. doi: 10.1186/1471-2105-11-94

Cole, M. B., Risso, D., Wagner, A., DeTomaso, D., Ngai, J., Purdom, E., et al. (2018). Performance assessment and selection of normalization procedures for single-cell RNA-seq. bioRxiv [Preprint]. doi: 10.1101/235382

Dobin, A., Davis, C. A., Schlesinger, F., Drenkow, J., Zaleski, C., Jha, S., et al. (2013). STAR: ultrafast universal RNA-seq aligner. Биоинформатика 29, 15�. doi: 10.1093/bioinformatics/bts635

Gao, S. (2018). Data analysis in single-cell transcriptome sequencing. Мол әдістері. Биол. 1754:18.

Gao, S., Ou, J., and Xiao, K. R. (2014). language and Bioconductor in Bioinformatics Applications(Chinese Edition). Tianjin: Tianjin Science and Technology Translation Publishing Ltd.

Gao, S., Tian, X., Chang, H., Sun, Y., Wu, Z., Cheng, Z., et al. (2017). Two novel lncRNAs discovered in human mitochondrial DNA using PacBio full-length transcriptome data. Mitochondrion 38, 41�. doi: 10.1016/j.mito.2017.08.002

Gao, S., Zhang, N., Duan, G. Y., Yang, Z., Ruan, J. S., and Zhang, T. (2009). Prediction of function changes associated with single-point protein mutations using support vector machines (SVMs). Гум. Мутат. 30, 1161�. doi: 10.1002/humu.21039

Glusman, G., Caballero, J., Robinson, M., Kutlu, B., and Hood, L. (2013). Optimal scaling of digital transcriptomes. PLoS One 8:e77885. doi: 10.1371/journal.pone.0077885

Jiang, L., Schlesinger, F., Davis, C. A., Zhang, Y., Li, R., Salit, M., et al. (2011). Synthetic spike-in standards for RNA-seq experiments. Genome Res. 21:1543. doi: 10.1101/gr.121095.111

Li, P., Piao, Y., Shon, H. S., and Ryu, K. H. (2015). Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data. BMC биоинформатикасы 16:347. doi: 10.1186/s12859-015-0778-7

Lovén, J., Orlando, D. A., Sigova, A. A., Lin, C. Y., Rahl, P. B., Burge, C. B., et al. (2012). Revisiting global gene expression analysis. Ұяшық 151, 476�. doi: 10.1016/j.cell.2012.10.012

Lun, A. T., Karsten, B., and Marioni, J. C. (2016). Pooling across cells to normalize single-cell RNA sequencing data with many zero counts. Геном Биол. 17:75. doi: 10.1186/s13059-016-0947-7

Robinson, M. D., McCarthy, D. J., and Smyth, G. K. (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Биоинформатика 26, 139�. doi: 10.1093/bioinformatics/btp616

Wu, Z., Liu, W., Jin, X., Yu, D., Wang, H., Glusman, G., et al. (2018). NormExpression: an R package to normalize gene expression data using evaluated methods. bioRxiv [Preprint]. doi: 10.1101/251140

Zhang, M., Zhan, F., Sun, H., Gong, X., Fei, Z., et al. (2014). �stq_clean: an optimized pipeline to clean the Illumina sequencing data with quality control,” in Proceedings of the IEEE International Conference on Bioinformatics and Biomedicine (BIBM), (Piscataway, NJ: IEEE).

Keywords : gene expression, normalization, evaluation, R package, scRNA-seq

Citation: Wu Z, Liu W, Jin X, Ji H, Wang H, Glusman G, Robinson M, Liu L, Ruan J and Gao S (2019) NormExpression: An R Package to Normalize Gene Expression Data Using Evaluated Methods. Алдыңғы. Генет. 10:400. doi: 10.3389/fgene.2019.00400

Received: 24 December 2018 Accepted: 12 April 2019
Published: 30 April 2019.

Tuo Zhang, Cornell University, United States

Yudong Cai, Shanghai University, China
Naibin Duan, Shandong Academy of Agricultural Sciences, China

Copyright © 2019 Wu, Liu, Jin, Ji, Wang, Glusman, Robinson, Liu, Ruan and Gao. Бұл Creative Commons Attribution License (CC BY) шарттары бойынша таратылатын ашық қол жетімді мақала. Басқа форумдарда қолдануға, таратуға немесе көшіруге рұқсат етіледі, егер автордың авторы мен авторлық құқық иесінің авторы есептелген болса және қабылданған академиялық тәжірибеге сәйкес осы журналдағы түпнұсқалық басылымға сілтеме жасалса. Осы шарттарға сәйкес келмейтін пайдалануға, таратуға немесе көбейтуге рұқсат етілмейді.


Бейнені қараңыз: Shrinkage DESeq2 (Желтоқсан 2022).