R is a free software environment for statistical computing and graphics. It is available on a wide variety of UNIX platforms, Windows and MacOS. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. One of R’s strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed. On the other hand, Bioconductor, an open source and open development software project based on R, provides various tools for the analysis and comprehension of high-throughput genomic data. Also, a large number of meta-data packages provide pathway, organism, microarray and other annotations.
In the 6th two-day workshop of Bioinformatics workshop series held by Eslahchi-Lab we intend to introduce Bioinformatics in R. In the first two sessions, we introduce basics of R language and environment and get familiar with R studio. In the next two sessions, different methods of sequence alignment (pairwise and multiple alignment) and phylogeny construction are practiced. The second day starts with working on gene expression data obtained from MicroArray technology. You learn how to find, download, read, do quality check, normalize, and analyze the expression data. Then we go through classical control-treatment dataset analysis to extract Differentially Expressed Genes (DEGs). The last two sessions are dedicated to analyzing gene sets. Gene Ontology (GO) which defines concepts/classes used to describe gene function and relationships between those concepts and Kyoto Encyclopedia of Genes and Genomes (KEGG) which contains various types of data linked together like genomes, biological pathways, diseases, drugs, and chemical substances are introduced. Finally Gene Set Enrichment Analysis (GSEA) is practiced to identify similarity in the functions of genes or proteins that are over-represented in a large set of genes or proteins.
R یک محیط نرمافزاری رایگان برای محاسبات آماری و نمایش گرافیکی نتایج است. این محیط در سیستم عاملهای متداول از جمله ویندوز، بسیاری انواع یونیکس و مک در دسترس است. زبان R در میان آماردانان و تحلیلگران داده طرفداران بسیاری دارد. از جمله نقاط قوت R این است که به سادگی میتوان تصاویر مناسب و با کیفیت برای انتشار مقالات علمی شامل نمادها و فرمولهای ریاضی با آن تولید کرد. از سوی دیگر Bioconductor نرمافزاری متنباز با امکان توسعه مبتنی بر R است که ابزارهای گوناگونی برای تحلیل و تعمیق در دادههای پرحجم ژنومیک ارائه میدهد. همچنین پکیجهای مختلفی برای آن وجود دارند که انواع انوتیشنهای مربوط به مسیرهای زیستی، ارگانیسمها، ریزآرایهها و … را در اختیار قرار میدهند.
در ششمین کارگاه دو روزه از سری کارگاههای برگزار شده توسط آزمایشگاه دکتر اصلاحچی، به معرفی بیوانفورماتیک در R خواهیم پرداخت. در دو جلسه ابتدایی، مقدمات زبان R و محیط آن را معرفی خواهیم کرد و با محیط R Studio آشنا خواهیم شد. در دو جلسه بعد، انواع روشهای همترازی توالیهای زیستی (جفتی و چندگانه) و نیز روشهای ساخت فیلوژنی آموزش داده خواهد شد. روز دوم با کار روی اطلاعات بیان ژن براساس تکنولوژی ریزآرایه شروع میشود. ابتدا نحوه جستجو، دانلود، خواندن، کنترل کیفیت، نرمالسازی و تحلیل این دادهها به کمک R را فراخواهید گرفت. سپس تحلیل کلاسیک نمونههای تست-کنترل و یافتن ژنهایی که به صورت معناداری متفاوت بیان شدهاند (DEG) را مطرح خواهیم کرد. دو جلسه آخر به تحلیل مجموعههای ژنی اختصاص خواهد داشت. ابتدا با هستیشناسی ژنی (Gene Ontology) و KEGG به عنوان دو پایگاه داده مهم در زیستشناسی آشنا خواهیم شد. سپس روش تحلیل مجموعههای ژنی به کمک غنی سازی (Gene Set Enrichment Analysis) آموزش داده خواهد شد. به کمک این روش امکان یافتن کارکردهای مشترک در مجموعههای از ژنها یا پروتئینهای مد نظر (مانند DEG های شناسایی شده در مرحل قبل( فراهم خواهد شد.
Leave A Comment