R is a free software environment for statistical computing and graphics. It is available on a wide variety of UNIX platforms, Windows and MacOS. The R language is widely used among statisticians and data miners for developing statistical software and data analysis. One of R’s strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed. On the other hand, Bioconductor, an open source and open development software project based on R, provides various tools for the analysis and comprehension of high-throughput genomic data. Also, a large number of meta-data packages provide pathway, organism, microarray and other annotations.
In the 6th two-day workshop of Bioinformatics workshop series held by Eslahchi-Lab we intend to introduce Bioinformatics in R. In the first two sessions, we introduce basics of R language and environment and get familiar with R studio. In the next two sessions, different methods of sequence alignment (pairwise and multiple alignment) and phylogeny construction are practiced. The second day starts with working on gene expression data obtained from MicroArray technology. You learn how to find, download, read, do quality check, normalize, and analyze the expression data. Then we go through classical control-treatment dataset analysis to extract Differentially Expressed Genes (DEGs). The last two sessions are dedicated to analyzing gene sets. Gene Ontology (GO) which defines concepts/classes used to describe gene function and relationships between those concepts and Kyoto Encyclopedia of Genes and Genomes (KEGG) which contains various types of data linked together like genomes, biological pathways, diseases, drugs, and chemical substances are introduced. Finally Gene Set Enrichment Analysis (GSEA) is practiced to identify similarity in the functions of genes or proteins that are over-represented in a large set of genes or proteins.


R یک محیط نرم‌افزاری رایگان برای محاسبات آماری و نمایش گرافیکی نتایج است. این محیط در سیستم عامل‌های متداول از جمله ویندوز، بسیاری انواع یونیکس و مک در دسترس است. زبان R در میان آماردانان و تحلیل‌گران داده طرفداران بسیاری دارد. از جمله نقاط قوت R این است که به سادگی می‌توان تصاویر مناسب و با کیفیت برای انتشار مقالات علمی شامل نمادها و فرمول‌های ریاضی با آن تولید کرد. از سوی دیگر Bioconductor نرم‌افزاری متن‌باز با امکان توسعه مبتنی بر R است که ابزارهای گوناگونی برای تحلیل و تعمیق در داده‌های پرحجم ژنومیک ارائه می‌دهد. همچنین پکیج‌های مختلفی برای آن وجود دارند که انواع انوتیشن‌های مربوط به مسیرهای زیستی، ارگانیسم‌ها، ریزآرایه‌ها و … را در اختیار قرار می‌دهند.
در ششمین کارگاه دو روزه از سری کارگاه‌های برگزار شده توسط آزمایشگاه دکتر اصلاحچی، به معرفی بیوانفورماتیک در R خواهیم پرداخت. در دو جلسه ابتدایی، مقدمات زبان R و محیط آن را معرفی خواهیم کرد و با محیط R Studio آشنا خواهیم شد. در دو جلسه بعد، انواع روش‌های هم‌ترازی توالی‌های زیستی (جفتی و چندگانه) و نیز روش‌های ساخت فیلوژنی آموزش داده خواهد شد. روز دوم با کار روی اطلاعات بیان ژن براساس تکنولوژی ریزآرایه شروع می‌شود. ابتدا نحوه جستجو، دانلود، خواندن، کنترل کیفیت، نرمال‌سازی و تحلیل این داده‌ها به کمک R را فراخواهید گرفت. سپس تحلیل کلاسیک نمونه‌های تست-کنترل و یافتن ژن‌هایی که به صورت معناداری متفاوت بیان شده‌اند (DEG) را مطرح خواهیم کرد. دو جلسه آخر به تحلیل مجموعه‌های ژنی اختصاص خواهد داشت. ابتدا با هستی‌شناسی ژنی (Gene Ontology) و KEGG به عنوان دو پایگاه داده مهم در زیست‌شناسی آشنا خواهیم شد. سپس روش تحلیل مجموعه‌های ژنی به کمک غنی سازی (Gene Set Enrichment Analysis) آموزش داده خواهد شد. به کمک این روش امکان یافتن کارکردهای مشترک در مجموعه‌های از ژن‌ها یا پروتئین‌های مد نظر (مانند DEG های شناسایی شده در مرحل قبل( فراهم خواهد شد.