اطلاعات چگونه روی DNA ذخیره‌سازی می‌شوند؟

در هفته‌های گذشته اخبار زیادی از موفقیت دانشمندان در ارتباط با ذخیره‌سازی حجم گسترده‌ای از اطلاعات روی DNA منتشر شد. اما سوال مهمی که به روشنی به آن پاسخ داده نشد این بود که اساسا اطلاعات چگونه روی یک گرم DNA ذخیره‌سازی می‌شوند و دانشمندان از چه فرآیندی برای ذخیره‌سازی حجم انبوهی از اطلاعات روی DNA استفاده می‌کنند؟

ذخیره‌سازی اطلاعات روی DNA موضوع جدیدی نیست. ایده ذخیره‌سازی اطلاعات روی DNA از مدت‌ها پیش مطرح شده و تلاش‌هایی نیز در این زمینه انجام شده است. اما سوال اصلی این است که ما چگونه قادر هستیم یک میلیارد ترابایت داده‌ها را تنها روی یک گرم DNA و آن هم به مدت بیش از هزار سال ذخیره‌سازی کنیم؟ یک سال به عقب باز گردیم. مایکروسافت اعلام کرد نزدیک به ده میلیون رشته DNA مصنوعی را از مرکز تحقیقات زیست‌شناسی دانشگاه سان‌فرانسیسکو خریداری کرد. مایکروسافت و مرکز فوق به دنبال آن هستند تا از این رشته‌ها در قالب یک رسانه ذخیره‌ساز اطلاعات (در مقیاس بالا) استفاده کنند.

اما در جدیدترین مورد، پژوهشگران دانشگاه کلمبیا و مرکز ژن نیویورک تحقیق گسترده‌ای در این ارتباط انجام دادند و نتایج آن را منتشر کردند. آن‌ها در این پژوهش موفق شدند نزدیک به 214 پتابایت داده‌ را تنها روی یک گرم DNA ذخیره‌سازی کنند. اما آن‌ها این‌کار را چگونه انجام دادند؟

در این فرآیند دانشمندان ابتدا همه داده‌ها را فشرده کردند و در ادامه آن‌ها را درون یک فایل آرشیو قرار دادند. در ادامه این فایل به رشته‌های کوچکی از مقادیر باینری تقسیم شد. مقادیری که ما به عنوان صفرها و یک‌ها آن‌ها را می‌شناسیم. در مرحله بعد از طریق الگوریتم اصلاح‌کننده- پاک‌کننده (erasure-correcting) که به نام کدهای فوران از آن نام برده می‌شود، رشته‌ها به شکل تصادفی درون قطره‌هایی وارد می‌شوند. هر قطره حاوی بارکدی است. این بارکدها به دانشمندان اجازه می‌دهند در آینده به بازیابی مجدد فایل‌ها بپردازند.

در مرحله بعد دانشمندان هر کدام از صفرها و یک‌های درون این قطره‌ها را به یکی از چهار بازهای نوکلئوتیدی (Nucleobase) موجود در DNA به نام‌های A،G،C و T ترسیم (یا به عبارت دقیق‌تر نگاشت) کردند. این پروسه در نهایت با تهیه یک فهرست دیجیتالی از 72 هزار رشته DNA که داده‌های کد شده درون آن‌ها قرار گرفته‌اند خاتمه پیدا کرد. در مرحله آخر خروجی کار برای مرکز زیست‌شناسی Twist Biosciences ارسال شد تا این اطلاعات درون DNAهای زیستی قرار بگیرد. همان مرکزی که مایکروسافت سال گذشته میلادی ده میلیون DNA را از آن خریداری کرد.

دو هفته بعد دانشمندان محفظه‌ای را از مرکز فوق دریافت کردند که حاوی مولکول‌های DNA بود. برای بازیابی فایل‌های درون این محفظه، آن‌ها از فناوری خواندن ترتیبی رشته‌های DNA همراه با نرم‌افزاری که قادر به ترجمه کدهای ژنتیکی به باینری بود استفاد کردند. آن‌ها موفق شدند فایل‌های خود را با خطای تقریبا نزدیک به صفر بازیابی کنند.

پژوهشگران این پژوهش بر این باور هستند که DNA یک رسانه ذخیره‌ساز کامل بوده که در عین حال کاملا جمع‌و ‌جور است. رسانه‌ای که حداقل می‌تواند تا صدها هزار سال سالم باقی بماند البته به شرط آن‌که در مکان خشک و خنکی نگهداری شود. دانشمندان این پژوهش اعلام کرده‌اند DNA بالاترین تراکم را در میان تمامی دستگاه‌های ذخیره‌سازی که تا به امروز ساخته شده است در اختیار دارد.

دانشمندان پیش‌بینی کرده‌اند تا سال 2020 تعداد بیت‌های دیجیتالی از تعداد ستارگان آسمان بیشتر خواهد شد. به طوری که حجم این داده‌ها به رقم 44 زتابایت یا 44 تریلیون گیگابایت خواهند رسید. در نتیجه DNA بهترین رسانه ذخیره‌سازی است که در آینده به سازمان‌ها به منظور ذخیره‌سازی اطلاعاتشان کمک خواهد کرد. اما هزینه به کارگیری این فناوری به شدت بالا است. به طور مثال برای ذخیره‌سازی تنها 2 مگابایت اطلاعات چیزی در حدود 7 هزار دلار برای ذخیره‌سازی و 2 هزار دلار برای بازیابی باید هزینه شود.

شبکه