前幾天,一個DNA分子存儲16G維基百科的新聞刷新了我們的三觀,引發(fā)人們對于未來數(shù)據(jù)存儲的大討論。近日,布朗大學(xué)的研究人員受此啟發(fā)發(fā)現(xiàn):
前幾天,一個DNA分子存儲16G維基百科的新聞刷新了我們的三觀,引發(fā)人們對于未來數(shù)據(jù)存儲的大討論。近日,布朗大學(xué)的研究人員受此啟發(fā)發(fā)現(xiàn):DNA并不是唯一可以用于數(shù)字存儲的分子,含有糖、氨基酸和其他小分子的溶液也可以取代硬盤。意外不意外?
原來,不只DNA能夠存儲數(shù)據(jù),小分子溶液也可以。
上周,新智元報道了DNA數(shù)據(jù)存儲的新聞,不僅16G的維基百科能夠存儲到一個DNA分子上,就連存儲全球的數(shù)據(jù)也只需要1kg DNA。
而近期,布朗大學(xué)的研究人員受此啟發(fā)并發(fā)現(xiàn):DNA并不是唯一可以用于數(shù)字存儲的分子。事實證明,含有糖、氨基酸和其他小分子的溶液也可以取代硬盤。
論文地址:
https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0217364&type=printable
在DNA的下游,代謝組(metabolome)是一個信息豐富的分子系統(tǒng),它具有不同的化學(xué)維度,可以用來存儲和處理信息。
為了證明小分子后基因組( small-molecule postgenomic)數(shù)據(jù)存儲的原理,研究人員利用機(jī)器人液體處理將數(shù)字信息寫入化學(xué)混合物,并利用質(zhì)樸分析提取數(shù)據(jù)。
研究人員還提出了幾個存儲在合成代謝體中的千字節(jié)(kilobyte-scale)級圖像數(shù)據(jù)集,使用多質(zhì)量邏輯回歸可以對其進(jìn)行解碼,其精度超過99%。
布朗大學(xué)工程學(xué)院教授、該研究的高級作者Jacob Rosenstein說:
這是一個概念驗證,我們希望讓人們考慮使用更廣泛的分子來存儲信息,在某些情況下,我們在這個研究中使用的小分子可以比DNA擁有更大的信息密度。
另一個潛在的優(yōu)勢在于,多種小分子可以相互反應(yīng)形成新的化合物。這為分子系統(tǒng)創(chuàng)造了潛力,不僅可以存儲數(shù)據(jù),還可以操縱數(shù)據(jù)——在代謝物混合物中執(zhí)行計算。
縮略圖大小的圖像,存儲在比DNA還小的分子上
為了上述的想法,研究人員用常見代謝物做了一種混合物——含有糖、氨基酸和其他小分子的溶液,人類和其他生物利用這些小分子來消化食物和執(zhí)行其他重要的化學(xué)功能。
他們的想法是利用混合物中特定代謝物的存在或不存在作為二進(jìn)制的1和0來編碼數(shù)字信息。
圖1 該方法將數(shù)字?jǐn)?shù)據(jù)的1和0映射到溶液中特定分子的存在或不存在。研究人員使用該方案對圖像文件進(jìn)行了編碼。
例如,為了生成北山羊的圖像,研究小組使用了6種不同代謝物的混合物,這些混合物由液體處理機(jī)器人點(diǎn)綴在一個小金屬板上。他們總共制作了1024個液滴,每個液滴中6種代謝物或缺失或存在,提供了足夠的二進(jìn)制信息來編碼6142像素的圖像。
然后,金屬板被烘干,留下微小的代謝物分子點(diǎn),每個點(diǎn)都保存著數(shù)字信息。
然后,這些數(shù)據(jù)可以用質(zhì)譜儀讀出,質(zhì)譜儀可以識別存在于板上每個點(diǎn)的代謝物,并對數(shù)據(jù)進(jìn)行解碼。
研究人員將這張貓的圖像保存在小分子溶液中
研究人員通過用質(zhì)譜儀分析每個點(diǎn)的化學(xué)成分,能夠以99%的準(zhǔn)確率檢索到這些數(shù)據(jù)。他們還用12種代謝物的混合物,解碼了一張分辨率更高的貓的照片。
密集數(shù)據(jù)
他們使用手掌大小的標(biāo)準(zhǔn)板來編碼縮略圖大小的圖像。但是據(jù)Rosenstein介紹,代謝物存儲設(shè)備的物理尺寸可以更小。
代謝物分子比DNA和蛋白質(zhì)小得多,而且種類繁多。他說,這意味著它們可以比DNA更密集地表示少量數(shù)據(jù)。
Rosenstein說:“一旦數(shù)據(jù)被記錄下來,它們就不需要任何能量了。根據(jù)分子和環(huán)境條件的不同,這些數(shù)據(jù)可以保存數(shù)月或數(shù)年。”事實上,在極端溫度、壓力和機(jī)械力等條件下,分子存儲可能比電子存儲更穩(wěn)定,這取決于分子的特性。
分子存儲還可以使離線存儲大量數(shù)據(jù)成為可能,而不是存儲在云中,從而防止黑客入侵。
到目前為止,Rosenstein和他的同事們發(fā)明的技術(shù)與電子計算機(jī)相比速度還比較慢。
研究人員指出,這種技術(shù)也有一些局限。例如,當(dāng)多種代謝物分子被放在同一溶液中時,它們之間會發(fā)生化學(xué)反應(yīng),這可能導(dǎo)致錯誤或數(shù)據(jù)丟失。但這個bug最終可能成為一個功能。也許可以利用這些反應(yīng)來操縱執(zhí)行數(shù)據(jù)的計算。
Rosenstein表示:
與DNA相比,我們的代謝物數(shù)據(jù)具有較低的延遲,從而可以從頭到尾快速地讀寫數(shù)據(jù)集。”他也補(bǔ)充說 DNA 目前在編碼大型數(shù)據(jù)集方面有優(yōu)勢。
這些想法在研究實驗室中使用已經(jīng)可行,但我們需要加快速度,縮小分析硬件的尺寸,然后才能在實驗室外實施。
這類研究挑戰(zhàn)了人們在分子數(shù)據(jù)系統(tǒng)中所看到的可能性。DNA不是唯一可以用來存儲和處理信息的分子。認(rèn)識到還有其他潛力巨大的可能性是令人興奮的。
實驗原料和方法
化學(xué)庫的制備
將36種不同代謝化合物的試劑級樣品(S1文件中的表A)在二甲基亞砜(DMSO,無水)中稀釋,標(biāo)稱濃度均為25mM。將一些代謝物首先溶解在替代溶劑(去離子水,可選擇加入0.5M或1M的鹽酸)中,以促進(jìn)化合物在DMSO中的溶解。將10μL每種化合物等分到384孔的微量培養(yǎng)板(Labcyte384LDV)上。
數(shù)據(jù)混合物的準(zhǔn)備
在規(guī)格為76mm×120mm不銹鋼MALDI板上制備化學(xué)數(shù)據(jù)混合物。使用聲學(xué)液體處理器(LabcyteEcho 550型)將化合物從培養(yǎng)板轉(zhuǎn)移到MALDI板上。儀器標(biāo)稱的單液滴體積為2.5nL,但為了降低液滴體積變化對結(jié)果的影響,通常每種化合物使用2滴(5nL)。液滴以標(biāo)準(zhǔn)的2.25mm點(diǎn)距排布,共計1536個位置(32×48)。
將化合物按編好的位置滴到MALDI板上之后,需要將MALDI基質(zhì)材料添加到每個位置上。我們選擇9-氨基吖啶作為基質(zhì)材料,因為它與代謝物庫能夠共存,它在小分子體系中具備低背景(low background)特征,同時支持正離子和負(fù)離子模式。將MALDI板放置在干燥環(huán)境中,大約在一夜時間即可完成結(jié)晶(最多10小時)。干燥后,可將板儲存在濕度控制柜中,或進(jìn)行MALDI-FT-ICR質(zhì)譜分析。
數(shù)據(jù)板的質(zhì)譜分析
實驗中使用傅里葉變換離子回旋共振(FT-ICR)質(zhì)譜儀(SolariX 7T,Bruker)分析結(jié)晶代謝物數(shù)據(jù)混合物。精確的成分結(jié)果是每個頻譜上的測量時間的函數(shù)。這些實驗中通常耗時0.5-1秒,產(chǎn)生的分辨精度<0.001Da。該儀器將連續(xù)測量48x32網(wǎng)格上的每種混合物的質(zhì)譜。測定全部樣本只需要不到2個小時。
為了從質(zhì)譜中讀取編碼數(shù)據(jù),將代謝物存在的概率建模為多個預(yù)測質(zhì)量的組合。利用多項邏輯回歸方法,考慮偏移量的自然指數(shù),加上所有識別質(zhì)譜信噪比之和,每個信噪比均與訓(xùn)練的權(quán)重系數(shù)相乘。在給定每種代謝物的n個最佳峰值輸入的情況下,使用有限記憶BFGS算法來預(yù)測邏輯精度評分。
在實驗中,對所有代謝組合成分重復(fù)以上過程。
實驗結(jié)果:檢索準(zhǔn)確率高達(dá)99%!
編寫合成代謝組分
我們的合成代謝組由36種化合物組成,包括維生素、核苷、核苷酸、氨基酸、糖和代謝途徑中間體。為了將數(shù)據(jù)寫入代謝物混合物中,我們使用聲學(xué)液體處理器以2.5nL的增量將純代謝物溶液傳輸?shù)戒撝芃ALDI板上預(yù)先定義的位置。選擇2.25 mm節(jié)距網(wǎng)格,以與標(biāo)準(zhǔn)wellplate協(xié)議兼容。這產(chǎn)生了一個不同代謝物混合物的空間陣列,其中每種混合物中每個化合物的存在(或不存在)編碼一位信息。
在蒸發(fā)溶劑后,每個數(shù)據(jù)板包含多達(dá)1536個干燥點(diǎn)(圖1b),我們可以使用基質(zhì)輔助激光解吸電離(MALDI)質(zhì)譜(MS)進(jìn)行分析。為了預(yù)先篩選合成代謝組中的每種化合物,在1400個獨(dú)特的點(diǎn)上,用36種代謝物的組合混合物寫出圖版。由于MALDI方案具有化學(xué)特異性,因此我們不希望在一組條件下,整個化合物庫具有相同的鑒定準(zhǔn)確度。我們使用此預(yù)篩選來確定具有相同方案的每種代謝物的MS鑒定準(zhǔn)確度。
代謝物混合物的離子回旋加速器質(zhì)譜
使用傅里葉變換離子回旋共振(FT-ICR)質(zhì)譜儀(SolariX 7T,Bruker)分析結(jié)晶混合物陣列。在FT-ICR MS中,脈沖RF激發(fā)離子進(jìn)入周期軌道,其頻率由磁場強(qiáng)度和離子質(zhì)量決定,這使得質(zhì)量分辨率比飛行時間(ToF)更精細(xì)。儀器。在這些實驗中,質(zhì)量分辨率通常為0.001Da。使用FT-ICR MS,即使它們的質(zhì)量僅相差milli-Daltons ,也可以區(qū)分代謝物。
在圖2(a)中,顯示了包含鳥苷(go)和9-氨基吖啶(9A)基質(zhì)的斑點(diǎn)的一個正離子MALDI-FT-ICR質(zhì)譜。質(zhì)子化的基質(zhì)加合物在峰1和6(藍(lán)色)處鑒定,連同鳥苷的加合物,標(biāo)記為(2:Na,3:K,4:2K-H和5:異丙醇(IPA)+ H)。觀察到的強(qiáng)度因加合物和種類而異,在圖2(b)中,在1024個點(diǎn)上顯示了第一個峰值(m / z = 195.0916±0.001處的質(zhì)子化基質(zhì))的強(qiáng)度。
圖2.用質(zhì)譜分析化學(xué)數(shù)據(jù)板。
許多開放獲取工具可用于代謝峰的檢測和MS質(zhì)譜的分配。為了清楚地將質(zhì)譜與二進(jìn)制數(shù)據(jù)聯(lián)系起來,我們考慮了一個基本的檢測方案:如果代謝物的質(zhì)量強(qiáng)度高于某個特定的閾值,則聲明它存在,并且其地址的二進(jìn)制狀態(tài)設(shè)置為1(或0,如果它的質(zhì)量峰值不存在)。該方法在圖2(b)中的1024個斑點(diǎn)中識別出1020個基質(zhì)質(zhì)子化峰(≈99.6%)。
作為初始演示,我們選擇了6種代謝物的庫子集,用于將Nubian ibex的6,142像素二進(jìn)制圖像編碼為1024個混合物的陣列。偽隨機(jī)交織后,將數(shù)據(jù)映射到存在或不存在山梨醇(SO)、谷氨酸(GA)、色氨酸(TP)、胞苷(CD)、鳥苷(GO)和2-脫氧鳥苷水合物(GH)中。如方法中所述,使用FT-ICR-MS對板進(jìn)行書寫和分析。
圖3a顯示了240個獨(dú)立點(diǎn)觀測到的質(zhì)譜背景噪聲的空間圖和直方圖。在進(jìn)一步分析之前,我們將每個質(zhì)譜除以其背景σ,這樣可以更直接地比較多個位置的信號強(qiáng)度。信號強(qiáng)度是樣品制備、分析物和加合物的復(fù)雜函數(shù)。歸一化后,6種代謝物的目標(biāo)峰顯示在圖3b中。第一行是其數(shù)據(jù)包含六位[1 0 0 0 0 0]的點(diǎn),因此僅存在與第一代謝物(山梨糖醇)相關(guān)的m / z峰。類似地,顯示了五個其他“一次觸發(fā)”模式,可以無錯誤地解碼。
圖3.質(zhì)譜背景和噪聲考慮因素。
選擇閾值3σ作為說明代謝物存在所需的強(qiáng)度。例如,如果我們檢查色氨酸[2Mtp+K]+質(zhì)量(圖3c),我們發(fā)現(xiàn)該閾值產(chǎn)生96%的正確分類。如圖3d所示,還可以對板上的每個點(diǎn)顯示該檢測方案。板邊緣的誤差聚類表明MALDI激光位置和液滴點(diǎn)位置之間的微小偏差是誤差的來源。
數(shù)據(jù)板統(tǒng)計分析
在實踐中,一個化合物將與多個峰相關(guān)聯(lián),并且具有不同的信噪比和用途。對于給定的代謝組,研究人員需要確定哪種m/z峰值最適合識別每個庫的元素。
每個高分辨率FT-ICR質(zhì)譜包含?2×106m/z 點(diǎn)。由于質(zhì)譜空間的大部分是背景,因此首先將特征的數(shù)量減少到統(tǒng)計上有用的特征數(shù)量。而后研究人員測試了所有質(zhì)譜的系綜平均值(ensemble average)中發(fā)現(xiàn)的1444個候選峰,用來確定m/z處的強(qiáng)度對編碼數(shù)據(jù)值的分類精度(圖 4a)。
圖4
雖然這些峰值的識別沒有化學(xué)偏差,但許多特征可以歸因于已知的代謝物加合物離子。相關(guān)加合物質(zhì)量的直方圖如圖4b所示。
達(dá)到70-100%范圍內(nèi)檢測精度的峰數(shù)如圖4c所示。選擇每種代謝物的最佳表現(xiàn)峰值,并應(yīng)用2.5σ的檢測閾值,足以恢復(fù)約2%累積讀/寫錯誤的數(shù)據(jù)(圖4e)。相應(yīng)的輸入和輸出數(shù)據(jù)圖像如圖4f和4g所示。
利用邏輯回歸對多峰數(shù)據(jù)進(jìn)行解碼
假設(shè)鑒別峰值是部分不相關(guān)的(如圖D所示),利用每個代謝組的多個m/z峰來尋求改進(jìn)是合理的。這樣的策略將在更復(fù)雜的代謝組中變得越來越重要。
圖D
研究人員使用類似6kb ibex圖像類似的技術(shù),從埃及墳?zāi)怪芯幋a了17424位的貓圖像(使用了1452個點(diǎn)),其中包含庫中12個代謝物子集的數(shù)據(jù)混合物(圖5a)。他們使用這些數(shù)據(jù)來擴(kuò)展解碼方案,使其包含多個m/z特性。
圖5
在確定一組統(tǒng)計鑒別峰之后,研究人員使用1到16個表現(xiàn)最好的峰進(jìn)行邏輯回歸。多質(zhì)量回歸對整個cat圖像的讀取準(zhǔn)確率為97.7%(圖5c)。
圖4和圖5中的數(shù)據(jù)的累積讀取錯誤率顯示為邏輯回歸中使用的質(zhì)量數(shù)的函數(shù)。
將這些技術(shù)應(yīng)用于早期的ibex數(shù)據(jù)集,可以實現(xiàn)<0.5%的錯誤率。但是,重復(fù)測量斑點(diǎn)會導(dǎo)致數(shù)據(jù)丟失。研究人員還發(fā)現(xiàn),每次連續(xù)讀取數(shù)據(jù)板都會增加<1%的誤差(圖E)。
圖E
使用不同的板進(jìn)行訓(xùn)練可以獲得相同的精度而不會過度擬合(圖F)。
圖F
總而言之,上述實驗表明:代謝組是一種可行且強(qiáng)大的表示數(shù)字信息的媒介。(文/新智元)
關(guān)鍵詞: 小分子溶液 存儲數(shù)據(jù) 質(zhì)樸