小分子溶液也可以存儲數(shù)據(jù) 利用質(zhì)樸分析提取數(shù)據(jù)

2019-07-09 14:20:51 來源：智元

前幾天，一個DNA分子存儲16G維基百科的新聞刷新了我們的三觀，引發(fā)人們對于未來數(shù)據(jù)存儲的大討論。近日，布朗大學(xué)的研究人員受此啟發(fā)發(fā)現(xiàn)：

前幾天，一個DNA分子存儲16G維基百科的新聞刷新了我們的三觀，引發(fā)人們對于未來數(shù)據(jù)存儲的大討論。近日，布朗大學(xué)的研究人員受此啟發(fā)發(fā)現(xiàn)：DNA并不是唯一可以用于數(shù)字存儲的分子，含有糖、氨基酸和其他小分子的溶液也可以取代硬盤。意外不意外？

原來，不只DNA能夠存儲數(shù)據(jù)，小分子溶液也可以。

上周，新智元報道了DNA數(shù)據(jù)存儲的新聞，不僅16G的維基百科能夠存儲到一個DNA分子上，就連存儲全球的數(shù)據(jù)也只需要1kg DNA。

而近期，布朗大學(xué)的研究人員受此啟發(fā)并發(fā)現(xiàn)：DNA并不是唯一可以用于數(shù)字存儲的分子。事實證明，含有糖、氨基酸和其他小分子的溶液也可以取代硬盤。

論文地址：

https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0217364&type=printable

在DNA的下游，代謝組(metabolome)是一個信息豐富的分子系統(tǒng)，它具有不同的化學(xué)維度，可以用來存儲和處理信息。

為了證明小分子后基因組( small-molecule postgenomic)數(shù)據(jù)存儲的原理，研究人員利用機(jī)器人液體處理將數(shù)字信息寫入化學(xué)混合物，并利用質(zhì)樸分析提取數(shù)據(jù)。

研究人員還提出了幾個存儲在合成代謝體中的千字節(jié)(kilobyte-scale)級圖像數(shù)據(jù)集，使用多質(zhì)量邏輯回歸可以對其進(jìn)行解碼，其精度超過99%。

布朗大學(xué)工程學(xué)院教授、該研究的高級作者Jacob Rosenstein說：

這是一個概念驗證，我們希望讓人們考慮使用更廣泛的分子來存儲信息，在某些情況下，我們在這個研究中使用的小分子可以比DNA擁有更大的信息密度。

另一個潛在的優(yōu)勢在于，多種小分子可以相互反應(yīng)形成新的化合物。這為分子系統(tǒng)創(chuàng)造了潛力，不僅可以存儲數(shù)據(jù)，還可以操縱數(shù)據(jù)——在代謝物混合物中執(zhí)行計算。

縮略圖大小的圖像，存儲在比DNA還小的分子上

為了上述的想法，研究人員用常見代謝物做了一種混合物——含有糖、氨基酸和其他小分子的溶液，人類和其他生物利用這些小分子來消化食物和執(zhí)行其他重要的化學(xué)功能。

他們的想法是利用混合物中特定代謝物的存在或不存在作為二進(jìn)制的1和0來編碼數(shù)字信息。

圖1 該方法將數(shù)字?jǐn)?shù)據(jù)的1和0映射到溶液中特定分子的存在或不存在。研究人員使用該方案對圖像文件進(jìn)行了編碼。

例如，為了生成北山羊的圖像，研究小組使用了6種不同代謝物的混合物，這些混合物由液體處理機(jī)器人點(diǎn)綴在一個小金屬板上。他們總共制作了1024個液滴，每個液滴中6種代謝物或缺失或存在，提供了足夠的二進(jìn)制信息來編碼6142像素的圖像。

然后，金屬板被烘干，留下微小的代謝物分子點(diǎn)，每個點(diǎn)都保存著數(shù)字信息。

然后，這些數(shù)據(jù)可以用質(zhì)譜儀讀出，質(zhì)譜儀可以識別存在于板上每個點(diǎn)的代謝物，并對數(shù)據(jù)進(jìn)行解碼。

研究人員將這張貓的圖像保存在小分子溶液中

研究人員通過用質(zhì)譜儀分析每個點(diǎn)的化學(xué)成分，能夠以99%的準(zhǔn)確率檢索到這些數(shù)據(jù)。他們還用12種代謝物的混合物，解碼了一張分辨率更高的貓的照片。

密集數(shù)據(jù)

他們使用手掌大小的標(biāo)準(zhǔn)板來編碼縮略圖大小的圖像。但是據(jù)Rosenstein介紹，代謝物存儲設(shè)備的物理尺寸可以更小。

代謝物分子比DNA和蛋白質(zhì)小得多，而且種類繁多。他說，這意味著它們可以比DNA更密集地表示少量數(shù)據(jù)。

Rosenstein說：“一旦數(shù)據(jù)被記錄下來，它們就不需要任何能量了。根據(jù)分子和環(huán)境條件的不同，這些數(shù)據(jù)可以保存數(shù)月或數(shù)年。”事實上，在極端溫度、壓力和機(jī)械力等條件下，分子存儲可能比電子存儲更穩(wěn)定，這取決于分子的特性。

分子存儲還可以使離線存儲大量數(shù)據(jù)成為可能，而不是存儲在云中，從而防止黑客入侵。

到目前為止，Rosenstein和他的同事們發(fā)明的技術(shù)與電子計算機(jī)相比速度還比較慢。

研究人員指出，這種技術(shù)也有一些局限。例如，當(dāng)多種代謝物分子被放在同一溶液中時，它們之間會發(fā)生化學(xué)反應(yīng)，這可能導(dǎo)致錯誤或數(shù)據(jù)丟失。但這個bug最終可能成為一個功能。也許可以利用這些反應(yīng)來操縱執(zhí)行數(shù)據(jù)的計算。

Rosenstein表示：

與DNA相比，我們的代謝物數(shù)據(jù)具有較低的延遲，從而可以從頭到尾快速地讀寫數(shù)據(jù)集。”他也補(bǔ)充說 DNA 目前在編碼大型數(shù)據(jù)集方面有優(yōu)勢。

這些想法在研究實驗室中使用已經(jīng)可行，但我們需要加快速度，縮小分析硬件的尺寸，然后才能在實驗室外實施。

這類研究挑戰(zhàn)了人們在分子數(shù)據(jù)系統(tǒng)中所看到的可能性。DNA不是唯一可以用來存儲和處理信息的分子。認(rèn)識到還有其他潛力巨大的可能性是令人興奮的。

實驗原料和方法

化學(xué)庫的制備

將36種不同代謝化合物的試劑級樣品(S1文件中的表A)在二甲基亞砜(DMSO，無水)中稀釋，標(biāo)稱濃度均為25mM。將一些代謝物首先溶解在替代溶劑(去離子水，可選擇加入0.5M或1M的鹽酸)中，以促進(jìn)化合物在DMSO中的溶解。將10μL每種化合物等分到384孔的微量培養(yǎng)板(Labcyte384LDV)上。

數(shù)據(jù)混合物的準(zhǔn)備

在規(guī)格為76mm×120mm不銹鋼MALDI板上制備化學(xué)數(shù)據(jù)混合物。使用聲學(xué)液體處理器(LabcyteEcho 550型)將化合物從培養(yǎng)板轉(zhuǎn)移到MALDI板上。儀器標(biāo)稱的單液滴體積為2.5nL，但為了降低液滴體積變化對結(jié)果的影響，通常每種化合物使用2滴(5nL)。液滴以標(biāo)準(zhǔn)的2.25mm點(diǎn)距排布，共計1536個位置(32×48)。

將化合物按編好的位置滴到MALDI板上之后，需要將MALDI基質(zhì)材料添加到每個位置上。我們選擇9-氨基吖啶作為基質(zhì)材料，因為它與代謝物庫能夠共存，它在小分子體系中具備低背景(low background)特征，同時支持正離子和負(fù)離子模式。將MALDI板放置在干燥環(huán)境中，大約在一夜時間即可完成結(jié)晶(最多10小時)。干燥后，可將板儲存在濕度控制柜中，或進(jìn)行MALDI-FT-ICR質(zhì)譜分析。

數(shù)據(jù)板的質(zhì)譜分析

實驗中使用傅里葉變換離子回旋共振(FT-ICR)質(zhì)譜儀(SolariX 7T，Bruker)分析結(jié)晶代謝物數(shù)據(jù)混合物。精確的成分結(jié)果是每個頻譜上的測量時間的函數(shù)。這些實驗中通常耗時0.5-1秒，產(chǎn)生的分辨精度<0.001Da。該儀器將連續(xù)測量48x32網(wǎng)格上的每種混合物的質(zhì)譜。測定全部樣本只需要不到2個小時。

為了從質(zhì)譜中讀取編碼數(shù)據(jù)，將代謝物存在的概率建模為多個預(yù)測質(zhì)量的組合。利用多項邏輯回歸方法，考慮偏移量的自然指數(shù)，加上所有識別質(zhì)譜信噪比之和，每個信噪比均與訓(xùn)練的權(quán)重系數(shù)相乘。在給定每種代謝物的n個最佳峰值輸入的情況下，使用有限記憶BFGS算法來預(yù)測邏輯精度評分。

在實驗中，對所有代謝組合成分重復(fù)以上過程。

實驗結(jié)果：檢索準(zhǔn)確率高達(dá)99%!

編寫合成代謝組分

我們的合成代謝組由36種化合物組成，包括維生素、核苷、核苷酸、氨基酸、糖和代謝途徑中間體。為了將數(shù)據(jù)寫入代謝物混合物中，我們使用聲學(xué)液體處理器以2.5nL的增量將純代謝物溶液傳輸?shù)戒撝芃ALDI板上預(yù)先定義的位置。選擇2.25 mm節(jié)距網(wǎng)格，以與標(biāo)準(zhǔn)wellplate協(xié)議兼容。這產(chǎn)生了一個不同代謝物混合物的空間陣列，其中每種混合物中每個化合物的存在(或不存在)編碼一位信息。

在蒸發(fā)溶劑后，每個數(shù)據(jù)板包含多達(dá)1536個干燥點(diǎn)(圖1b)，我們可以使用基質(zhì)輔助激光解吸電離(MALDI)質(zhì)譜(MS)進(jìn)行分析。為了預(yù)先篩選合成代謝組中的每種化合物，在1400個獨(dú)特的點(diǎn)上，用36種代謝物的組合混合物寫出圖版。由于MALDI方案具有化學(xué)特異性，因此我們不希望在一組條件下，整個化合物庫具有相同的鑒定準(zhǔn)確度。我們使用此預(yù)篩選來確定具有相同方案的每種代謝物的MS鑒定準(zhǔn)確度。

代謝物混合物的離子回旋加速器質(zhì)譜

使用傅里葉變換離子回旋共振(FT-ICR)質(zhì)譜儀(SolariX 7T，Bruker)分析結(jié)晶混合物陣列。在FT-ICR MS中，脈沖RF激發(fā)離子進(jìn)入周期軌道，其頻率由磁場強(qiáng)度和離子質(zhì)量決定，這使得質(zhì)量分辨率比飛行時間(ToF)更精細(xì)。儀器。在這些實驗中，質(zhì)量分辨率通常為0.001Da。使用FT-ICR MS，即使它們的質(zhì)量僅相差milli-Daltons ，也可以區(qū)分代謝物。

在圖2(a)中，顯示了包含鳥苷(go)和9-氨基吖啶(9A)基質(zhì)的斑點(diǎn)的一個正離子MALDI-FT-ICR質(zhì)譜。質(zhì)子化的基質(zhì)加合物在峰1和6(藍(lán)色)處鑒定，連同鳥苷的加合物，標(biāo)記為(2：Na，3：K，4：2K-H和5：異丙醇(IPA)+ H)。觀察到的強(qiáng)度因加合物和種類而異，在圖2(b)中，在1024個點(diǎn)上顯示了第一個峰值(m / z = 195.0916±0.001處的質(zhì)子化基質(zhì))的強(qiáng)度。

圖2.用質(zhì)譜分析化學(xué)數(shù)據(jù)板。

許多開放獲取工具可用于代謝峰的檢測和MS質(zhì)譜的分配。為了清楚地將質(zhì)譜與二進(jìn)制數(shù)據(jù)聯(lián)系起來，我們考慮了一個基本的檢測方案：如果代謝物的質(zhì)量強(qiáng)度高于某個特定的閾值，則聲明它存在，并且其地址的二進(jìn)制狀態(tài)設(shè)置為1(或0，如果它的質(zhì)量峰值不存在)。該方法在圖2(b)中的1024個斑點(diǎn)中識別出1020個基質(zhì)質(zhì)子化峰(≈99.6%)。

作為初始演示，我們選擇了6種代謝物的庫子集，用于將Nubian ibex的6,142像素二進(jìn)制圖像編碼為1024個混合物的陣列。偽隨機(jī)交織后，將數(shù)據(jù)映射到存在或不存在山梨醇(SO)、谷氨酸(GA)、色氨酸(TP)、胞苷(CD)、鳥苷(GO)和2-脫氧鳥苷水合物(GH)中。如方法中所述，使用FT-ICR-MS對板進(jìn)行書寫和分析。

圖3a顯示了240個獨(dú)立點(diǎn)觀測到的質(zhì)譜背景噪聲的空間圖和直方圖。在進(jìn)一步分析之前，我們將每個質(zhì)譜除以其背景σ，這樣可以更直接地比較多個位置的信號強(qiáng)度。信號強(qiáng)度是樣品制備、分析物和加合物的復(fù)雜函數(shù)。歸一化后，6種代謝物的目標(biāo)峰顯示在圖3b中。第一行是其數(shù)據(jù)包含六位[1 0 0 0 0 0]的點(diǎn)，因此僅存在與第一代謝物(山梨糖醇)相關(guān)的m / z峰。類似地，顯示了五個其他“一次觸發(fā)”模式，可以無錯誤地解碼。

圖3.質(zhì)譜背景和噪聲考慮因素。

選擇閾值3σ作為說明代謝物存在所需的強(qiáng)度。例如，如果我們檢查色氨酸[2Mtp+K]+質(zhì)量(圖3c)，我們發(fā)現(xiàn)該閾值產(chǎn)生96%的正確分類。如圖3d所示，還可以對板上的每個點(diǎn)顯示該檢測方案。板邊緣的誤差聚類表明MALDI激光位置和液滴點(diǎn)位置之間的微小偏差是誤差的來源。

數(shù)據(jù)板統(tǒng)計分析

在實踐中，一個化合物將與多個峰相關(guān)聯(lián)，并且具有不同的信噪比和用途。對于給定的代謝組，研究人員需要確定哪種m/z峰值最適合識別每個庫的元素。

每個高分辨率FT-ICR質(zhì)譜包含?2×106m/z 點(diǎn)。由于質(zhì)譜空間的大部分是背景，因此首先將特征的數(shù)量減少到統(tǒng)計上有用的特征數(shù)量。而后研究人員測試了所有質(zhì)譜的系綜平均值(ensemble average)中發(fā)現(xiàn)的1444個候選峰，用來確定m/z處的強(qiáng)度對編碼數(shù)據(jù)值的分類精度(圖 4a)。

圖4

雖然這些峰值的識別沒有化學(xué)偏差，但許多特征可以歸因于已知的代謝物加合物離子。相關(guān)加合物質(zhì)量的直方圖如圖4b所示。

達(dá)到70-100%范圍內(nèi)檢測精度的峰數(shù)如圖4c所示。選擇每種代謝物的最佳表現(xiàn)峰值，并應(yīng)用2.5σ的檢測閾值，足以恢復(fù)約2%累積讀/寫錯誤的數(shù)據(jù)(圖4e)。相應(yīng)的輸入和輸出數(shù)據(jù)圖像如圖4f和4g所示。

利用邏輯回歸對多峰數(shù)據(jù)進(jìn)行解碼

假設(shè)鑒別峰值是部分不相關(guān)的(如圖D所示)，利用每個代謝組的多個m/z峰來尋求改進(jìn)是合理的。這樣的策略將在更復(fù)雜的代謝組中變得越來越重要。

圖D

研究人員使用類似6kb ibex圖像類似的技術(shù)，從埃及墳?zāi)怪芯幋a了17424位的貓圖像(使用了1452個點(diǎn))，其中包含庫中12個代謝物子集的數(shù)據(jù)混合物(圖5a)。他們使用這些數(shù)據(jù)來擴(kuò)展解碼方案，使其包含多個m/z特性。

圖5

在確定一組統(tǒng)計鑒別峰之后，研究人員使用1到16個表現(xiàn)最好的峰進(jìn)行邏輯回歸。多質(zhì)量回歸對整個cat圖像的讀取準(zhǔn)確率為97.7%(圖5c)。

圖4和圖5中的數(shù)據(jù)的累積讀取錯誤率顯示為邏輯回歸中使用的質(zhì)量數(shù)的函數(shù)。

將這些技術(shù)應(yīng)用于早期的ibex數(shù)據(jù)集，可以實現(xiàn)<0.5%的錯誤率。但是，重復(fù)測量斑點(diǎn)會導(dǎo)致數(shù)據(jù)丟失。研究人員還發(fā)現(xiàn)，每次連續(xù)讀取數(shù)據(jù)板都會增加<1%的誤差(圖E)。