第二百零八章 ai和計算生物學
身為法師的我隻想追求真理 作者:烏鴉一號 投票推薦 加入書簽 留言反饋
目前隻有華國的魔法師們對魔法的本質有些微了解。
他們在新一代科技革命中占據了先手。
這種先手雖然隻是隨時可以被突破的信息優勢,但是有優勢總比沒有好。
“我們先形成工作匯報,報給上麵決策,現在最重要的是要拖住鄭理,讓他別太早迴去。”
“好,我去安排。”
華國官方對鄭理做過多次心理側寫和人物畫像,知道鄭理看似無情實際上對朋友很夠意思。
......
“鄭董,我們現在主要是將自然語言處理領域中的worltticeparising概念引入到創新藥研發當中。”
“通過算法設計的蛋白小分子序列在穩定性、蛋白質表達水平和製作成本上要好於傳統方法。”
“這個方法早在兩年前,當時斯微生物和千度研究員就mrna疫苗開展了ai序列優化算法的合作。”
“程總是斯微生物的股東和外部董事,當時他負責牽線,把這一技術引入到獅城研究員,我們這兩年下來將ai序列優化算法的應用領域拓展到了創新藥研發上。”
“目前關於擔保之序列設計的迭代技術還在開發中。”
鄭理此時身在科創生物江城的研發中心,這裏的研發主管正在向鄭理匯報工作。
江城研發中心主要負責部分創新藥的研發。
自從科創生物崛起後,江城大學的生物係高考分數線提高了至少二十分。
原本江城大學的生物學算是江大的王牌專業,但是受限於出路不佳,所以分數線遠不如經管院。
專業排名靠前不代表分數線高,江大內部分數最高的專業是金融工程和數學,畢業之後可以拿金融學和數學的雙學位。
科創生物在江城的研究中心,校招的主要對象就是江大和江城科技大學。
大量招收生物學畢業的碩士和博士,薪酬待遇比大米在江城的分部高了半個檔次。
同時江城的研究中心還和江大的生物學院展開了很多項目合作。
江大內部私下討論,都覺得鄭理作為數學學院的畢業生,最大的蛋糕反而被生物學院吃完了。
“所以這是ai和計算生物學的應用對吧?”
對鄭理的問題,江城的研發主管點頭道:“是的。”
“我們目前主要做的是序列比對和蛋白質結構預測。”
“計算生物學不僅是這兩個領域,還有基因識別、進化樹構造等方向。”
“自從ai技術走進人們視野後,機器學習技術讓計算生物學得到了極大的發展。”
“基因組學和成像技術的進步導致來自大量樣本的分子和細胞分析數據的爆炸式增長。”
“生物數據維度和采集率的快速增長對傳統分析策略提出了挑戰。現代機器學習方法,如深度學習,承諾利用非常大的數據集來尋找其中的隱藏結構,並做出準確的預測。”
“比如我們有一個小組是專門做預測癌細胞在藥物作用下的活力問題。”
“輸入特征值將捕獲細胞係的體細胞序列變體、藥物的化學組成及其濃度匯總,它們將與測量的活力一起可用於訓練支持向量機、隨機森林分類器或相關的方法。”
“給定未來一個新的細胞係,學習函數通過計算函數來預測其可能的活力。”
“即便函數在我們看來更像是一個黑盒子,它的內部工作原理、為什麽特定的突變組合會影響細胞生長並不容易找到背後的具體原因。”
“兩個迴歸和分類以通過這種方式查看。”
“作為對應物,無監督機器學習方法旨在從數據樣本x本身中發現模式,而不需要輸出標簽y。”
“類似的聚類、主成分分析和異常值檢測等方法都更接近黑盒,我們目前主要應用於生物數據的無監督模型。”
鄭理鼓掌道:“很好。”
其實計算生物學的進化路線,和現代法師的研究有很多相似之處。
法師們通過生物雲的高頻計算能力,對基因、蛋白質等構成生命的基本要素進行定性定量分析。
法師們的優勢不僅在碳基計算機的運算能力和上限比矽基更高,而且來源於他們可以直接通過意誌幹涉物質世界。
能有更多的特殊樣本和針對性誘導樣本進行研究。
鄭理繼續問道:“其實你們目前主要使用的還是神經網絡對吧?”
“卷積神經網絡、循環神經網絡、自動編碼機這些。”
研發主管深知鄭理的科研能力和所涉及領域之廣泛,因此對於鄭理一語把他們的關鍵點透絲毫不意外:
“是的,主要還是神經網絡在計算生物領域的應用。”
涉及到研發層麵,鄭理從來都是有話直說:
“深度學習在計算生物層麵的應用很早之前就開始了。”
“bengio早在2012年就開始用神經網絡研究基因組學和生物圖像分析,將序列變異和分子特征聯係到一起了。”
“也就是說我們使用的技術,如果是外行來聽,會覺得很先進,深度學習、人工智能,但是實際上這已經是十年前別人就在玩的東西。”
“我們自己有什麽突破?別告訴我隻是把別人的方法拿來用。”
“如果隻是做到這個程度”
鄭理沒說完,他轉頭看向李渺渺:“渺渺,江城研發中心每年投入的預算是多少?”
李渺渺不假思索道:“今年給他們編的預算是17.4億元。”
鄭理點頭道:“好的,如果你們隻是這個水平,那今年的預算把零頭砍掉。”
李渺渺問道:“砍掉7.4億元嗎?”
“嗯。”
鄭理說完直視坐他對麵的研發主管。
每年各個研發中心的預算不僅是錢和資源,而且代表著你在公司內部的重要程度。
鄭理砍預算,不代表會把他們今年的研發目標降低。
研發主管連忙道:“鄭董,我們有很多自主的研發。”
他知道自己拿出來的東西一定不能糊弄。
鄭理太懂了,當你的上司對你的業務過於了解的時候,上班摸魚的難度被提升到了極點。
“我們優化了從dna序列對分子特征優化的神經網絡算法。”
“鄭董,這是個體的dna序列和基因組的分子反應變量。”
“在傳統的調控基因組學方法中主要需要考慮個體之間的差異,而我們優化之後的深度學習算法允許通過將基因組平鋪到以個體特征為中心的序列dna窗口中。”
“然後利用個體內部的差異,從而從單個樣本中產生大量的訓練數據集。”
“這是用於從原始dna序列預測分子特征的一維卷積神經網絡。”
“第一個卷積層的過濾器掃描輸入序列中的圖案。隨後的池化減少了輸入維度,並且額外的卷積層可以模擬前一層中dna序列的交互。”
“再看這裏,c圖由b圖中所示的神經網絡預測的野生型和突變序列的響應變量被用作另一個神經網絡的輸入,該網絡預測變體分數並允許區分正常與有害變體。”
“d再通過對齊最大程度地激活過濾器的基因序列並創建序列基序來可視化卷積過濾器。”
“這是序列窗口的突變圖。行對應於四種可能的堿基對替換,列對應於序列位置。任何序列變化的預測影響都是用顏色編碼的。”
“頂部的字母表示野生型序列,每個核苷酸的高度表示突變的最大影響......”
結束對獅城研發中心的調研後,李渺渺問道:“你覺得怎麽樣?”
“他說的那些,我完全聽不懂啥意思。”
“江城研發中心這兩年受到的內部資源支持力度是在加大的。”
“如果他們的表現無法讓你滿意的話,我們可以把一部分資源轉移給其他表現更好的研發中心。”
目前科創生物在獅城、江城、姑蘇、金陵、申海和倫敦。
其中倫敦和申海主要是做ai芯片和腦機連接芯片研發的。
生物醫藥領域的研發中心,隻有獅城、江城和金陵。
外界對江城的很大一部分印象是這裏的高校特別多,兩所985,7所211,教育資源雄厚。
但是金陵的教育資源不亞於江城,同樣兩所985,但是金陵有8所211.
科創生物在金陵設置研發中心,不僅是金陵政府的希望,也是看重金陵優質的教育資源和人才。
鄭理歎氣:“勉強過關吧。”
“怎麽說呢,如果是一年前江城研發中心剛成立半年的時候,把這個成果拿出來作為亮點工作給我看。”
“我會給他們打八分,但是現在已經過去一年半了,我隻能給他們打六分。”
“做的東西隻是在別人的基礎上進行修改,我剛剛還沒問他們真正的底層原理。”
“研究還隻是停留在應用層。”
“我們跟輝瑞、拜耳這些醫藥巨頭的差距還是太大。”
李渺渺心裏則是在想,以鄭理的標準來看,江城研究中心的成果在國內來說應該算是不錯了。
隻是鄭理自己的研究一直是突破,所以他認為突破性成果是理所應當的。
但是實際上在生物醫藥領域,國外巨頭們的技術壁壘哪有那麽容易突破。
當然明麵上李渺渺不會這麽說,她低聲道:
“這幾年就當鍛煉隊伍培育人才了。”
“輝瑞、拜耳這些巨頭們人才隊伍的培養和研究團隊曆史太過於悠久。”
“尊重客觀規律,並不是所有領域都能實現彎道超車的。”
“我們隻要能實現穩步向前就可以了。”
在經管院上學,李渺渺聽過很多悲觀言論,認為華國在科技上永遠無法實現突破和超越。
別說科技突破和超越,想在產業鏈上實現突圍都難之有難。
學生時期李渺渺從周圍聽到的大多是悲觀的聲音。
跟鄭理出來創業後,他們做的是世界範圍內領先的技術,而且技術領先世界至少五年時間。
三年過去了,馬斯克旗下的neuralink還沒拿出課程生物當年的腦機連接手機技術來。
因為聽過了不同的聲音,所以李渺渺可以更加客觀的做出判斷。
華國科技實現突圍是必然,隻是道路是曲折的。
他們在新一代科技革命中占據了先手。
這種先手雖然隻是隨時可以被突破的信息優勢,但是有優勢總比沒有好。
“我們先形成工作匯報,報給上麵決策,現在最重要的是要拖住鄭理,讓他別太早迴去。”
“好,我去安排。”
華國官方對鄭理做過多次心理側寫和人物畫像,知道鄭理看似無情實際上對朋友很夠意思。
......
“鄭董,我們現在主要是將自然語言處理領域中的worltticeparising概念引入到創新藥研發當中。”
“通過算法設計的蛋白小分子序列在穩定性、蛋白質表達水平和製作成本上要好於傳統方法。”
“這個方法早在兩年前,當時斯微生物和千度研究員就mrna疫苗開展了ai序列優化算法的合作。”
“程總是斯微生物的股東和外部董事,當時他負責牽線,把這一技術引入到獅城研究員,我們這兩年下來將ai序列優化算法的應用領域拓展到了創新藥研發上。”
“目前關於擔保之序列設計的迭代技術還在開發中。”
鄭理此時身在科創生物江城的研發中心,這裏的研發主管正在向鄭理匯報工作。
江城研發中心主要負責部分創新藥的研發。
自從科創生物崛起後,江城大學的生物係高考分數線提高了至少二十分。
原本江城大學的生物學算是江大的王牌專業,但是受限於出路不佳,所以分數線遠不如經管院。
專業排名靠前不代表分數線高,江大內部分數最高的專業是金融工程和數學,畢業之後可以拿金融學和數學的雙學位。
科創生物在江城的研究中心,校招的主要對象就是江大和江城科技大學。
大量招收生物學畢業的碩士和博士,薪酬待遇比大米在江城的分部高了半個檔次。
同時江城的研究中心還和江大的生物學院展開了很多項目合作。
江大內部私下討論,都覺得鄭理作為數學學院的畢業生,最大的蛋糕反而被生物學院吃完了。
“所以這是ai和計算生物學的應用對吧?”
對鄭理的問題,江城的研發主管點頭道:“是的。”
“我們目前主要做的是序列比對和蛋白質結構預測。”
“計算生物學不僅是這兩個領域,還有基因識別、進化樹構造等方向。”
“自從ai技術走進人們視野後,機器學習技術讓計算生物學得到了極大的發展。”
“基因組學和成像技術的進步導致來自大量樣本的分子和細胞分析數據的爆炸式增長。”
“生物數據維度和采集率的快速增長對傳統分析策略提出了挑戰。現代機器學習方法,如深度學習,承諾利用非常大的數據集來尋找其中的隱藏結構,並做出準確的預測。”
“比如我們有一個小組是專門做預測癌細胞在藥物作用下的活力問題。”
“輸入特征值將捕獲細胞係的體細胞序列變體、藥物的化學組成及其濃度匯總,它們將與測量的活力一起可用於訓練支持向量機、隨機森林分類器或相關的方法。”
“給定未來一個新的細胞係,學習函數通過計算函數來預測其可能的活力。”
“即便函數在我們看來更像是一個黑盒子,它的內部工作原理、為什麽特定的突變組合會影響細胞生長並不容易找到背後的具體原因。”
“兩個迴歸和分類以通過這種方式查看。”
“作為對應物,無監督機器學習方法旨在從數據樣本x本身中發現模式,而不需要輸出標簽y。”
“類似的聚類、主成分分析和異常值檢測等方法都更接近黑盒,我們目前主要應用於生物數據的無監督模型。”
鄭理鼓掌道:“很好。”
其實計算生物學的進化路線,和現代法師的研究有很多相似之處。
法師們通過生物雲的高頻計算能力,對基因、蛋白質等構成生命的基本要素進行定性定量分析。
法師們的優勢不僅在碳基計算機的運算能力和上限比矽基更高,而且來源於他們可以直接通過意誌幹涉物質世界。
能有更多的特殊樣本和針對性誘導樣本進行研究。
鄭理繼續問道:“其實你們目前主要使用的還是神經網絡對吧?”
“卷積神經網絡、循環神經網絡、自動編碼機這些。”
研發主管深知鄭理的科研能力和所涉及領域之廣泛,因此對於鄭理一語把他們的關鍵點透絲毫不意外:
“是的,主要還是神經網絡在計算生物領域的應用。”
涉及到研發層麵,鄭理從來都是有話直說:
“深度學習在計算生物層麵的應用很早之前就開始了。”
“bengio早在2012年就開始用神經網絡研究基因組學和生物圖像分析,將序列變異和分子特征聯係到一起了。”
“也就是說我們使用的技術,如果是外行來聽,會覺得很先進,深度學習、人工智能,但是實際上這已經是十年前別人就在玩的東西。”
“我們自己有什麽突破?別告訴我隻是把別人的方法拿來用。”
“如果隻是做到這個程度”
鄭理沒說完,他轉頭看向李渺渺:“渺渺,江城研發中心每年投入的預算是多少?”
李渺渺不假思索道:“今年給他們編的預算是17.4億元。”
鄭理點頭道:“好的,如果你們隻是這個水平,那今年的預算把零頭砍掉。”
李渺渺問道:“砍掉7.4億元嗎?”
“嗯。”
鄭理說完直視坐他對麵的研發主管。
每年各個研發中心的預算不僅是錢和資源,而且代表著你在公司內部的重要程度。
鄭理砍預算,不代表會把他們今年的研發目標降低。
研發主管連忙道:“鄭董,我們有很多自主的研發。”
他知道自己拿出來的東西一定不能糊弄。
鄭理太懂了,當你的上司對你的業務過於了解的時候,上班摸魚的難度被提升到了極點。
“我們優化了從dna序列對分子特征優化的神經網絡算法。”
“鄭董,這是個體的dna序列和基因組的分子反應變量。”
“在傳統的調控基因組學方法中主要需要考慮個體之間的差異,而我們優化之後的深度學習算法允許通過將基因組平鋪到以個體特征為中心的序列dna窗口中。”
“然後利用個體內部的差異,從而從單個樣本中產生大量的訓練數據集。”
“這是用於從原始dna序列預測分子特征的一維卷積神經網絡。”
“第一個卷積層的過濾器掃描輸入序列中的圖案。隨後的池化減少了輸入維度,並且額外的卷積層可以模擬前一層中dna序列的交互。”
“再看這裏,c圖由b圖中所示的神經網絡預測的野生型和突變序列的響應變量被用作另一個神經網絡的輸入,該網絡預測變體分數並允許區分正常與有害變體。”
“d再通過對齊最大程度地激活過濾器的基因序列並創建序列基序來可視化卷積過濾器。”
“這是序列窗口的突變圖。行對應於四種可能的堿基對替換,列對應於序列位置。任何序列變化的預測影響都是用顏色編碼的。”
“頂部的字母表示野生型序列,每個核苷酸的高度表示突變的最大影響......”
結束對獅城研發中心的調研後,李渺渺問道:“你覺得怎麽樣?”
“他說的那些,我完全聽不懂啥意思。”
“江城研發中心這兩年受到的內部資源支持力度是在加大的。”
“如果他們的表現無法讓你滿意的話,我們可以把一部分資源轉移給其他表現更好的研發中心。”
目前科創生物在獅城、江城、姑蘇、金陵、申海和倫敦。
其中倫敦和申海主要是做ai芯片和腦機連接芯片研發的。
生物醫藥領域的研發中心,隻有獅城、江城和金陵。
外界對江城的很大一部分印象是這裏的高校特別多,兩所985,7所211,教育資源雄厚。
但是金陵的教育資源不亞於江城,同樣兩所985,但是金陵有8所211.
科創生物在金陵設置研發中心,不僅是金陵政府的希望,也是看重金陵優質的教育資源和人才。
鄭理歎氣:“勉強過關吧。”
“怎麽說呢,如果是一年前江城研發中心剛成立半年的時候,把這個成果拿出來作為亮點工作給我看。”
“我會給他們打八分,但是現在已經過去一年半了,我隻能給他們打六分。”
“做的東西隻是在別人的基礎上進行修改,我剛剛還沒問他們真正的底層原理。”
“研究還隻是停留在應用層。”
“我們跟輝瑞、拜耳這些醫藥巨頭的差距還是太大。”
李渺渺心裏則是在想,以鄭理的標準來看,江城研究中心的成果在國內來說應該算是不錯了。
隻是鄭理自己的研究一直是突破,所以他認為突破性成果是理所應當的。
但是實際上在生物醫藥領域,國外巨頭們的技術壁壘哪有那麽容易突破。
當然明麵上李渺渺不會這麽說,她低聲道:
“這幾年就當鍛煉隊伍培育人才了。”
“輝瑞、拜耳這些巨頭們人才隊伍的培養和研究團隊曆史太過於悠久。”
“尊重客觀規律,並不是所有領域都能實現彎道超車的。”
“我們隻要能實現穩步向前就可以了。”
在經管院上學,李渺渺聽過很多悲觀言論,認為華國在科技上永遠無法實現突破和超越。
別說科技突破和超越,想在產業鏈上實現突圍都難之有難。
學生時期李渺渺從周圍聽到的大多是悲觀的聲音。
跟鄭理出來創業後,他們做的是世界範圍內領先的技術,而且技術領先世界至少五年時間。
三年過去了,馬斯克旗下的neuralink還沒拿出課程生物當年的腦機連接手機技術來。
因為聽過了不同的聲音,所以李渺渺可以更加客觀的做出判斷。
華國科技實現突圍是必然,隻是道路是曲折的。