孟繁岐的這番話,聽起來讓人覺得不是那麽舒服。
言下之意,給人一種華國ai技術就是不如國外的感覺。
這是李彥弘不大喜歡的,畢竟他這麽早就關注ai技術,就是為了研發最前沿最先進的技術。
孟繁岐大概猜到了他的想法,前世他也曾被早期華國大量發表的ai論文所迷惑。
覺得在這個新崛起的技術上,華國已經可以和美國分庭抗禮,不落下風。
雖然alphago震驚了世人,但畢竟有些華而不實。
直到上千億級別的語言大模型出現,這種純硬核實力的比拚,讓孟繁岐不得不甘拜下風。
實際上,並非是技術手段和算法層麵上相差太遠。
更多的還是因為優質數據的數量不足。
白度的文心一言,出圖的時候甚至會將用戶的中文輸入翻譯成英文,再去作圖。
很多較真的網友故意測試了中英文差異很大的詞匯,比如總線(bus),鼠標(mouse)。
文心一言繪出的圖像竟然是大巴車和老鼠,這從中文上是完全說不通的事情。
可見即便不是全部,文心一言這個所謂的專注中文的超級大模型,也在相當程度上借助了英文基礎的模型權重和技術。
究竟為何要這麽做,說到底還是基礎不夠紮實牢靠。
整理數據,清洗數據,給數據打上高質量的標簽。
這些都是髒活累活,見效慢的工作。
把別人公開的數據拿過來跑一跑訓一訓,多麽方便快捷?
以國內996大廠的內卷風氣,很難容下長迴報周期的基礎建設。
早些時候看看不出區別,隻覺得國內大廠頻繁在xx榜單上露麵,刷榜,又是超過這個,又是超過那個。
直到語言大模型階段,基礎語料數量和質量上的劣勢才暴露無遺。
“其實這也不能完全怪華國的大廠風氣,美國的互聯網起步要早,並且很多領域的文獻材料歸檔做得特別好。”孟繁岐也曾仔細思索過這方麵的問題。
“像github,arxiv這樣的大型公開社區,裏麵都是非常優質的外文代碼或者論文。這些也不隻是美國人自己的積累。而是通過免費公用的形式,收割了全世界的數據。”
“華國人在github上貢獻的代碼行數也不在少數,反過來看看華國的論文社區,就比如知網,純純就是毒瘤。裏麵屯點碩博生的論文,還要論頁數收費。就連下載之後的閱讀器,甚至都需要專門的....”
此消彼長之下,差了多少珍貴的數據啊...
隻是此時此刻,李彥弘應該還沒有想到這麽大規模的數據用於訓練。因而孟繁岐也不急於一時和他討論後麵語言類的技術,以及生成式的大模型。
最近一兩年內,孟繁岐的重心還是在視覺圖像算法這邊。
“李總,我個人相信ai技術的開源程度是相對的,不可以一直這樣透明下去。隻是最後成為壁壘的可能並不是模型本身這個純技術範疇,更多的可能是計算能力,高質量的大規模數據,以及一些精髓的訓練與反饋方式等等。”
“即便是現在的開源時期,算法產生到模型和代碼公之於眾,其實正常來說,有個半年到一年的時間差,都是正常的。”
“對學術界來說,這不是一個特別長的時間,但對業界能夠真實落地的方向來說。這個時間導致的結果可能是天差地別,甚至是一個企業生與死的區別和距離。”
李彥弘聞言微微頷首,他自然明白孟繁岐話裏暗示的意思。
假設說,李彥弘他想要推出一個實時高性能的圖像檢測應用,目前市麵上的算法是沒有能夠支持他所需要的計算速度和準確度的。
即便孟繁岐願意公開手裏的結果,以論文的審閱方式,至少也是半年後,人們才會知道其中的技術細節。
再加上複現和試錯的時間,他能夠在8-9個月內的時間裏把技術應用進去,就已經很快了。
但如果與孟繁岐合作,自然就能夠提前8-9個月直接獲得這項技術。
這麽長的時間,足夠李彥弘把各方麵的適配,嵌入,甚至是app和用戶界麵等交互的東西全都開發完備。
市場方麵的宣傳和交涉也可以早早展開。
等到技術首次公布的時候,競爭者們還在看論文,驚歎於新技術的性能。
白度則已經和潛在客戶談了三四個月了。
競爭者們還在爭相複現結果的時候,白度則可能連訂單都已經簽下了。
一旦白度這樣的大型龍頭企業能在技術創新上打出半年到大半年的時間差,後起之秀就很難分到大塊的蛋糕了。
李彥弘心裏計算著這裏麵的得失,覺得如果對方實在不肯考慮招聘一事的話,的確這種合作對自己來說百利而無一害。
“你的意思是,你總是會第一時間,又或者是提前和白度分享你的最新成果,或者一部分成果。”今年下半年的孟繁岐非常高產,drea,生成式對抗網絡,加上剛剛給李彥弘看的新型檢測技術。
雖然覺得有些難以置信,但李彥弘已經不怎麽懷疑孟繁岐的產出能力了,他唯一有疑問的是具體的合作方式。
“你不接受雇傭,自然就沒有工資收入。技術入股,這點東西還不夠看。產出沒有定數,或者說得難聽些,你也不會什麽成果都來找我。那你希望以怎樣的形式合作呢?”李彥弘詢問道,“你計劃成立空殼公司,白度按照你提供的技術和具體指標來定價收購?”
“你難道就不想早點收獲財富嗎?”李彥弘其實有些費解,他拿起手中的紙,掂了掂,“就這裏的算法和模型,一手交錢,一手交貨,多麽方便快捷。”
“李總說笑了,這又不會是一錘子買賣。”重生者做技術突破,用點力氣當然是必要的,但也不必用盡全力。且不說有部分技術受到限製不好直接做出,即便做得出,也總得多留點空間給自己不是。
一個人若是有了突破世界紀錄的實力,那自然還是分個十次反複突破來得劃算,哪有一步到位的道理。
要得就是,他又雙叒叕突破世界紀錄啦。
言下之意,給人一種華國ai技術就是不如國外的感覺。
這是李彥弘不大喜歡的,畢竟他這麽早就關注ai技術,就是為了研發最前沿最先進的技術。
孟繁岐大概猜到了他的想法,前世他也曾被早期華國大量發表的ai論文所迷惑。
覺得在這個新崛起的技術上,華國已經可以和美國分庭抗禮,不落下風。
雖然alphago震驚了世人,但畢竟有些華而不實。
直到上千億級別的語言大模型出現,這種純硬核實力的比拚,讓孟繁岐不得不甘拜下風。
實際上,並非是技術手段和算法層麵上相差太遠。
更多的還是因為優質數據的數量不足。
白度的文心一言,出圖的時候甚至會將用戶的中文輸入翻譯成英文,再去作圖。
很多較真的網友故意測試了中英文差異很大的詞匯,比如總線(bus),鼠標(mouse)。
文心一言繪出的圖像竟然是大巴車和老鼠,這從中文上是完全說不通的事情。
可見即便不是全部,文心一言這個所謂的專注中文的超級大模型,也在相當程度上借助了英文基礎的模型權重和技術。
究竟為何要這麽做,說到底還是基礎不夠紮實牢靠。
整理數據,清洗數據,給數據打上高質量的標簽。
這些都是髒活累活,見效慢的工作。
把別人公開的數據拿過來跑一跑訓一訓,多麽方便快捷?
以國內996大廠的內卷風氣,很難容下長迴報周期的基礎建設。
早些時候看看不出區別,隻覺得國內大廠頻繁在xx榜單上露麵,刷榜,又是超過這個,又是超過那個。
直到語言大模型階段,基礎語料數量和質量上的劣勢才暴露無遺。
“其實這也不能完全怪華國的大廠風氣,美國的互聯網起步要早,並且很多領域的文獻材料歸檔做得特別好。”孟繁岐也曾仔細思索過這方麵的問題。
“像github,arxiv這樣的大型公開社區,裏麵都是非常優質的外文代碼或者論文。這些也不隻是美國人自己的積累。而是通過免費公用的形式,收割了全世界的數據。”
“華國人在github上貢獻的代碼行數也不在少數,反過來看看華國的論文社區,就比如知網,純純就是毒瘤。裏麵屯點碩博生的論文,還要論頁數收費。就連下載之後的閱讀器,甚至都需要專門的....”
此消彼長之下,差了多少珍貴的數據啊...
隻是此時此刻,李彥弘應該還沒有想到這麽大規模的數據用於訓練。因而孟繁岐也不急於一時和他討論後麵語言類的技術,以及生成式的大模型。
最近一兩年內,孟繁岐的重心還是在視覺圖像算法這邊。
“李總,我個人相信ai技術的開源程度是相對的,不可以一直這樣透明下去。隻是最後成為壁壘的可能並不是模型本身這個純技術範疇,更多的可能是計算能力,高質量的大規模數據,以及一些精髓的訓練與反饋方式等等。”
“即便是現在的開源時期,算法產生到模型和代碼公之於眾,其實正常來說,有個半年到一年的時間差,都是正常的。”
“對學術界來說,這不是一個特別長的時間,但對業界能夠真實落地的方向來說。這個時間導致的結果可能是天差地別,甚至是一個企業生與死的區別和距離。”
李彥弘聞言微微頷首,他自然明白孟繁岐話裏暗示的意思。
假設說,李彥弘他想要推出一個實時高性能的圖像檢測應用,目前市麵上的算法是沒有能夠支持他所需要的計算速度和準確度的。
即便孟繁岐願意公開手裏的結果,以論文的審閱方式,至少也是半年後,人們才會知道其中的技術細節。
再加上複現和試錯的時間,他能夠在8-9個月內的時間裏把技術應用進去,就已經很快了。
但如果與孟繁岐合作,自然就能夠提前8-9個月直接獲得這項技術。
這麽長的時間,足夠李彥弘把各方麵的適配,嵌入,甚至是app和用戶界麵等交互的東西全都開發完備。
市場方麵的宣傳和交涉也可以早早展開。
等到技術首次公布的時候,競爭者們還在看論文,驚歎於新技術的性能。
白度則已經和潛在客戶談了三四個月了。
競爭者們還在爭相複現結果的時候,白度則可能連訂單都已經簽下了。
一旦白度這樣的大型龍頭企業能在技術創新上打出半年到大半年的時間差,後起之秀就很難分到大塊的蛋糕了。
李彥弘心裏計算著這裏麵的得失,覺得如果對方實在不肯考慮招聘一事的話,的確這種合作對自己來說百利而無一害。
“你的意思是,你總是會第一時間,又或者是提前和白度分享你的最新成果,或者一部分成果。”今年下半年的孟繁岐非常高產,drea,生成式對抗網絡,加上剛剛給李彥弘看的新型檢測技術。
雖然覺得有些難以置信,但李彥弘已經不怎麽懷疑孟繁岐的產出能力了,他唯一有疑問的是具體的合作方式。
“你不接受雇傭,自然就沒有工資收入。技術入股,這點東西還不夠看。產出沒有定數,或者說得難聽些,你也不會什麽成果都來找我。那你希望以怎樣的形式合作呢?”李彥弘詢問道,“你計劃成立空殼公司,白度按照你提供的技術和具體指標來定價收購?”
“你難道就不想早點收獲財富嗎?”李彥弘其實有些費解,他拿起手中的紙,掂了掂,“就這裏的算法和模型,一手交錢,一手交貨,多麽方便快捷。”
“李總說笑了,這又不會是一錘子買賣。”重生者做技術突破,用點力氣當然是必要的,但也不必用盡全力。且不說有部分技術受到限製不好直接做出,即便做得出,也總得多留點空間給自己不是。
一個人若是有了突破世界紀錄的實力,那自然還是分個十次反複突破來得劃算,哪有一步到位的道理。
要得就是,他又雙叒叕突破世界紀錄啦。