第2024章 ai大模型:sola橫空出世,百模大戰日日新(ai月報)
靈魂交響曲:人工智能日記 作者:新質生產力 投票推薦 加入書簽 留言反饋
《kimi人工智能月度報告丨ai大模型》
關鍵詞:sora\"vs\"日日新
1.openai推出人工智能視頻生成模型“sora”
2024年2月15日,美國人工智能研究公司openai推出了一款視頻生成模型“sora”,並發布48個文生視頻案例及技術報告。openai的官網介紹稱,使用這款模型可以用文本生成長達一分鍾的視頻,視頻可具有多個角色、特定類型的運動、精確主題和背景細節等複雜場景。該公司稱,開發這一模型旨在教會人工智能理解和模擬運動中的物理世界,並訓練其幫助人們解決需要現實世界互動的問題。該模型可以深度模擬真實物理世界,標誌著ai在理解真實世界場景並與之互動的能力方麵實現了重大飛躍。對於任何需要製作視頻的藝術家、電影製片人或學生來說,這都帶來了無限可能。
在針對“sora”的介紹中,openai還指出,當前的模式存在弱點,可能難以準確地模擬複雜場景的物理表現,也可能無法理解因果關係的具體實例。同時,該模型還可能混淆諸如左和右這類的空間細節。
2.穀歌推出輕量級開放人工智能模型gemma
2月21日,穀歌發布一個名為gemma的開放人工智能模型,該模型是使用與構建gemini人工智能模型相同的研究和技術創建的。該公司提供了兩種不同尺寸的gemma——gemma2b和gemma7b。二者都帶有預先訓練和指令調整的變體,並且都足夠輕量,可以直接在開發人員的筆記本電腦或台式電腦上運行。穀歌表示,在關鍵基準測試方麵,gemma超越了更大的模型,並且兩種模型尺寸都優於其他開放模型。該公司表示,目前正在公開關鍵的技術數據,例如“模型權重”。
3.穀歌發11b基礎世界模型,生成交互虛擬世界
穀歌發布根據互聯網視頻訓練的基礎世界模型genie,該模型參數規模為11b,可以從合成圖像、照片甚至草圖生成無數種動作可控的交互式環境。genie可以用它以前從未見過的圖像提示,例如現實世界的照片或草圖,使人們能夠與他們想象的虛擬世界進行交互。
4.美國groq公司開發出新型大模型推理芯片
2月19日,美國人工智能初創公司groq發布新型大模型推理芯片lpu(語言處理單元)。lpu是一種新型的端到端處理單元係統,可以為具備序列組件的計算密集型應用(比如llm)提供極快的推理速度。lpu的推理速度已經接近每秒500詞元(tokens),最快可達到每秒750 tokens。lpu芯片主要基於tsp架構,結合dragonfly網絡拓撲設計,提高了係統的並行處理能力和效率。
groq公司由穀歌tpu芯片團隊原成員創立,該公司的lpu芯片采用14nm製程,其核心優勢是克服了兩個大語言模型推理的瓶頸——計算密度和內存帶寬,搭載了230mb的靜態隨機訪問存儲器(sram)來保證內存帶寬,片上內存帶寬達到80tb\/s,整型(8位)運算速度為750tops,浮點(16位)運算速度為188tflops。由於其內存容量僅為230mb,運行ma270b模型需上百塊芯片,整體成本極高,仍無法替代英偉達。
5.穀歌內部編碼ai大語言模型 goose曝光
穀歌內部研發了一款名為「goose」的ai大語言模型,用於提高員工編寫代碼效率,加速產品研發,目前僅限穀歌員工使用。goose 能迴答技術問題,編寫代碼,提供自然語言的代碼編輯提示,是穀歌將ai融入產品開發的重要一環。業界認為,goose 的推出將提升穀歌產品開發效率,增強其在ai領域的競爭優勢,並可能啟發其他企業開發類似工具。
6.英偉達:推出自己版本的chatgpt
英偉達推出了自家版本的chat with rtx。它並非是在網頁或app中運行,而是需要下載安裝到個人電腦中。這讓它不僅是在運行效果上更快,也意味著chat with rtx在聊天內容上或許並沒有那麽多限製。除此之外,chat with rtx另一個亮點功能,就是可以根據在線視頻做迴答。它背後所依靠的仍是兩款開源llm,即mistral和ma 2,用戶在運行的時候可以根據喜好自行選擇。
7.商湯科技:日日新sensenova 4.0發布
2月2日,商湯科技發布“日日新sensenova 4.0”,多維度全麵升級大模型體係。“日日新sensenova 4.0”擁有更全?的知識覆蓋、更可靠的推理能?,更優越的長?本理解力及更穩定的數字推理能?和更強的代碼?成能?,並?持跨模態交互。日日新·商量大語言模型-通用版本(sensechat v4),支持128k語境窗口長度,綜合整體評測成績水平比肩gpt 4,相較gpt 3.5已經實現全?超越。
8.華為發布首個通信大模型
華為在2024年世界移動通信大會mwc上發布通信行業首個大模型,華為通信大模型將提供基於角色的copilots和基於場景的agents的兩類應用能力,最終將全麵提升網絡生產力。
9.華為聯合香港大學發布圖像生成ai模型
華為公司與香港大學的聯合研究團隊發布圖像生成ai模型pagent。pagent的核心思想是采用分而治之的方法,將複雜的文本提示分解為單個對象、屬性和關係,然後獨立地處理這些元素,最後將它們組合成最終的圖像。pagent能夠確保生成的圖像準確反映文本描述中的對象類型、屬性和關係。
10.字節發布文生圖開放模型sdxl-lightning
從ai開源社區hugging face的最新榜單上,sdxl-lightning 躋身模型趨勢榜,同時也成為hugging face spaces上的熱門模型。據知情人士透露,字節跳動的sdxl-lightning通過漸進式對抗蒸餾的技術,實現前所未有的生成速度。該模型能夠在2步或4步內生成極高質量和分辨率的圖像,將生成速度加快十倍,是1024分辨率下速度最快的文生圖模型,計算成本則降低為十分之一。
11.字節版gpts「扣子」上線了
根據coze國內版官網,其新一代一站式ai bot開發平台coze於2月1日正式麵向國內用戶上線。無論用戶是否有編程基礎,都可以在coze平台上快速搭建基於ai模型的各類問答bot。並且,用戶可以將搭建的bot發布到各類社交平台和通訊軟件上,與這些平台\/軟件上的用戶互動。
——總結·點評——
2024年2月份,人工智能領域展現出大模型技術的多樣化應用場景和顯著進步,從視頻生成、輕量化模型到硬件創新、開發工具等,各大公司都在不斷推動ai技術的邊界,加速人工智能技術的商業化和社會化進程。
關鍵詞:sora\"vs\"日日新
1.openai推出人工智能視頻生成模型“sora”
2024年2月15日,美國人工智能研究公司openai推出了一款視頻生成模型“sora”,並發布48個文生視頻案例及技術報告。openai的官網介紹稱,使用這款模型可以用文本生成長達一分鍾的視頻,視頻可具有多個角色、特定類型的運動、精確主題和背景細節等複雜場景。該公司稱,開發這一模型旨在教會人工智能理解和模擬運動中的物理世界,並訓練其幫助人們解決需要現實世界互動的問題。該模型可以深度模擬真實物理世界,標誌著ai在理解真實世界場景並與之互動的能力方麵實現了重大飛躍。對於任何需要製作視頻的藝術家、電影製片人或學生來說,這都帶來了無限可能。
在針對“sora”的介紹中,openai還指出,當前的模式存在弱點,可能難以準確地模擬複雜場景的物理表現,也可能無法理解因果關係的具體實例。同時,該模型還可能混淆諸如左和右這類的空間細節。
2.穀歌推出輕量級開放人工智能模型gemma
2月21日,穀歌發布一個名為gemma的開放人工智能模型,該模型是使用與構建gemini人工智能模型相同的研究和技術創建的。該公司提供了兩種不同尺寸的gemma——gemma2b和gemma7b。二者都帶有預先訓練和指令調整的變體,並且都足夠輕量,可以直接在開發人員的筆記本電腦或台式電腦上運行。穀歌表示,在關鍵基準測試方麵,gemma超越了更大的模型,並且兩種模型尺寸都優於其他開放模型。該公司表示,目前正在公開關鍵的技術數據,例如“模型權重”。
3.穀歌發11b基礎世界模型,生成交互虛擬世界
穀歌發布根據互聯網視頻訓練的基礎世界模型genie,該模型參數規模為11b,可以從合成圖像、照片甚至草圖生成無數種動作可控的交互式環境。genie可以用它以前從未見過的圖像提示,例如現實世界的照片或草圖,使人們能夠與他們想象的虛擬世界進行交互。
4.美國groq公司開發出新型大模型推理芯片
2月19日,美國人工智能初創公司groq發布新型大模型推理芯片lpu(語言處理單元)。lpu是一種新型的端到端處理單元係統,可以為具備序列組件的計算密集型應用(比如llm)提供極快的推理速度。lpu的推理速度已經接近每秒500詞元(tokens),最快可達到每秒750 tokens。lpu芯片主要基於tsp架構,結合dragonfly網絡拓撲設計,提高了係統的並行處理能力和效率。
groq公司由穀歌tpu芯片團隊原成員創立,該公司的lpu芯片采用14nm製程,其核心優勢是克服了兩個大語言模型推理的瓶頸——計算密度和內存帶寬,搭載了230mb的靜態隨機訪問存儲器(sram)來保證內存帶寬,片上內存帶寬達到80tb\/s,整型(8位)運算速度為750tops,浮點(16位)運算速度為188tflops。由於其內存容量僅為230mb,運行ma270b模型需上百塊芯片,整體成本極高,仍無法替代英偉達。
5.穀歌內部編碼ai大語言模型 goose曝光
穀歌內部研發了一款名為「goose」的ai大語言模型,用於提高員工編寫代碼效率,加速產品研發,目前僅限穀歌員工使用。goose 能迴答技術問題,編寫代碼,提供自然語言的代碼編輯提示,是穀歌將ai融入產品開發的重要一環。業界認為,goose 的推出將提升穀歌產品開發效率,增強其在ai領域的競爭優勢,並可能啟發其他企業開發類似工具。
6.英偉達:推出自己版本的chatgpt
英偉達推出了自家版本的chat with rtx。它並非是在網頁或app中運行,而是需要下載安裝到個人電腦中。這讓它不僅是在運行效果上更快,也意味著chat with rtx在聊天內容上或許並沒有那麽多限製。除此之外,chat with rtx另一個亮點功能,就是可以根據在線視頻做迴答。它背後所依靠的仍是兩款開源llm,即mistral和ma 2,用戶在運行的時候可以根據喜好自行選擇。
7.商湯科技:日日新sensenova 4.0發布
2月2日,商湯科技發布“日日新sensenova 4.0”,多維度全麵升級大模型體係。“日日新sensenova 4.0”擁有更全?的知識覆蓋、更可靠的推理能?,更優越的長?本理解力及更穩定的數字推理能?和更強的代碼?成能?,並?持跨模態交互。日日新·商量大語言模型-通用版本(sensechat v4),支持128k語境窗口長度,綜合整體評測成績水平比肩gpt 4,相較gpt 3.5已經實現全?超越。
8.華為發布首個通信大模型
華為在2024年世界移動通信大會mwc上發布通信行業首個大模型,華為通信大模型將提供基於角色的copilots和基於場景的agents的兩類應用能力,最終將全麵提升網絡生產力。
9.華為聯合香港大學發布圖像生成ai模型
華為公司與香港大學的聯合研究團隊發布圖像生成ai模型pagent。pagent的核心思想是采用分而治之的方法,將複雜的文本提示分解為單個對象、屬性和關係,然後獨立地處理這些元素,最後將它們組合成最終的圖像。pagent能夠確保生成的圖像準確反映文本描述中的對象類型、屬性和關係。
10.字節發布文生圖開放模型sdxl-lightning
從ai開源社區hugging face的最新榜單上,sdxl-lightning 躋身模型趨勢榜,同時也成為hugging face spaces上的熱門模型。據知情人士透露,字節跳動的sdxl-lightning通過漸進式對抗蒸餾的技術,實現前所未有的生成速度。該模型能夠在2步或4步內生成極高質量和分辨率的圖像,將生成速度加快十倍,是1024分辨率下速度最快的文生圖模型,計算成本則降低為十分之一。
11.字節版gpts「扣子」上線了
根據coze國內版官網,其新一代一站式ai bot開發平台coze於2月1日正式麵向國內用戶上線。無論用戶是否有編程基礎,都可以在coze平台上快速搭建基於ai模型的各類問答bot。並且,用戶可以將搭建的bot發布到各類社交平台和通訊軟件上,與這些平台\/軟件上的用戶互動。
——總結·點評——
2024年2月份,人工智能領域展現出大模型技術的多樣化應用場景和顯著進步,從視頻生成、輕量化模型到硬件創新、開發工具等,各大公司都在不斷推動ai技術的邊界,加速人工智能技術的商業化和社會化進程。