第2024章 ai大模型:sola橫空出世，百模大戰日日新(ai月報)

靈魂交響曲：人工智能日記作者：新質生產力投票推薦加入書簽留言反饋

    《kimi人工智能月度報告丨ai大模型》

    關鍵詞：sora\"vs\"日日新

    1.openai推出人工智能視頻生成模型“sora”

    2024年2月15日，美國人工智能研究公司openai推出了一款視頻生成模型“sora”，並發布48個文生視頻案例及技術報告。openai的官網介紹稱，使用這款模型可以用文本生成長達一分鍾的視頻，視頻可具有多個角色、特定類型的運動、精確主題和背景細節等複雜場景。該公司稱，開發這一模型旨在教會人工智能理解和模擬運動中的物理世界，並訓練其幫助人們解決需要現實世界互動的問題。該模型可以深度模擬真實物理世界，標誌著ai在理解真實世界場景並與之互動的能力方麵實現了重大飛躍。對於任何需要製作視頻的藝術家、電影製片人或學生來說，這都帶來了無限可能。

    在針對“sora”的介紹中，openai還指出，當前的模式存在弱點，可能難以準確地模擬複雜場景的物理表現，也可能無法理解因果關係的具體實例。同時，該模型還可能混淆諸如左和右這類的空間細節。

    2.穀歌推出輕量級開放人工智能模型gemma

    2月21日，穀歌發布一個名為gemma的開放人工智能模型，該模型是使用與構建gemini人工智能模型相同的研究和技術創建的。該公司提供了兩種不同尺寸的gemma——gemma2b和gemma7b。二者都帶有預先訓練和指令調整的變體，並且都足夠輕量，可以直接在開發人員的筆記本電腦或台式電腦上運行。穀歌表示，在關鍵基準測試方麵，gemma超越了更大的模型，並且兩種模型尺寸都優於其他開放模型。該公司表示，目前正在公開關鍵的技術數據，例如“模型權重”。

    3.穀歌發11b基礎世界模型，生成交互虛擬世界

    穀歌發布根據互聯網視頻訓練的基礎世界模型genie，該模型參數規模為11b，可以從合成圖像、照片甚至草圖生成無數種動作可控的交互式環境。genie可以用它以前從未見過的圖像提示，例如現實世界的照片或草圖，使人們能夠與他們想象的虛擬世界進行交互。

    4.美國groq公司開發出新型大模型推理芯片

    2月19日，美國人工智能初創公司groq發布新型大模型推理芯片lpu（語言處理單元）。lpu是一種新型的端到端處理單元係統，可以為具備序列組件的計算密集型應用（比如llm）提供極快的推理速度。lpu的推理速度已經接近每秒500詞元（tokens），最快可達到每秒750 tokens。lpu芯片主要基於tsp架構，結合dragonfly網絡拓撲設計，提高了係統的並行處理能力和效率。

    groq公司由穀歌tpu芯片團隊原成員創立，該公司的lpu芯片采用14nm製程，其核心優勢是克服了兩個大語言模型推理的瓶頸——計算密度和內存帶寬，搭載了230mb的靜態隨機訪問存儲器（sram）來保證內存帶寬，片上內存帶寬達到80tb\/s，整型（8位）運算速度為750tops，浮點（16位）運算速度為188tflops。由於其內存容量僅為230mb，運行ma270b模型需上百塊芯片，整體成本極高，仍無法替代英偉達。

    5.穀歌內部編碼ai大語言模型 goose曝光

    穀歌內部研發了一款名為「goose」的ai大語言模型，用於提高員工編寫代碼效率，加速產品研發，目前僅限穀歌員工使用。goose 能迴答技術問題，編寫代碼，提供自然語言的代碼編輯提示，是穀歌將ai融入產品開發的重要一環。業界認為，goose 的推出將提升穀歌產品開發效率，增強其在ai領域的競爭優勢，並可能啟發其他企業開發類似工具。

    6.英偉達：推出自己版本的chatgpt

    英偉達推出了自家版本的chat with rtx。它並非是在網頁或app中運行，而是需要下載安裝到個人電腦中。這讓它不僅是在運行效果上更快，也意味著chat with rtx在聊天內容上或許並沒有那麽多限製。除此之外，chat with rtx另一個亮點功能，就是可以根據在線視頻做迴答。它背後所依靠的仍是兩款開源llm，即mistral和ma 2，用戶在運行的時候可以根據喜好自行選擇。

    7.商湯科技：日日新sensenova 4.0發布

    2月2日，商湯科技發布“日日新sensenova 4.0”，多維度全麵升級大模型體係。“日日新sensenova 4.0”擁有更全?的知識覆蓋、更可靠的推理能?，更優越的長?本理解力及更穩定的數字推理能?和更強的代碼?成能?，並?持跨模態交互。日日新·商量大語言模型-通用版本（sensechat v4），支持128k語境窗口長度，綜合整體評測成績水平比肩gpt 4，相較gpt 3.5已經實現全?超越。

    8.華為發布首個通信大模型

    華為在2024年世界移動通信大會mwc上發布通信行業首個大模型，華為通信大模型將提供基於角色的copilots和基於場景的agents的兩類應用能力，最終將全麵提升網絡生產力。

    9.華為聯合香港大學發布圖像生成ai模型

    華為公司與香港大學的聯合研究團隊發布圖像生成ai模型pagent。pagent的核心思想是采用分而治之的方法，將複雜的文本提示分解為單個對象、屬性和關係，然後獨立地處理這些元素，最後將它們組合成最終的圖像。pagent能夠確保生成的圖像準確反映文本描述中的對象類型、屬性和關係。

    10.字節發布文生圖開放模型sdxl-lightning

    從ai開源社區hugging face的最新榜單上，sdxl-lightning 躋身模型趨勢榜，同時也成為hugging face spaces上的熱門模型。據知情人士透露，字節跳動的sdxl-lightning通過漸進式對抗蒸餾的技術，實現前所未有的生成速度。該模型能夠在2步或4步內生成極高質量和分辨率的圖像，將生成速度加快十倍，是1024分辨率下速度最快的文生圖模型，計算成本則降低為十分之一。

    11.字節版gpts「扣子」上線了

    根據coze國內版官網，其新一代一站式ai bot開發平台coze於2月1日正式麵向國內用戶上線。無論用戶是否有編程基礎，都可以在coze平台上快速搭建基於ai模型的各類問答bot。並且，用戶可以將搭建的bot發布到各類社交平台和通訊軟件上，與這些平台\/軟件上的用戶互動。

    ——總結·點評——

    2024年2月份，人工智能領域展現出大模型技術的多樣化應用場景和顯著進步，從視頻生成、輕量化模型到硬件創新、開發工具等，各大公司都在不斷推動ai技術的邊界，加速人工智能技術的商業化和社會化進程。

溫馨提示：按迴車[Enter]鍵返迴書目，按 ←鍵返迴上一頁，按 →鍵進入下一頁，加入書簽方便您下次繼續閱讀。