低成本路線突圍 DeepSeek長文本架構引關注
波新聞/
92 天前

波新聞─陶泰山編輯
2月13日,大陸現象級大語言模型DeepSeek 網頁和APP開始測試新的長文本模型結構,支持 1M 上下文。這也被外界認為,DeepSeek或將在春節期間再次“炸場”發佈新模型,複刻去年春節現象級轟動。
今年1月12日,DeepSeek曾發佈一篇新論文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(基於可擴展查找的條件記憶:大語言模型稀疏性的新維度),其CEO梁文鋒位列作者名單中,這篇論文為北京大學和DeepSeek共同完成。據分析,這篇論文的核心直指當前大語言模型存在的記憶力“短板”,提出了“條件記憶”這一概念。
作為當之無愧的大模型風向標,DeepSeek一舉一動都受到行業整體關注,因其以“低成本”加演演算法/工程優先,在高端算力晶片被美國封鎖的背景下,實現了技術突圍。
圖/DeepSeek。京報網提供
相關新聞
歐盟第20輪對俄制裁未達共識 卡拉斯:挫折但不止步
波新聞
92 天前
Z 世代「恨帥潮」來襲! 2026「臺北非常 Live!」場館招募起跑
台灣好新聞
92 天前
烏美俄擬27日前後再會談 烏方積極籌備細節
波新聞
92 天前
經典回歸:Air Max 95 OG Neon 配色 3月5日重磅登場
報新聞
92 天前
日本星巴克櫻花季登場:粉嫩拿鐵與白桃蘇打譜寫春之序曲
報新聞
92 天前
第79屆英國電影學院獎:威廉王子夫婦與好萊塢巨星閃耀倫敦
報新聞
92 天前
東野圭吾首部動畫鉅作《祈念之樹》:高橋文哉、天海祐希攜手傳遞溫暖心念
報新聞
92 天前
《太平年》引熱議 輕鬆看懂五代十國 學者推薦台積電女作家小說《十朝》
聚傳媒
92 天前
中興橋引道拓寬 定調「先建後拆」降低交通衝擊
聚傳媒
92 天前
【Aster 318 專欄】「把自私 AI 與善良 AI 放在同一個世界,誰能活到最後?」從 AI 善惡到西方制度分類盲點 ——問題詭辯設定的合理性與制度設計的分析論述
品傳媒
92 天前