百科創建
11.7K
2184

DeepSeek

目錄

DeepSeek,全稱杭州深度求索人工智能基礎技術研究有限公司。DeepSeek 是一家創新型科技公司,成立于2023年7月17日,使用數據蒸餾技術,得到更為精煉、有用的數據。由知名私募巨頭幻方量化孕育而生,專注于開發先進的大語言模型(LLM)和相關技術。

2024年1月5日,發布DeepSeek LLM(深度求索的第一個大模型)。1月25日,發布DeepSeek-Coder。2月5日,發布DeepSeekMath。3月11日,發布DeepSeek-VL。5月7日,發布DeepSeek-V2。6月17日,發布DeepSeek-Coder-V2。9月5日,更新 API 支持文檔,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ,推出?DeepSeek V2.5。12月13日,發布DeepSeek-VL2。12月26日晚,正式上線DeepSeek-V3首個版本并同步開源。2025年1月31日,英偉達宣布DeepSeek-R1模型登陸NVIDIANIM。同一時段內,亞馬遜和微軟也接入DeepSeek-R1模型。英偉達稱,DeepSeek-R1是最先進的大語言模型。2月5日消息,DeepSeek-R1、V3、Coder 等系列模型,已陸續上線國家超算互聯網平臺。2月6日消息,澳大利亞政府以所謂“擔心安全風險”為由,已禁止在所有政府設備中使用DeepSeek。2月8日,DeepSeek正式登陸蘇州,并在蘇州市公共算力服務平臺上完成部署上線,為用戶提供開箱即用的軟硬件一體服務。

主要產品

2024年1月5日,發布DeepSeek LLM,這是深度求索的第一個大模型。DeepSeek LLM包含670億參數,從零開始在一個包含2萬億token的數據集上進行了訓練,數據集涵蓋中英文。全部開源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社區使用。DeepSeek LLM 67B Base在推理、編碼、數學和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在編碼和數學方面表現出色。它還展現了顯著的泛化能力,在匈牙利國家高中考試中取得了65分的成績。當然,它還精通中文:DeepSeek LLM 67B Chat在中文表現上超越了GPT-3.5。

2024年1月25日,發布DeepSeek-Coder,DeepSeek Coder由一系列代碼語言模型組成,每個模型均從零開始在2萬億token上訓練,數據集包含87%的代碼和13%的中英文自然語言。代碼模型尺寸從1B到33B版本不等。每個模型通過在項目級代碼語料庫上進行預訓練,采用16K的窗口大小和額外的填空任務,以支持項目級代碼補全和填充。DeepSeek Coder在多種編程語言和各種基準測試中達到了開源代碼模型的最先進性能。

2024年2月5日,發布DeepSeekMath,DeepSeekMath以DeepSeek-Coder-v1.5 7B為基礎,繼續在從Common Crawl中提取的數學相關token以及自然語言和代碼數據上進行預訓練,訓練規模達5000億token。DeepSeekMath 7B在競賽級MATH基準測試中取得了51.7%的優異成績,且未依賴外部工具包和投票技術,接近Gemini-Ultra和GPT-4的性能水平。

2024年3月11日,發布DeepSeek-VL,DeepSeek-VL是一個開源的視覺-語言(VL)模型,采用了混合視覺編碼器,能夠在固定的token預算內高效處理高分辨率圖像(1024 x 1024),同時保持相對較低的計算開銷。這一設計確保了模型在各種視覺任務中捕捉關鍵語義和細節信息的能力。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在廣泛的視覺-語言基準測試中達到了最先進或可競爭的性能。

2024年5月7日,發布第二代開源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek-V2是一個強大的混合專家(MoE)語言模型,以經濟高效的訓練和推理為特點。它包含2360億個總參數,其中每個token激活210億個參數。與DeepSeek 67B相比,DeepSeek-V2不僅實現了更強的性能,同時還節省了42.5%的訓練成本,將KV緩存減少了93.3%,并將最大生成吞吐量提升至5.76倍。在一個包含8.1萬億token的多樣化且高質量的語料庫上對DeepSeek-V2進行了預訓練。在完成全面的預訓練后,通過監督微調(SFT)和強化學習(RL)進一步釋放了模型的潛力。評估結果驗證了方法的有效性,DeepSeek-V2在標準基準測試和開放式生成評估中均取得了顯著的表現。DeepSeek V2模型因在中文綜合能力評測中的出色表現,且以極低的推理成本引發行業關注,被稱為“AI界的拼多多”。

2184

免責聲明:本站詞條系由網友創建、編輯和維護,內容僅供參考。

以上內容均為商業內容展示,僅供參考,不具備專業問題解決服務,

如果您需要解決具體問題(尤其在法律、醫學等領域),建議您咨詢相關領域的專業人士。

如您發現詞條內容涉嫌侵權,請通過 948026894@qq.com 與我們聯系進行刪除處理!

上一篇:卡瓦格博峰
一秒推
主站蜘蛛池模板: 男女爽爽无遮挡午夜视频在线观看 | 黄色成人免费网站| 欧美婷婷六月丁香综合色| 国产精品嫩草影院在线| 亚洲国产中文在线二区三区免| 巨胸喷奶水www永久免费| 曰批全过程免费视频免费看 | 国产午夜免费福利红片| 久久久久无码精品国产| 老子午夜精品无码| 欧美精品99久久久久久人| 国产香蕉一区二区三区在线视频| 午夜精品久久久久久| 久久精品国产99国产精品| 蜜柚在线观看免费高清| 成人性生交大片免费看| 免费吃奶摸下激烈视频| 91成人爽a毛片一区二区| 欧美交a欧美精品喷水| 国产无遮挡又黄又爽又色| 久久人妻少妇嫩草av蜜桃| 人人澡人人爽人人| 日韩国产免费一区二区三区| 国产一区二区三区在线观看免费| 一本久道久久综合多人| 渣男渣女抹胸渣男渣女app| 国产精品久久久久久亚洲影视| 九九热爱视频精品| 色噜噜狠狠色综合日日| 天天躁日日躁aaaaxxxx| 亚洲国产精品无码久久青草| 欧美黑人bbbbbbbbb| 无码av专区丝袜专区| 伊人亚洲综合网| www亚洲精品| 扒开双腿猛进入免费视频黄| 免费无码国产V片在线观看| 1000部国产成人免费视频| 日本激情一区二区三区| 免费网站看av片| 曰批全过程免费视频网址|