DeepSeek

主要產(chǎn)品

DeepSeek，全稱杭州深度求索人工智能基礎技術研究有限公司。DeepSeek 是一家創(chuàng)新型科技公司，成立于2023年7月17日，使用數(shù)據(jù)蒸餾技術，得到更為精煉、有用的數(shù)據(jù)。由知名私募巨頭幻方量化孕育而生，專注于開發(fā)先進的大語言模型（LLM）和相關技術。

2024年1月5日，發(fā)布DeepSeek LLM（深度求索的第一個大模型）。1月25日，發(fā)布DeepSeek-Coder。2月5日，發(fā)布DeepSeekMath。3月11日，發(fā)布DeepSeek-VL。5月7日，發(fā)布DeepSeek-V2。6月17日，發(fā)布DeepSeek-Coder-V2。9月5日，更新 API 支持文檔，宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ，推出?DeepSeek V2.5。12月13日，發(fā)布DeepSeek-VL2。12月26日晚，正式上線DeepSeek-V3首個版本并同步開源。2025年1月31日，英偉達宣布DeepSeek-R1模型登陸NVIDIANIM。同一時段內，亞馬遜和微軟也接入DeepSeek-R1模型。英偉達稱，DeepSeek-R1是最先進的大語言模型。2月5日消息，DeepSeek-R1、V3、Coder 等系列模型，已陸續(xù)上線國家超算互聯(lián)網(wǎng)平臺。2月6日消息，澳大利亞政府以所謂“擔心安全風險”為由，已禁止在所有政府設備中使用DeepSeek。2月8日，DeepSeek正式登陸蘇州，并在蘇州市公共算力服務平臺上完成部署上線，為用戶提供開箱即用的軟硬件一體服務。

主要產(chǎn)品

2024年1月5日，發(fā)布DeepSeek LLM，這是深度求索的第一個大模型。DeepSeek LLM包含670億參數(shù)，從零開始在一個包含2萬億token的數(shù)據(jù)集上進行了訓練，數(shù)據(jù)集涵蓋中英文。全部開源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat，供研究社區(qū)使用。DeepSeek LLM 67B Base在推理、編碼、數(shù)學和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在編碼和數(shù)學方面表現(xiàn)出色。它還展現(xiàn)了顯著的泛化能力，在匈牙利國家高中考試中取得了65分的成績。當然，它還精通中文：DeepSeek LLM 67B Chat在中文表現(xiàn)上超越了GPT-3.5。

2024年1月25日，發(fā)布DeepSeek-Coder，DeepSeek Coder由一系列代碼語言模型組成，每個模型均從零開始在2萬億token上訓練，數(shù)據(jù)集包含87%的代碼和13%的中英文自然語言。代碼模型尺寸從1B到33B版本不等。每個模型通過在項目級代碼語料庫上進行預訓練，采用16K的窗口大小和額外的填空任務，以支持項目級代碼補全和填充。DeepSeek Coder在多種編程語言和各種基準測試中達到了開源代碼模型的最先進性能。

2024年2月5日，發(fā)布DeepSeekMath，DeepSeekMath以DeepSeek-Coder-v1.5 7B為基礎，繼續(xù)在從Common Crawl中提取的數(shù)學相關token以及自然語言和代碼數(shù)據(jù)上進行預訓練，訓練規(guī)模達5000億token。DeepSeekMath 7B在競賽級MATH基準測試中取得了51.7%的優(yōu)異成績，且未依賴外部工具包和投票技術，接近Gemini-Ultra和GPT-4的性能水平。

2024年3月11日，發(fā)布DeepSeek-VL，DeepSeek-VL是一個開源的視覺-語言（VL）模型，采用了混合視覺編碼器，能夠在固定的token預算內高效處理高分辨率圖像（1024 x 1024），同時保持相對較低的計算開銷。這一設計確保了模型在各種視覺任務中捕捉關鍵語義和細節(jié)信息的能力。DeepSeek-VL系列（包括1.3B和7B模型）在相同模型尺寸下，在廣泛的視覺-語言基準測試中達到了最先進或可競爭的性能。

2024年5月7日，發(fā)布第二代開源Mixture-of-Experts（MoE）模型——DeepSeek-V2。DeepSeek-V2是一個強大的混合專家（MoE）語言模型，以經(jīng)濟高效的訓練和推理為特點。它包含2360億個總參數(shù)，其中每個token激活210億個參數(shù)。與DeepSeek 67B相比，DeepSeek-V2不僅實現(xiàn)了更強的性能，同時還節(jié)省了42.5%的訓練成本，將KV緩存減少了93.3%，并將最大生成吞吐量提升至5.76倍。在一個包含8.1萬億token的多樣化且高質量的語料庫上對DeepSeek-V2進行了預訓練。在完成全面的預訓練后，通過監(jiān)督微調（SFT）和強化學習（RL）進一步釋放了模型的潛力。評估結果驗證了方法的有效性，DeepSeek-V2在標準基準測試和開放式生成評估中均取得了顯著的表現(xiàn)。DeepSeek V2模型因在中文綜合能力評測中的出色表現(xiàn)，且以極低的推理成本引發(fā)行業(yè)關注，被稱為“AI界的拼多多”。

2185

免責聲明：本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護，內容僅供參考。

以上內容均為商業(yè)內容展示，僅供參考，不具備專業(yè)問題解決服務，

如果您需要解決具體問題（尤其在法律、醫(yī)學等領域），建議您咨詢相關領域的專業(yè)人士。

如您發(fā)現(xiàn)詞條內容涉嫌侵權，請通過 948026894@qq.com 與我們聯(lián)系進行刪除處理！

上一篇：卡瓦格博峰

下一篇：哪吒之魔童鬧海

欧美性video,久久国产婷婷国产香蕉,国产精品黄视频,www.亚洲免费

DeepSeek

主要產(chǎn)品

熱門標簽