DeepSeek招人,登上熱搜第一! 啥?不限專(zhuān)業(yè)、經(jīng)驗(yàn),本科應(yīng)屆生都能年薪百萬(wàn)了。 從BOSS平臺(tái)上一開(kāi)始公布的在招崗位可以看到,最高薪資達(dá)到了110k×14,本科最高也有90k×14。 甚至連實(shí)習(xí)生也是500元一天起招,按每月20天算可以月入萬(wàn)元,最高還有一千元的日薪。 難怪乎一眾網(wǎng)友流下了羨慕的淚水。 還有人連連感慨,AI就像當(dāng)初的互聯(lián)網(wǎng),又有人將吃到時(shí)代紅利了。 不過(guò)截至發(fā)稿前,BOSS平臺(tái)上DeepSeek的招聘職位已清空,目前尚不清楚具體原因。 當(dāng)然,這并不影響我們借此扒一扒DeepSeek的招人要求和人才理念。 本科應(yīng)屆起步,不看經(jīng)驗(yàn)只看能力 仔細(xì)閱讀DeepSeek放出的招聘信息,會(huì)發(fā)現(xiàn)除了個(gè)別崗位需要碩士學(xué)歷之外,大多都是本科起招。 而且英雄不問(wèn)出路,不管是什么專(zhuān)業(yè)、有沒(méi)有工作經(jīng)驗(yàn),DeepSeek的大門(mén)都向你敞開(kāi)。 即便是核心系統(tǒng)的研發(fā)工程師,90K、14薪,也就是年薪126萬(wàn),也依然是本科起步。 實(shí)際上,不僅是新招人遵循著這套標(biāo)準(zhǔn),DeepSeek的既有團(tuán)隊(duì)同樣十分年輕。 去年初,DeepSeek推出V2的時(shí)候,雖然不及R1一般潑天的熱度,但在業(yè)內(nèi)也引起了不小關(guān)注。 當(dāng)時(shí),Anthropic聯(lián)創(chuàng)Jack Clark就認(rèn)為,DeepSeek v2的背后一定有一群“高深莫測(cè)的奇才”。 但很快,DeepSeek創(chuàng)始人梁文鋒就在一場(chǎng)訪談中否認(rèn)了這一猜測(cè)。 并沒(méi)有什么高深莫測(cè)的奇才,都是一些Top高校的應(yīng)屆畢業(yè)生、沒(méi)畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人。 到了現(xiàn)在的v3和R1也是如此,應(yīng)屆生、在讀生,特別是來(lái)自清北的應(yīng)屆生在其中非;钴S。 他們中的一些人,2024年一邊在DeepSeek搞研究,另一邊新鮮熱乎的博士學(xué)位論文剛評(píng)上獎(jiǎng)。 為DeepSeek提出新型注意力MLA(多頭潛在注意力)、GRPO強(qiáng)化學(xué)習(xí)對(duì)齊算法等關(guān)鍵創(chuàng)新的,也無(wú)一例外都是年輕人。 甚至有的只是實(shí)習(xí)了一段時(shí)間,也做出了重要成果。 比如剛剛被頂會(huì)ICLR 2025接收的一篇論文,通過(guò)強(qiáng)化學(xué)習(xí)和蒙特卡洛樹(shù)搜索研發(fā)了一個(gè)專(zhuān)門(mén)用于數(shù)學(xué)證明的模型,在相關(guān)數(shù)據(jù)集(miniF2F-valid)上取得了60.2%的通過(guò)率,而GPT-4只有25%。 這篇論文的第一作者,在DeepSeek的身份就是一名大四實(shí)習(xí)生,于去年上半年在DeepSeek實(shí)習(xí),論文首次發(fā)表時(shí)間剛好是實(shí)習(xí)期結(jié)束,現(xiàn)在這名作者已經(jīng)開(kāi)始讀博。 這或許也解釋了DeepSeek愿意給實(shí)習(xí)生開(kāi)出千元日薪的緣由。 DeepSeek大膽采用沒(méi)有經(jīng)驗(yàn)的年輕人的原因,梁文鋒在訪談中也進(jìn)行了解釋。 如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的。但如果看長(zhǎng)遠(yuǎn),經(jīng)驗(yàn)就沒(méi)那么重要,基礎(chǔ)能力、創(chuàng)造性、熱愛(ài)等更重要。我們招人有條原則是,看能力,而不是看經(jīng)驗(yàn)。 再回過(guò)頭來(lái)看DeepSeek的招聘需求,不難發(fā)現(xiàn)表面上“三不限”的崗位,實(shí)際并不簡(jiǎn)單。 不僅要對(duì)各類(lèi)AI模型有十足的了解、掌握相關(guān)的編程語(yǔ)言,有些崗位甚至要求發(fā)表過(guò)頂刊或者在知名競(jìng)賽中獲獎(jiǎng)。 如此一來(lái),DeepSeek團(tuán)隊(duì)雖然在年紀(jì)和資歷上淺了一些,但無(wú)論能力還是成果都可圈可點(diǎn)。 也正是這支年輕的團(tuán)隊(duì),把DeepSeek抬到了OpenAI的同一張牌桌。 而實(shí)際上,DeepSeek的年輕化不只體現(xiàn)在年齡。 不設(shè)前置分工,計(jì)算資源人人可用 如果從崗位維度看,“全棧工程師”在DeepSeek的招聘列表中占據(jù)了可觀的比重。 關(guān)鍵是,崗位描述沒(méi)有那么多的條條框框。 從招聘介紹中管中窺豹,DeepSeek內(nèi)部的管理模式也主打一個(gè)chill。 梁文鋒介紹,員工被DeepSeek錄取之后就會(huì)開(kāi)啟“放養(yǎng)模式”,交給他重要的事,但不設(shè)KPI、不做干預(yù),讓他自己想辦法、自己發(fā)揮。 當(dāng)然,在這個(gè)過(guò)程中,人員和算力的需求,DeepSeek都會(huì)給予滿(mǎn)足。 我們每個(gè)人對(duì)于卡和人的調(diào)動(dòng)是不設(shè)上限的。如果有想法,每個(gè)人隨時(shí)可以調(diào)用訓(xùn)練集群的卡無(wú)需審批。同時(shí)因?yàn)椴淮嬖趯蛹?jí)和跨部門(mén),也可以靈活調(diào)用所有人,只要對(duì)方也有興趣。 前面提到的MLA注意力機(jī)制,就是一個(gè)很好的例子,它出現(xiàn)的契機(jī),就是一個(gè)偶然。 梁文鋒介紹,在總結(jié)出注意力架構(gòu)的一些主流變遷規(guī)律后,這位年輕人突發(fā)奇想去設(shè)計(jì)一個(gè)替代方案。 面對(duì)這種“偶然”,DeepSeek給予了全力支持,為此專(zhuān)門(mén)組建了一個(gè)團(tuán)隊(duì),用數(shù)個(gè)月的時(shí)間把這個(gè)想法變成了現(xiàn)實(shí)。 再繼續(xù)深入下去,DeepSeek的內(nèi)核也顯得年輕而極具理想主義。 梁文鋒表示,DeepSeek的目標(biāo)很明確,就是不做垂類(lèi)和應(yīng)用,而是做研究、做探索。 在許多大模型創(chuàng)業(yè)者轉(zhuǎn)向應(yīng)用的大趨勢(shì)下,這樣的選擇極有可能是艱辛的。 但在DeepSeek的視角中,搞大模型不能總是依靠拿來(lái)主義來(lái)賺快錢(qián),而是要推動(dòng)真正的技術(shù)創(chuàng)新。 這又從另一個(gè)角度解釋了DeepSeek團(tuán)隊(duì)年輕化的一大原因—— 在經(jīng)濟(jì)效益不做優(yōu)先考量的情況下,創(chuàng)新需要信念來(lái)作為支撐,而年輕人,無(wú)疑是最具信心、最朝氣蓬勃的一個(gè)群體。 擁有上萬(wàn)塊GPU,天價(jià)招人不稀奇 有了理想,當(dāng)然要在此之上進(jìn)行投入,實(shí)際上,DeepSeek無(wú)論在人才還是在算力資源上,都可謂非常不吝成本。 前面我們也提到,DeepSeek打出了計(jì)算資源人人可用這塊招牌,招聘中也明確提到了相關(guān)算力支持。 那么,DeepSeek實(shí)際上有多少算力資源呢? 通過(guò)挖掘知名半導(dǎo)體研究機(jī)構(gòu)Semianalysis發(fā)布的一份解析報(bào)告,我們能夠進(jìn)一步獲悉: (據(jù)報(bào)告推測(cè))DeepSeek擁有約5萬(wàn)塊Hopper GPU,其GPU投資超過(guò)了5億美元。 (Hopper GPU是英偉達(dá)專(zhuān)為高性能計(jì)算和AI研發(fā)的下一代數(shù)據(jù)中心GPU架構(gòu),其名字是為了紀(jì)念已故計(jì)算機(jī)科學(xué)家Grace Hopper) 不過(guò)報(bào)告也提醒,5萬(wàn)個(gè)Hopper GPU≠5萬(wàn)個(gè)H100。 具體來(lái)說(shuō),報(bào)告推測(cè)DeepSeek擁有約1萬(wàn)個(gè)H800和1萬(wàn)個(gè)H100,并且還訂購(gòu)了更多的H20。 這些GPU將在幻方量化(DeepSeek背后公司)和DeepSeek之間共享。 與此同時(shí),報(bào)告還對(duì)之前盛傳的“DeepSeek V3的訓(xùn)練成本僅為600萬(wàn)美元”作了解釋。 這個(gè)數(shù)字其實(shí)是片面的。它只是預(yù)訓(xùn)練過(guò)程中GPU的花費(fèi),僅為模型總成本的一部分。 研發(fā)費(fèi)用以及硬件本身的總體擁有成本等重要部分并未包含在內(nèi)。 具體而言,報(bào)告分析認(rèn)為DeepSeek在硬件上的支出遠(yuǎn)超過(guò)5億美元,而且為了開(kāi)發(fā)新架構(gòu),團(tuán)隊(duì)需要花費(fèi)大量資金和算力。 比如在DeepSeek降本的關(guān)鍵——MLA機(jī)制,前期就有大量人力及GPU計(jì)算時(shí)間被投進(jìn)去,耗時(shí)長(zhǎng)達(dá)數(shù)月。 當(dāng)然這種投入也獲得了回報(bào),在后續(xù)研發(fā)過(guò)程中,每次查詢(xún)所需的KV緩存減少了約93.3%。 所以,即使加上硬件和前面提到的人力成本,DeepSeek在性?xún)r(jià)比這事兒上仍有相當(dāng)大想象空間。 這不,春節(jié)假期還沒(méi)結(jié)束,最近幾天騰訊云、阿里云、百度智能云等各大云計(jì)算都在搶著上架DeepSeek模型。 如此巨大關(guān)注下,能夠開(kāi)出天價(jià)招人也就不奇怪了。 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。