鵬城實驗室等開展合作 突破國產算力大模型長窗口技術
中新網北京11月19日電 (記者 張素)上下文窗口長度,對于模型理解和生成與特定上下文相關文本極為重要,是大模型核心技術之一。記者近日采訪獲悉,鵬城實驗室等相關機構開展合作,在國產算力大模型長窗口技術方面有所突破。
通常來說,更長的上下文窗口可以提供更豐富的語義信息,并且能夠讓模型生成的內容更準確流暢。“鵬城—百川·腦海33B”的128K長上下文窗口基于“鵬城云腦”國產算力平臺訓練,未來可升級至192K。
據知,為提升上下文窗口長度和模型整體性能,百川智能和鵬城實驗室對模型進行了全流程優化。在數據集構建方面,研發人員采用精細的數據構造,實現段落、句子粒度的自動化數據過濾、選擇、配比,進一步提升了數據質量。
在全生命周期的模型工具集中方面,包括來自北京大學的王亦洲、楊耀東團隊在內,多方開展合作,創新提出帶安全約束的RLHF對齊技術,有效提升了模型內容生成質量和安全性。
鵬城實驗室相關負責人表示,接下來還將廣泛聯合企業、高校和科研院所,通過開源群智的合作模式共享資源,為千行百業插上人工智能的“翅膀”。百川智能相關負責人也表示,希望通過開源、與合作伙伴共創等方式,助力中國大模型創新,促進本土大模型生態日益繁榮。
有評論認為,上述在大模型訓練和應用領域的合作研發實踐,對于國產算力大模型發展具有積極示范作用,希望更多科研機構、企業廠商基于各自優勢形成合力,更好地滿足國內不斷增長的智能化轉型需求,助力中國人工智能產業持續發展。(完)
版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。