蘋果2025基礎(chǔ)模型技術(shù)報(bào)告(Apple Intelligence Foundation Language Models Tech Report 2025)要點(diǎn)速覽:
兩份模型
3B 設(shè)備端模型:KV 緩存共享 + 2-bit 量化感知訓(xùn)練,為 A 系列/ M 系列芯片定制,可在 iPhone、iPad 本地低功耗運(yùn)行。
云端大模型:并行軌道混合專家(PT-MoE)Transformer,配合交錯(cuò)全局-局部注意力,在蘋果私有云上彈性擴(kuò)展。
PT-MoE 架構(gòu)亮點(diǎn)
把模型拆成多條“軌道”,每條軌道內(nèi)部再堆疊 MoE 層;軌道之間只在邊界同步,通信量相比張量并行最高可減少 87.5%。
稀疏激活+計(jì)算-通信重疊,保證大參數(shù)量下仍維持低延遲。
多模態(tài)能力
視覺編碼器:服務(wù)器端 1B ViT-g,設(shè)備端 300M ViTDet-L,均支持圖像理解。
引入“注冊(cè)窗口(RW)”機(jī)制:先讓局部窗口與全局 token 交互,再聚合全局上下文,兼顧細(xì)節(jié)和整體。
訓(xùn)練與數(shù)據(jù)
數(shù)據(jù)來源:負(fù)責(zé)任爬取、授權(quán)語料、高質(zhì)量合成數(shù)據(jù),覆蓋多語言、多模態(tài)。
訓(xùn)練管線:預(yù)訓(xùn)練 → 監(jiān)督微調(diào) → 強(qiáng)化學(xué)習(xí),全程在蘋果自研異步平臺(tái)上完成。
開發(fā)者框架
Swift 原生基礎(chǔ)模型框架:內(nèi)置引導(dǎo)式生成、約束式工具調(diào)用、LoRA 微調(diào)三大模塊,30 億參數(shù)設(shè)備模型幾行代碼即可集成到 App。
適用場景:摘要、實(shí)體抽取、簡短對(duì)話、創(chuàng)意寫作等,但不面向開放領(lǐng)域問答。
隱私與安全
設(shè)備端優(yōu)先計(jì)算;必須上云時(shí)走“私有云計(jì)算”,數(shù)據(jù)全程加密,蘋果無法訪問原始內(nèi)容。
內(nèi)容過濾、地區(qū)合規(guī)評(píng)估、用戶可控?cái)?shù)據(jù)刪除機(jī)制一并上線。
