跳到主要內容

變形金剛

 #變形金剛


近期的 #LLM 模型是因為前幾年 #RNN 模型不容易被平行化,他的序列必須LOOP 好幾次才能得到結果,以至於計算的維度大爆炸,而變形金剛( #Transformer )裡的注意力機制網路層( #self_attention ) 主要是改善這個問題,有點像是把 RNN 轉用CNN 實踐 ,然而 #CNN 很容易忘記前面的資訊,於是他要使用好幾層,而CNN 的好處是比較容易做平行運算,能夠獨立平行運算的計算,就容易放進單獨的 #GPU 單元去做運算

把循序的程序拆解,讓可以平行的平行,不能的想辦法合併,這個概念不止在生成式ai 如此,在專案管理,製程改善…其實都是同樣的道理


留言