翻看Tiktokenizer資料,想起要不要學英語的話題。去年和學生說,GPT後,翻譯行已經是死路一條。但其實後面還有一層沒說的意思,GPT後,學不好英語,漢語其實也學不好了。 理由就在Tiktokenizer上: Supercalifragilisticexpialidocious, a term coined in the famous musical "Mary Poppins", exemplifies the use of long and complex words. Antidisestablishmentarianism, another lengthy term, often challenges readers with its intricate structure. Pseudopseudohypoparathyroidism is a medical term that can be quite daunting due to its multiple prefixes and suffixes. 這段話是專門讓GPT-4o寫的,目的是測試英文單詞的Tokenization,ta自己翻譯中文為: 超级钙化脆弱易碎症,这个词出现在著名的音乐剧《欢乐满人间》中,体现了使用长而复杂的词语。反建立主义,又一个冗长的术语,经常让读者对其复杂的结构感到困惑。伪伪甲状旁腺功能亢进症是一个医学术语,由于其多个前缀和后缀,可能会显得相当令人望而生畏。 英文表述,GPT-4o的Tiktokenizer結果內,ifies/ism/es,無疑都在標示明確的語法意義。Token count 80。 中文表述,GPT-4o的Tiktokenizer結果內,因為漢字本身不標記語法,“了”顯然無法對應ifies,反建立主義,被計算為4個Token,中的“主義”作為獨立Token,和Antidisestablishmentarianism的被計算為6個Token,一個單詞對比一個長短語,顯然也不在一個層級。Token count 107。 LLM衹處理Token從不處理文本,這從源頭上已經決定了最終生成的文本質量完全不可能在一個層級,除非國內真的有非常漢語漢字,從字符級別訓練而非拿人家開源版本做底本的模型,否則,兩種語言就都不可或缺。對於一個學生,