Skip to main content

漢語,落魄

 翻看Tiktokenizer資料,想起要不要學英語的話題。去年和學生說,GPT後,翻譯行已經是死路一條。但其實後面還有一層沒說的意思,GPT後,學不好英語,漢語其實也學不好了。

理由就在Tiktokenizer上:


Supercalifragilisticexpialidocious, a term coined in the famous musical "Mary Poppins", exemplifies the use of long and complex words. Antidisestablishmentarianism, another lengthy term, often challenges readers with its intricate structure. Pseudopseudohypoparathyroidism is a medical term that can be quite daunting due to its multiple prefixes and suffixes.

這段話是專門讓GPT-4o寫的,目的是測試英文單詞的Tokenization,ta自己翻譯中文為:

超级钙化脆弱易碎症,这个词出现在著名的音乐剧《欢乐满人间》中,体现了使用长而复杂的词语。反建立主义,又一个冗长的术语,经常让读者对其复杂的结构感到困惑。伪伪甲状旁腺功能亢进症是一个医学术语,由于其多个前缀和后缀,可能会显得相当令人望而生畏。

英文表述,GPT-4o的Tiktokenizer結果內,ifies/ism/es,無疑都在標示明確的語法意義。Token count  80。

中文表述,GPT-4o的Tiktokenizer結果內,因為漢字本身不標記語法,“了”顯然無法對應ifies,反建立主義,被計算為4個Token,中的“主義”作為獨立Token,和Antidisestablishmentarianism的被計算為6個Token,一個單詞對比一個長短語,顯然也不在一個層級。Token count  107。

LLM衹處理Token從不處理文本,這從源頭上已經決定了最終生成的文本質量完全不可能在一個層級,除非國內真的有非常漢語漢字,從字符級別訓練而非拿人家開源版本做底本的模型,否則,兩種語言就都不可或缺。對於一個學生,極端講,要在日後訓練一個高質量中文LLM,先學好英語,甚至比學好漢語要重要得多。


多年前看漢語要不要分詞,現在看,可惜沒推開了。如果重讀研⋯⋯唉。

這個Tiktokenizer的過程,牽涉了無數個點,GPT-4o總結說:

英文对话系统的优势和中文对话系统面临的挑战:


1. 用户输入 (User Input)


英文优势:单词和词序清晰,使得 AI 更容易解析和理解输入。

中文挑战:缺乏分词和词序灵活,增加了解析难度。


2. 语法解析 (Syntax Parsing)


英文优势:语法规则明确,解析直接。例如:“The cat sat on the mat.”

中文挑战:依赖上下文,解析复杂。例如:“猫坐在垫子上” 可以多种词序。


3. 命名实体识别 (NER)


英文优势:大写字母和空格分隔帮助识别命名实体。例如:“John lives in New York.”

中文挑战:无空格,识别命名实体更具挑战。例如:“张三住在北京。”


4. 歧义消解 (Ambiguity Resolution)


英文优势:利用词缀和语法标记消解歧义。例如:“He saw her duck.”

中文挑战:需要更多上下文来消解歧义。例如:“我喜欢苹果” 可以指水果或公司。


5. 上下文保持 (Context Maintenance)


英文优势:词序和表达规范,上下文保持稳定。例如:“John went to the store. He bought milk.”

中文挑战:上下文依赖强,需要更多上下文理解。例如:“张三去了商店。他买了牛奶。”


6. 生成和翻译 (Generation and Translation)


英文优势:生成直接,语法固定。例如:“She is reading a book.”

中文挑战:需要注意句式多样性和表达习惯。例如:“她正在看书”和“她在读一本书。”


7. 文化和习惯差异 (Cultural and Habitual Differences)


英文优势:表达直接,文化差异小。例如:“Thank you.” 和 “Please.”

中文挑战:受文化影响大,礼貌用语和习惯表达需特别注意。例如:“谢谢”和“麻烦你。”


通过以上对比,可以看出英文对话系统凭借其固定的语法规则、明确的词序和词缀标记,使得 AI 更容易解析和生成高质量的对话。而中文对话系统由于其灵活的语法结构和依赖上下文理解的特点,增加了对话系统的复杂性。因此,在相同算法下,英文对话系统的质量通常会比中文高。

在這個意義上,看李彥宏不要拼模型要拼應用,純純鬼扯。

Tokenization :(

Tokenization is at the heart of much weirdness of LLMs. Do not brush it off.

  • Why can't LLM spell words? Tokenization.
  • Why can't LLM do super simple string processing tasks like reversing a string? Tokenization.
  • Why is LLM worse at non-English languages (e.g. Japanese)? Tokenization.
  • Why is LLM bad at simple arithmetic? Tokenization.
  • Why did GPT-2 have more than necessary trouble coding in Python? Tokenization.
  • Why did my LLM abruptly halt when it sees the string "<|endoftext|>"? Tokenization.
  • What is this weird warning I get about a "trailing whitespace"? Tokenization.
  • Why the LLM break if I ask it about "SolidGoldMagikarp"? Tokenization.
  • Why should I prefer to use YAML over JSON with LLMs? Tokenization.
  • Why is LLM not actually end-to-end language modeling? Tokenization.
  • What is the real root of suffering? Tokenization.

Comments