翻看Tiktokenizer資料,想起要不要學英語的話題。去年和學生說,GPT後,翻譯行已經是死路一條。但其實後面還有一層沒說的意思,GPT後,學不好英語,漢語其實也學不好了。
理由就在Tiktokenizer上:
Supercalifragilisticexpialidocious, a term coined in the famous musical "Mary Poppins", exemplifies the use of long and complex words. Antidisestablishmentarianism, another lengthy term, often challenges readers with its intricate structure. Pseudopseudohypoparathyroidism is a medical term that can be quite daunting due to its multiple prefixes and suffixes.
這段話是專門讓GPT-4o寫的,目的是測試英文單詞的Tokenization,ta自己翻譯中文為:
超级钙化脆弱易碎症,这个词出现在著名的音乐剧《欢乐满人间》中,体现了使用长而复杂的词语。反建立主义,又一个冗长的术语,经常让读者对其复杂的结构感到困惑。伪伪甲状旁腺功能亢进症是一个医学术语,由于其多个前缀和后缀,可能会显得相当令人望而生畏。
英文表述,GPT-4o的Tiktokenizer結果內,ifies/ism/es,無疑都在標示明確的語法意義。Token count 80。
中文表述,GPT-4o的Tiktokenizer結果內,因為漢字本身不標記語法,“了”顯然無法對應ifies,反建立主義,被計算為4個Token,中的“主義”作為獨立Token,和Antidisestablishmentarianism的被計算為6個Token,一個單詞對比一個長短語,顯然也不在一個層級。Token count 107。
LLM衹處理Token從不處理文本,這從源頭上已經決定了最終生成的文本質量完全不可能在一個層級,除非國內真的有非常漢語漢字,從字符級別訓練而非拿人家開源版本做底本的模型,否則,兩種語言就都不可或缺。對於一個學生,極端講,要在日後訓練一個高質量中文LLM,先學好英語,甚至比學好漢語要重要得多。
多年前看漢語要不要分詞,現在看,可惜沒推開了。如果重讀研⋯⋯唉。
英文对话系统的优势和中文对话系统面临的挑战:
1. 用户输入 (User Input)
• 英文优势:单词和词序清晰,使得 AI 更容易解析和理解输入。
• 中文挑战:缺乏分词和词序灵活,增加了解析难度。
2. 语法解析 (Syntax Parsing)
• 英文优势:语法规则明确,解析直接。例如:“The cat sat on the mat.”
• 中文挑战:依赖上下文,解析复杂。例如:“猫坐在垫子上” 可以多种词序。
3. 命名实体识别 (NER)
• 英文优势:大写字母和空格分隔帮助识别命名实体。例如:“John lives in New York.”
• 中文挑战:无空格,识别命名实体更具挑战。例如:“张三住在北京。”
4. 歧义消解 (Ambiguity Resolution)
• 英文优势:利用词缀和语法标记消解歧义。例如:“He saw her duck.”
• 中文挑战:需要更多上下文来消解歧义。例如:“我喜欢苹果” 可以指水果或公司。
5. 上下文保持 (Context Maintenance)
• 英文优势:词序和表达规范,上下文保持稳定。例如:“John went to the store. He bought milk.”
• 中文挑战:上下文依赖强,需要更多上下文理解。例如:“张三去了商店。他买了牛奶。”
6. 生成和翻译 (Generation and Translation)
• 英文优势:生成直接,语法固定。例如:“She is reading a book.”
• 中文挑战:需要注意句式多样性和表达习惯。例如:“她正在看书”和“她在读一本书。”
7. 文化和习惯差异 (Cultural and Habitual Differences)
• 英文优势:表达直接,文化差异小。例如:“Thank you.” 和 “Please.”
• 中文挑战:受文化影响大,礼貌用语和习惯表达需特别注意。例如:“谢谢”和“麻烦你。”
通过以上对比,可以看出英文对话系统凭借其固定的语法规则、明确的词序和词缀标记,使得 AI 更容易解析和生成高质量的对话。而中文对话系统由于其灵活的语法结构和依赖上下文理解的特点,增加了对话系统的复杂性。因此,在相同算法下,英文对话系统的质量通常会比中文高。
在這個意義上,看李彥宏不要拼模型要拼應用,純純鬼扯。Tokenization :(
Tokenization is at the heart of much weirdness of LLMs. Do not brush it off.
- Why can't LLM spell words? Tokenization.
- Why can't LLM do super simple string processing tasks like reversing a string? Tokenization.
- Why is LLM worse at non-English languages (e.g. Japanese)? Tokenization.
- Why is LLM bad at simple arithmetic? Tokenization.
- Why did GPT-2 have more than necessary trouble coding in Python? Tokenization.
- Why did my LLM abruptly halt when it sees the string "<|endoftext|>"? Tokenization.
- What is this weird warning I get about a "trailing whitespace"? Tokenization.
- Why the LLM break if I ask it about "SolidGoldMagikarp"? Tokenization.
- Why should I prefer to use YAML over JSON with LLMs? Tokenization.
- Why is LLM not actually end-to-end language modeling? Tokenization.
- What is the real root of suffering? Tokenization.
Comments
Post a Comment