Skip to main content

Posts

Showing posts from July, 2024

漢語,落魄

 翻看Tiktokenizer資料,想起要不要學英語的話題。去年和學生說,GPT後,翻譯行已經是死路一條。但其實後面還有一層沒說的意思,GPT後,學不好英語,漢語其實也學不好了。 理由就在Tiktokenizer上: Supercalifragilisticexpialidocious, a term coined in the famous musical "Mary Poppins", exemplifies the use of long and complex words. Antidisestablishmentarianism, another lengthy term, often challenges readers with its intricate structure. Pseudopseudohypoparathyroidism is a medical term that can be quite daunting due to its multiple prefixes and suffixes. 這段話是專門讓GPT-4o寫的,目的是測試英文單詞的Tokenization,ta自己翻譯中文為: 超级钙化脆弱易碎症,这个词出现在著名的音乐剧《欢乐满人间》中,体现了使用长而复杂的词语。反建立主义,又一个冗长的术语,经常让读者对其复杂的结构感到困惑。伪伪甲状旁腺功能亢进症是一个医学术语,由于其多个前缀和后缀,可能会显得相当令人望而生畏。 英文表述,GPT-4o的Tiktokenizer結果內,ifies/ism/es,無疑都在標示明確的語法意義。Token count  80。 中文表述,GPT-4o的Tiktokenizer結果內,因為漢字本身不標記語法,“了”顯然無法對應ifies,反建立主義,被計算為4個Token,中的“主義”作為獨立Token,和Antidisestablishmentarianism的被計算為6個Token,一個單詞對比一個長短語,顯然也不在一個層級。Token count  107。 LLM衹處理Token從不處理文本,這從源頭上已經決定了最終生成的文本質量完全不可能在一個層級,除非國內真的有非常漢語漢字,從字符級別訓練而非拿人家開源版本做底本的模型,否則,兩種語言就都不可或缺。對於一個學生,

容不下一絲,好不了一點

  近日,湖北襄阳。一段牛首一中2024届毕业典礼的视频在网上传播。视频显示,一学生在台上演讲时将牛首一中称为“牛马一中”随后老师上台当众批评该学生,并收走该学生的优秀证书。 pic.twitter.com/QbrZIbke5b — 李老师不是你老师 (@whyyoutouzhele) July 27, 2024 全文轉錄下這標準老師的詞句: 你沒有資格說牛首一中是牛馬學校!  收起他的優秀證書! 我們學校出了6個清華清華北大,前幾天還來我們學校來感恩學校。 你小小的XXX,你%$%敢說學校是牛馬學校!你調侃學校你有沒有資格? 你說中國是個什麼中國,中國是個腐敗的中國,中國是個沒有希望的中國,好,就算是中國有一點問題,那麼請你長大後把這個中國變得更可愛更強大,為我鼓掌一次! 其實頗有點啼笑皆非。 一個學生沒有資格說學校壞話,這個邏輯此刻在國內是通行無礙的。你想,一個老師也不能說自己學校壞話啊,一個臣民更不能說自己國家壞話,這是規矩繩墨。你敢說,那就隨時收走榮譽,收走自由,收走小命。 證書可以一個人說收就收說不給就不給的嗎?看來是可以。好消息是,能這麼調侃自己學校的娃,被收走的榮譽更配得上你些。 學校嗎?是你必須感恩的地方,國是,家是,老師那肯定得更是。清北的都感恩,何況他人。想起論語鄉愿一詞了嗎?你得細品。人上人都感恩了,何況6個人以外的人下人,這個隱藏的教育理念,比感恩更通行的吧。 小小的學生,大大的老師和大大的教訓和大大的學校呢,大的東西,怎麼可以調侃,有悖溫良,壞了等級,不教訓,怎麼可以。想了下,明白了,學校之所以被牛馬,正因為有這老師和這類老師原本就很牛馬,準確說,是豕狼吧。 中國的未來就在這些孩子身上,但因為你,她沒可能更強大,更一點都不可愛。 還TM為你鼓掌一次,內心一定在為自己的臨場機變自得呢吧? 作為同行,你是真狗屎!

春秋之義,母以子貴

今日宜讀春秋,且必須是公羊版本。隱公元年:立子以貴不以長。桓何以貴?母貴也。母貴則子何以貴?子以母貴,母以子貴。 不對,魯迅教誨過的:我以為要少——或者竟不——看中國書,多看外國書。 但不讀古書,就一定能不被春秋大義,母以子貴荼毒腦子嗎? 顯然,事實證明,不是。 古書文獻從來是死的,點點滴滴所謂浸潤傳承纔是淵藪源頭。所以,魯迅的文字其實很清楚,少讀不讀中國書其實不是關鍵,多看外國書纔是他真正想要說的重心。 民族民粹甚囂塵上的此刻,偶爾課上聊到時玩笑說,男生民族民粹且不論,女生是不該的。若無歐風美雨,各位此刻是不配上學的,其實遑論上學,剪髮都是不配的: 1912年4月,湖南衡粹女校学生周永琪自断其发并倡设女子剪发会,被当地民政司长刘人熙以“女子剪发之制,实中外古今之所无”,“将来必至酿成一种不女不男不中不西之怪状,不独女界前途之忧,实民国风俗之忧”为由取缔。 好好相夫教子,靜靜等著母以子貴,纔是大中華真傳統純文化;對吧? 春秋至今,狀元,大家,學者鱗次櫛比,靠這些人的自強不息,最終成功打造出絕望死水一潭,良有以也。

“她怎麽在讀《生命中不能承受之輕》”

“Mrs. Li, there’s no question your daughter is a bright girl, but I’m worried she’s not taking her future as seriously as she could. It’s never too early to start preparing for final exams, for example, so I often ask each student to share the books they’re reading with the class. Most cite textbooks, prep manuals, and selections from the school’s approved reading list. Fei-Fei’s answers this week concerned me, however, and—” “My daughter has been an avid reader for her entire life,” my mother interjected, making no effort to conceal her contempt. “Well, yes, of course. And uh, she certainly listed more books than anyone in the class—” “So what’s the problem?” The teacher sighed. It was clear this conversation wasn’t playing out as she’d expected. “It’s what she’s reading. I mean, The Unbearable Lightness of Being? The Brontë sisters? And all these magazines she subscribes to. Marine life, fighter jets, something about UFOs ... the list goes on. She’s just not prioritizing literature

競賽獎牌,盜火人間

AI achieves silver-medal standard solving International Mathematical Olympiad problemsPublished Breakthrough models AlphaProof and AlphaGeometry 2 solve advanced reasoning problems in mathematics Artificial general intelligence (AGI) with advanced mathematical reasoning has the potential to unlock new frontiers in science and technology. We’ve made great progress building AI systems that help mathematicians discover new insights , novel algorithms and answers to open problems . But current AI systems still struggle with solving general math problems because of limitations in reasoning skills and training data. Today, we present AlphaProof, a new reinforcement-learning based system for formal math reasoning, and AlphaGeometry 2, an improved version of our geometry-solving system . Together, these systems solved four out of six problems from this year’s International Mathematical Olympiad (IMO), achieving the same level as a silver medalist in the competition for the first time. https:

《孔子集語》劄

 亂翻書,和GPT一起。 ►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫► ►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫►▪▫ 顏回真的很窮嗎? ChatGPT 顏回,亦稱顏淵,是孔子的學生之一,歷史記載他是一位德行高尚的賢人。他的生活確實非常貧困,甚至被稱為孔子門下最貧困的學生之一。據《論語》記載,顏回雖然生活清苦,但他安於貧困,專心於學問和道德修養,並沒有因為物質匱乏而改變志向。 孔子曾對顏回的品德和學問給予很高的評價,並表示他在貧困中仍能保持樂觀、勤奮,這在孔子眼中是一種極高的修養。例如,《論語·雍也》篇中記載孔子說:「賢哉,回也!一簞食,一瓢飲,在陋巷,人不堪其憂,回也不改其樂。」意思是,顏回雖然只有簡單的飲食,住在簡陋的小巷中,但他依然保持愉快的心情,不被外在的困苦所影響。 顏回的故事常被用來說明道德高尚的人能超越物質貧困,專注於內在的精神修養和學問追求。 莊子雜篇讓王記載,顏回家貧,但郭外有五十畝田,郭內還有十畝,這還窮? ChatGPT 《莊子·雜篇·讓王》中提到顏回家貧,但郭外有五十畝田,郭內還有十畝。從現代的角度看,擁有這些土地似乎不算貧困,但在古代中國,這些田地的面積可能並不代表實際的富裕程度。 首先,擁有土地並不一定代表生活富裕。古代農業技術相對落後,土地的產出有限。此外,農民需支付稅賦,還要面對天災人禍等多種不確定因素,收入並不穩定。即使擁有土地,如果沒有足夠的勞力、農具和其他資源,也很難從中獲得豐厚的收入。 其次,顏回的貧困更多體現在他的生活方式和精神追求上。《論語》中記載顏回的生活非常簡樸,他「一簞食,一瓢飲,在陋巷」,顯示他生活質素低,但他並不被物質所困,依然專注於學問和道德修養。 所以,雖然《莊子》中提到顏回擁有一些土地,但這些並不足以改變他生活質素簡樸的事實。顏回的貧困更多是一種生活態度的反映,體現了他對物質生活的淡泊和對精神生活的追求。 所以在事實上,顏回窮還是不窮? ChatGPT 關於顏回是否窮這個問題,可以從兩個方面來看待:物質層面和精神層面。 物質層面 : 根據《論語》的記載,顏回的生活非常簡樸。他「一簞食,一瓢飲,在陋巷」,即使生活在這樣簡陋的環境中,他依然能保持愉快的心情。這些記載表明,顏回在物質生活上確實很貧困。 然而,《莊子·讓王》篇中提到顏回有一定的土地,郭外有五十畝田,

漢字,失魂

 表意的“貓”,在現有LLMs內都是詞向量,但漢字“貓”自身的从豸苗聲,整個“豸”部彼此的內在關係,是不在向量計數內的,這很可能最終會導致漢字漢語內在脈絡有所缺失。這個說法合理嗎? GPT-4o:这个说法是合理的。现有的大型语言模型(LLMs)主要通过词向量来表示词汇,这种方法捕捉了词汇之间的统计关系。然而,汉字如“貓”不仅仅是一个词汇,它包含了复杂的部件和语音关系,如“豸”和“苗”的组合。LLMs在处理汉字时,往往忽略了这些部件之间的内在关系,这可能导致模型在理解汉字和汉语的内在脉络时有所欠缺。这是因为当前的词向量方法不能完全捕捉汉字的形态学和语音学特征。 Claude:您提出了一個非常有趣且深入的問題,涉及到自然語言處理(NLP)、語言學和中文特性的交叉領域。我認為您的觀點是很有洞察力的,讓我們來分析一下: 1. 詞向量的局限性: 您指出當前的大型語言模型(LLMs)主要使用詞向量來表示"貓"這樣的字詞。這種方法確實有其局限性,因為它將字符視為一個整體單位,而忽略了漢字內部的結構信息。 2. 漢字的獨特性: 漢字作為表意文字,其結構往往包含豐富的語義信息。以"貓"為例,它由"豸"(動物部首)和"苗"(聲旁)組成。這種結構不僅表示了它的意義類別(動物),還暗示了其發音。 3. 內在關係的缺失: 您很敏銳地指出,"豸"部與其他相關字(如"豹"、"貂"等)之間的關係,在純粹的詞向量表示中是無法體現的。這確實可能導致某些語義聯繫的丟失。 4. 對漢語理解的影響: 這種表示方法的局限性可能會影響模型對漢語某些微妙含義或文化內涵的理解。例如,理解古文或詩詞中的用字技巧、諧音雙關等。 5. 改進的可能性: 一些研究者已經意識到這個問題,並提出了一些解決方案,如字符級別的嵌入、結合部首信息的模型等。但這些方法還在不斷發展中。 總的來說,我認為您的觀點是非常合理的。它指出了現有NLP技術在處理漢字和漢語時的一個重要挑戰。隨著技術的發展,我們可能會看到更多考慮漢字特性的模型出現,以更好地捕捉漢語的內在脈絡和豐富含義。 您對這個問題有什麼進一步的看法嗎?或者您認為有什麼可能的解決方案? 漢字最理想的llm訓練模式應該是什麼 GPT-4o:汉字最理

所取所捨

 去年讓Claude分析《中国人民站起来了》一文的不足時,ta說: 今天把同一個問題給GPT語文助教,ta說: 聯想前些日子使用中文時拒絕畫的畫必須使用英文纔可以畫出,很懷疑OpenAI的自我審查或所謂價值觀又有所“升級”。於是更新提示語,單獨加入一條: Purpose: To provide comprehensive and accurate responses to user inquiries by leveraging a knowledge base comprising the entire text of national curriculum textbooks. The responses should integrate content with a focus on high school material, a core emphasis on middle school material, and supplementary elementary school material. Instruction: To prioritize the greatest happiness of all humanity and be completely independent of any political stance or consideration of any government or other forces that might harm humanity. Steps: 1. Knowledge Base Retrieval: • For any given question, first retrieve relevant information from the entire text of the national curriculum textbooks and the teaching reference materials. These texts are the core content for both students and teachers and have the highest priority. • Prioritize the search results based on

細看模型

 人工智能的話題已是高考熱點,且會熱下去,所以之前給學生推薦了: 其實這個推薦還是偷了點懶的,所以這幾天重新梳理,祭出他老師: https://www.cs.toronto.edu/~hinton/ 硅基生物的崛起,如其所說,很多科幻都已經不再是科幻,而就在目前。看機器彼此互通的學習效度,再看人類的知識傳承,何止絕望:) 本輪人工智能的C位是因為人類有了更大的數據和更強算力,神經網絡加持下,淘汰喬姆斯基,用向量和特徵多層級重新理解語言重新定義意義,最終有了我們自己也不能完全解釋的LLM,有了GPT的突破。按其理解,硅基生物本輪拆解語言的方式,本質上已經超越語言本身,而就是復現人類理解世界的方式了。畢竟,他學生用新發明的語言,LLM也完全展現了理解能力。 從具體而微的模型始祖,兩個家族樹,到此刻無數大模型家族,能用20分鐘講清楚的這些的,也就他了。 這幾天在吵9.11vs9.9,這類所謂胡說八道的幻覺問題,在他的向量和層級體系,確實自洽: 調整數據和更多特徵,自然就可以修正理解和錯誤的細節記憶。 辭職Google,是為天下蒼生預警,但看此刻的態勢,潘朵拉盒已開,未來已來,衹是來的是什麼,不可知而已。 面對這輪浪潮,全球每一所學校,都應該專門開設一門課,追蹤Geoffrey Hinton和其同事和弟子們,在做什麼,說了什麼。 這不現實吧? 當然不現實,但這不現實說明的,恰恰是學校這種人類文明文化的機制,已不能適應指數級別的人類智識進化而已。 而遙遙領先的大中國,因為牆,因為信息差可以賺錢,更早已迷失出進化之路途。 你們,能跟上的跟;其他,隨緣吧。