等待人類的智子

看展時，我就在想，3.7億字的《永樂大典》，正常人類需要多長時間讀完？

GPT可以算出一個數理答案，但還算不出這世間的複雜……哪天AI直接回复，哪裡有人可以專門去做讀大典這件事時，進化纔算開始：）

人類已往的全部知識自然不止文字，但主體無疑是文字。所以，從古滕堡計劃到Google圖書，背後的理想，都是匯聚已往人類的全部知識，大語言模型之所以具備了更改人類文明進程的力量，解決的是將這些知識轉化為有交互界面的智識問題。但其實，背後的知識匯聚顯然並未完成。OPENAI所利用的互聯網數據，包含3.7億《永樂大典》嗎？自然沒。即便傳世《大典》全掃描存儲在網絡內了，古籍的識別，也是災難性的；何況GPT訓練語料內中文本身就極小。

完成這個工作，需要以人類文明的宗旨跨國展開，既要聚合人類文獻精英，也需要破除duxiu一類公司的必然阻撓，此後五十年，祈願有開頭。樂觀點想，當各大圖書館都開始掃描全部館藏，當OCR不斷進化，也許，很快就可以有爬蟲，匯聚一切！

但，坦白講，這件事，實在很難指望國內，無論教育部還是高校，甚至是開發大語言的商業公司。全是生意，哪裡有理想。迄今，每天我常態在用的古籍庫，https://ctext.org/zh 是外國友人一個人做出來的，上課時我和學生說，這個網站如果放國內高校，不去申個百萬資金，纔有鬼……

在這個意義上，技術進化是唯一可能，因為只有技術是在突破邊界而非鑄造高牆，當然，GFW一類不在內；

在這個意義上，對人是難報希望的。對所有各國政府，更不能有一絲相信。面對溝通人類的互聯網，各國政府都在做什麼，已經夠看了……

甚至，極端講，阻礙人類進步的最大組織，也許正是各國政府；而技術，是唯一的人類之光。也在這個意義上，也許必須來外星人，人類纔可能完成種族的提升。

Search This Blog

等待人類的智子

Comments

Post a Comment