看展時,我就在想,3.7億字的《永樂大典》,正常人類需要多長時間讀完?
GPT可以算出一個數理答案,但還算不出這世間的複雜……哪天AI直接回复,哪裡有人可以專門去做讀大典這件事時,進化纔算開始:)
人類已往的全部知識自然不止文字,但主體無疑是文字。所以,從古滕堡計劃到Google圖書,背後的理想,都是匯聚已往人類的全部知識,大語言模型之所以具備了更改人類文明進程的力量,解決的是將這些知識轉化為有交互界面的智識問題。但其實,背後的知識匯聚顯然並未完成。OPENAI所利用的互聯網數據,包含3.7億《永樂大典》嗎?自然沒。即便傳世《大典》全掃描存儲在網絡內了,古籍的識別,也是災難性的;何況GPT訓練語料內中文本身就極小。
完成這個工作,需要以人類文明的宗旨跨國展開,既要聚合人類文獻精英,也需要破除duxiu一類公司的必然阻撓,此後五十年,祈願有開頭。樂觀點想,當各大圖書館都開始掃描全部館藏,當OCR不斷進化,也許,很快就可以有爬蟲,匯聚一切!
但,坦白講,這件事,實在很難指望國內,無論教育部還是高校,甚至是開發大語言的商業公司。全是生意,哪裡有理想。迄今,每天我常態在用的古籍庫,https://ctext.org/zh 是外國友人一個人做出來的,上課時我和學生說,這個網站如果放國內高校,不去申個百萬資金,纔有鬼……
在這個意義上,技術進化是唯一可能,因為只有技術是在突破邊界而非鑄造高牆,當然,GFW一類不在內;
在這個意義上,對人是難報希望的。對所有各國政府,更不能有一絲相信。面對溝通人類的互聯網,各國政府都在做什麼,已經夠看了……
甚至,極端講,阻礙人類進步的最大組織,也許正是各國政府;而技術,是唯一的人類之光。也在這個意義上,也許必須來外星人,人類纔可能完成種族的提升。
Comments
Post a Comment