“本來是這樣的。”周至樂得眼睛都眯縫了:“可是兩位師兄提供的字卡太好用了。”
“《字海》的字卡,有編號,有大字,有拚音、民國拚音、甚至還有老四角號碼,還有小字的釋義和凡例,滿足了我們自動識別軟件對於調試校準模型的一切要求,我們當然也要用到那頭去!”
周至又道:“有了字卡的輔助,我們很快便將軟件識別圖形文字的準確率,從百分之九十二,也就是一百個字錯八個,提升到了百分之九十九點六,也就是依靠軟件識別文字,一千個字裏隻會讀錯四個。直接提升了一個量級。”
“這個成就,也直接幫我們跨過了數字圖書館最後一個巨大門檻,這個軟件,已經算是真正成熟了。”
“這次帶來的數字化的《字海》,就是我們第一本通過計算機掃描識別技術建立起來數字圖書,既然字數最多的《字海》都可以實現數字化,那對其餘典籍,我們當然充滿了信心!”
“那就是古籍數字化工作可以提上日程了?”韋一心大喜:“我們學校正在搞《四庫全書叢目》這部大書,要不肘子你來我們學校?學籍什麽的好說……”
一邊計算機中心主任也連連點頭:“其實清華那邊沒去頭,肘子你到底是文科生,來我們這兒正好搞古籍數字化工程,想想看,這個大工程搞出來,那會是多大成就?古人說的君子三立,立德立功立言,不都在裏邊了?”
周至聽得心中暗笑,應該說北大的文化氛圍的確可以的,你看計算機中心主任都說得出君子三立這樣的命題解讀來……
不過這事兒暫時沒有可能,周至隻好笑著解釋:“我們蜀大的《道藏》,《儒藏》兩部大書也準備開修了,師爺爺是不可能放人的。”
“不過現在有了好工具,哪怕我不來北大,大家也能夠加快工程的進度。現在還是說迴正事兒,我利用數字化的《字海》,演示一下我們對數字典籍整理的工程架構協議及標準。”
這個東西是周至的自創,哪怕上一世,這也是圖書典籍工程裏沒有過的東西。
直到周至穿越迴來之前,國家將典籍進行數字化的工作,主要還停留在建立樹狀數據庫的較為原始的應用階段。
就好比一個標準的圖書館,將一本書作為一個文本文件整體存放,然後給這個文件編出,書名,書號,最多再給出個作者,出版社之類的信息,作為標簽。
這樣做的好處就是簡單明了,升級維護也容易,信息保存也算全麵,一句話說完,就是夠用,但不好用。
這樣的東西在周至眼裏當然是不合格的,最多最多隻能算是地基,離百尺高塔還差著老遠的功夫。
信息工程就是這樣,算法和協議的思路,往往比基礎工作還要重要,如果指導思想發生了錯誤,等到工程進展到不敷使用,才想著改弦易轍,在已經疊房架屋的情況下,再要開展,將付出巨大的代價。
後世中文編碼的巨大混亂情形,就是這種教訓的最好注腳。
這些思路,是在四葉草的研發思想,周至提出來的“如何三問”原則思想指導下梳理出來的。
“如何三問”聽著玄奧,其實很簡單質樸,就是對於任何需求,我們要問三層以上的問題。
比如典籍數字化工程,按照一般的思路,好不好用?
答案肯定:不好用。
那第一個如何就來了:如何讓它好用?
答案也簡單:除了將一部部書籍掃描成文本文檔外,還要在這個基礎上,建立起一個龐大的標簽體係和智慧搜索引擎。
那第二個如何就來了:如何建立起一個龐大的標簽體係和智慧搜索引擎?
答案就是需要一個能夠根據文檔內容,自動化地分析提取特征標簽的標簽采集軟件;要完成智慧搜索引擎,又需要一個球網狀的數據拓撲關聯係統。
那第三個如何就來了:我們如何開發這個標簽采集軟件和球網狀的數據拓撲關聯係統。
答案就是軟件硬件並行,軟件上,利用現在最新的數學統計學原理,引入計算機模型當中,開發出一套特征提取算法和特征聯動算法,並將這套算法作為指導思想,完成軟件開發。
硬件上,要克服現有計算設備算力不足的情況,就利用網絡時代的助力,將廣域網上的所有算力資源都最大程度地利用起來,研發出基於互聯網基礎的分布式算力應用係統。
這套理念現在還比較初步,但是根據這個理念建立起來的數字化《字海》,卻非常的清晰明白,周至還牽頭發明了一套論述體係,通過三維圖層的方式來講解一頁字卡上,各項內容之間的複雜關聯關係。
這隔著圖示講解下,韋一心和冷玉龍就能夠看見平麵化的字卡,變成了一個類似秸稈蟈蟈籠子,或者說像折疊式燈籠打開後的樣子,各個圖層之間通過算法將每一層的特征標簽連接起來,構成了字卡的立體結構。
對於這一套思維體係,學文科的人理解起來甚至比學理科的還要容易,跟計算中心的曾教授,周至還要講解一番,而兩位老師兄卻看得倍感舒適。
因為在兩位老師兄的腦海中,關於字卡的知識體係,就和周至現在在信息係統裏展現出來的那樣!
冷玉龍開心地鼓起掌來:“妙極,妙極!什麽叫青出於藍,這就叫青出於藍!誰能想到有一天書本的每一頁會變成立體的?!哈哈哈哈,這是我們花了多少年才在腦海裏構建起來的東西,現在卻一目了然了,這個數字圖書,有點東西啊!”
剛剛周至給他們講的很多技術細節他們也鬧不明白,但是這些技術細節支撐起來的應用卻讓他們太熟悉了,不由得生出了一種“他鄉遇故知”的驚喜感。
“五四時期的諸多賢達,曾對我們的國學失望至極,認為漢字都沒有存在的必要,或者字符化。”周至笑道:“這是一種毫無依據的悲觀估計,然而直到今天,這樣的流毒居然還有市場,那就實在是匪夷所思了。”
“這話也不能空說。”兩位老師兄都是踏踏實實搞學術的人,冷玉龍就說道:“你得拿出足夠強大的理由來,不然不就是又犯了五四學人的錯誤?”
“《字海》的字卡,有編號,有大字,有拚音、民國拚音、甚至還有老四角號碼,還有小字的釋義和凡例,滿足了我們自動識別軟件對於調試校準模型的一切要求,我們當然也要用到那頭去!”
周至又道:“有了字卡的輔助,我們很快便將軟件識別圖形文字的準確率,從百分之九十二,也就是一百個字錯八個,提升到了百分之九十九點六,也就是依靠軟件識別文字,一千個字裏隻會讀錯四個。直接提升了一個量級。”
“這個成就,也直接幫我們跨過了數字圖書館最後一個巨大門檻,這個軟件,已經算是真正成熟了。”
“這次帶來的數字化的《字海》,就是我們第一本通過計算機掃描識別技術建立起來數字圖書,既然字數最多的《字海》都可以實現數字化,那對其餘典籍,我們當然充滿了信心!”
“那就是古籍數字化工作可以提上日程了?”韋一心大喜:“我們學校正在搞《四庫全書叢目》這部大書,要不肘子你來我們學校?學籍什麽的好說……”
一邊計算機中心主任也連連點頭:“其實清華那邊沒去頭,肘子你到底是文科生,來我們這兒正好搞古籍數字化工程,想想看,這個大工程搞出來,那會是多大成就?古人說的君子三立,立德立功立言,不都在裏邊了?”
周至聽得心中暗笑,應該說北大的文化氛圍的確可以的,你看計算機中心主任都說得出君子三立這樣的命題解讀來……
不過這事兒暫時沒有可能,周至隻好笑著解釋:“我們蜀大的《道藏》,《儒藏》兩部大書也準備開修了,師爺爺是不可能放人的。”
“不過現在有了好工具,哪怕我不來北大,大家也能夠加快工程的進度。現在還是說迴正事兒,我利用數字化的《字海》,演示一下我們對數字典籍整理的工程架構協議及標準。”
這個東西是周至的自創,哪怕上一世,這也是圖書典籍工程裏沒有過的東西。
直到周至穿越迴來之前,國家將典籍進行數字化的工作,主要還停留在建立樹狀數據庫的較為原始的應用階段。
就好比一個標準的圖書館,將一本書作為一個文本文件整體存放,然後給這個文件編出,書名,書號,最多再給出個作者,出版社之類的信息,作為標簽。
這樣做的好處就是簡單明了,升級維護也容易,信息保存也算全麵,一句話說完,就是夠用,但不好用。
這樣的東西在周至眼裏當然是不合格的,最多最多隻能算是地基,離百尺高塔還差著老遠的功夫。
信息工程就是這樣,算法和協議的思路,往往比基礎工作還要重要,如果指導思想發生了錯誤,等到工程進展到不敷使用,才想著改弦易轍,在已經疊房架屋的情況下,再要開展,將付出巨大的代價。
後世中文編碼的巨大混亂情形,就是這種教訓的最好注腳。
這些思路,是在四葉草的研發思想,周至提出來的“如何三問”原則思想指導下梳理出來的。
“如何三問”聽著玄奧,其實很簡單質樸,就是對於任何需求,我們要問三層以上的問題。
比如典籍數字化工程,按照一般的思路,好不好用?
答案肯定:不好用。
那第一個如何就來了:如何讓它好用?
答案也簡單:除了將一部部書籍掃描成文本文檔外,還要在這個基礎上,建立起一個龐大的標簽體係和智慧搜索引擎。
那第二個如何就來了:如何建立起一個龐大的標簽體係和智慧搜索引擎?
答案就是需要一個能夠根據文檔內容,自動化地分析提取特征標簽的標簽采集軟件;要完成智慧搜索引擎,又需要一個球網狀的數據拓撲關聯係統。
那第三個如何就來了:我們如何開發這個標簽采集軟件和球網狀的數據拓撲關聯係統。
答案就是軟件硬件並行,軟件上,利用現在最新的數學統計學原理,引入計算機模型當中,開發出一套特征提取算法和特征聯動算法,並將這套算法作為指導思想,完成軟件開發。
硬件上,要克服現有計算設備算力不足的情況,就利用網絡時代的助力,將廣域網上的所有算力資源都最大程度地利用起來,研發出基於互聯網基礎的分布式算力應用係統。
這套理念現在還比較初步,但是根據這個理念建立起來的數字化《字海》,卻非常的清晰明白,周至還牽頭發明了一套論述體係,通過三維圖層的方式來講解一頁字卡上,各項內容之間的複雜關聯關係。
這隔著圖示講解下,韋一心和冷玉龍就能夠看見平麵化的字卡,變成了一個類似秸稈蟈蟈籠子,或者說像折疊式燈籠打開後的樣子,各個圖層之間通過算法將每一層的特征標簽連接起來,構成了字卡的立體結構。
對於這一套思維體係,學文科的人理解起來甚至比學理科的還要容易,跟計算中心的曾教授,周至還要講解一番,而兩位老師兄卻看得倍感舒適。
因為在兩位老師兄的腦海中,關於字卡的知識體係,就和周至現在在信息係統裏展現出來的那樣!
冷玉龍開心地鼓起掌來:“妙極,妙極!什麽叫青出於藍,這就叫青出於藍!誰能想到有一天書本的每一頁會變成立體的?!哈哈哈哈,這是我們花了多少年才在腦海裏構建起來的東西,現在卻一目了然了,這個數字圖書,有點東西啊!”
剛剛周至給他們講的很多技術細節他們也鬧不明白,但是這些技術細節支撐起來的應用卻讓他們太熟悉了,不由得生出了一種“他鄉遇故知”的驚喜感。
“五四時期的諸多賢達,曾對我們的國學失望至極,認為漢字都沒有存在的必要,或者字符化。”周至笑道:“這是一種毫無依據的悲觀估計,然而直到今天,這樣的流毒居然還有市場,那就實在是匪夷所思了。”
“這話也不能空說。”兩位老師兄都是踏踏實實搞學術的人,冷玉龍就說道:“你得拿出足夠強大的理由來,不然不就是又犯了五四學人的錯誤?”