尋找山吹提示您:看後求收藏(品書網www.vodtw.tw),接著再看更方便。
“我對大家的工作要求,概括起來有兩點。首先就是市場佔有率,將亞洲市場變為自家的後花園。目前,mc68000、intel 8086、mos6502三大系列的產品,已經全面涵蓋了高中低檔次,而軟體平臺也是統一的,這是ibm、hp、dec、王安電腦、nec等等競爭者還暫時無法達到的優勢,完成這個目標,應該問題不大。”
唐煥環視著眾人,“這是傳統的要求,但我想說的另外一點更為重要,也就是我們的硬體平臺更加強大了,是時候大力推行漢字編碼統一標準了。這件事情於私而言,就是讓公司掌握業界標準,立於不敗之地;於公而言,就像造紙術、印刷術一樣偉大,漢字越快搭上資訊化這趟列車,中華文化的傳承發展,也必將越快迎來一個新契機。有了這個統一的標準後,業界也就不用浪費資源搞什麼萬碼奔騰了,把心思放在如何開發中文計算機的新功能便好了。大家已經衣食無憂了,想必願意參與一番青史留名的雅事。”
唐煥就是如此善於蠱惑人心,忽悠得部下們紛紛眼前一亮。
計算機處理資料的基石,是資訊化編碼,就拿處理字元來講,如同首先設定了一張由行列構成的表格,然後將各個字元按照特定的順序,填入其中,這樣每個字元就得到了一個序號編碼,而計算機也只能透過這個序號編碼來識別字元。
圍繞著這個序號編碼,產生了三個意義關聯的概念,即內碼、交換碼、外碼。
內碼,是存在於計算機儲存器上的序號編碼。供cpu、程式以及開發者使用。
就好像現在美國那邊百家爭鳴、各式各樣的個人電腦一樣。每個廠商都可以弄一套自己獨有的硬體架構。內碼也是如此。
不難想象,在ibm象棋計劃的工程師們眼裡,管你是字母還是漢字,統統都是一個抽象的序號編碼。
尤其是受限於現在儲存器的容量,各個廠商更有理由設計自己認為合理的編碼方案。
原本時空裡的技術成熟階段,英文系統中的內碼為ascii,繁體中文系統中常用的內碼為big5,簡體中文系統中的內碼則為國標碼。最後都逐漸統一採用unicode。
因為不同的系統有可能使用不同的內碼。所以在彼此之間交換檔案的時候,會發生亂碼現象。
解決方法就是交換檔案之前,檔案提供者先將由內碼形式儲存的檔案,轉換成交換碼形式後再做交換。檔案接收者在接收檔案後,再由交換碼轉成內碼。
同樣,交換碼主要面對的使用者,是cpu、程式以及開發人員。
而外碼面對的使用者,則是非技術專業的普通使用者,比如拼音碼、注音碼等各種中文輸入法。
像英語這樣的表音文字,只有26個字母。處理起來相對簡單,內碼、交換碼、外碼三者相同即可;但像漢字這樣的表語文字就不行了。光是常用字就有好幾千,外碼方面,沒有鍵盤能夠容納得下,內碼方面也需要考慮儲存器容量的問題,這就客觀上給漢字的資訊化帶來了難度。
此外,資訊化編碼是非常考驗技巧的,說是一門藝術也不為過。
比如阿拉伯數字“0”到“9”的序號編碼為48到57,對應的十六進位制數字是30到39,只需一步簡單的邏輯操作,就可以在序號編碼和真實數字之間相互轉換。
再如英文大寫字母“a”的序號編碼為97,小寫字母“a”的序號編碼為65,相減的差是32,所有大小寫字母都是這個差距,這並非偶然,同樣只需一步簡單的邏輯操作,就可以在大小寫之間方便轉換。
繁體中文當中的異形字,也有類似英文大小寫來回轉換的需求,但異形字數目往往並非只有兩個那麼簡單。
顯然,漢字資訊