說文:unicode摧殘正體字

差異處

這裏顯示兩個版本的差異處。

連向這個比對檢視

兩邊的前次修訂版 前次修改
下次修改
前次修改
說文:unicode摧殘正體字 [2013/12/01 17:50 +0800] ichirouuchiki說文:unicode摧殘正體字 [2020/04/20 09:17 +0800] (目前版本) ichirouuchiki
行 2: 行 2:
 ====== Unicode摧殘正體字 ====== ====== Unicode摧殘正體字 ======
  
- 不學無術的「果迷」,給「黑體-繁」(又稱「Heiti TC」)所扣的帽子,最主要是指稱它「寫錯字」。正如在下連日來的論證,已說明他們口中所謂的「錯字」,是如假包換的正字,是符合字理的寫法,是符合《康熙》、《說文》等傳統權威字典的字形。眞正寫錯字的人,是他們自己。+ 不學無術的「果迷」,給「黑體-繁」(又稱「Heiti TC」)所扣的帽子,最主要是指稱它「寫錯字」。正如在下連日來的論證,已說明他們口中所謂的「錯字」,是如假包換的正字,是符合字理的寫法,是符合《康熙》、《說文》等傳統權威字典的字形。要是嚴格地遵從字理而論,眞正寫錯字的人,是他們自己。
  
  他們另一項給「黑體-繁」扣的帽子,就是指它部件寫法不統一。例如《[[http://zonble.github.com/tcfail/|TCFail]]》網站上,負責人說:「同一個部首的許多字,也往往沒有依照一套固定的造字規則,例如『清』的『月』是寫成月,但是『晴』或『請』則寫成了日文貨幣單位『円』,毫無規則可言。」  他們另一項給「黑體-繁」扣的帽子,就是指它部件寫法不統一。例如《[[http://zonble.github.com/tcfail/|TCFail]]》網站上,負責人說:「同一個部首的許多字,也往往沒有依照一套固定的造字規則,例如『清』的『月』是寫成月,但是『晴』或『請』則寫成了日文貨幣單位『円』,毫無規則可言。」
行 10: 行 10:
  理論上,Unicode只是編碼標準,不是字形標準。因此其官方說法是:它只對字(Character)編碼,而非字形(Glyph,每個字的具體形狀、寫法)。陸、港、臺、韓的「港」字右下從「巳」,日本的「港」字右下從「己」;港、臺、韓、日的「角」字中豎不穿頭,大陸的「角」字中豎穿頭;港、臺「起」字從「巳」,陸、日、韓從「己」……這些異形同字,Unicode都不分別編碼。例如「港」就是「6E2F」,不論從「巳」還是從「己」。  理論上,Unicode只是編碼標準,不是字形標準。因此其官方說法是:它只對字(Character)編碼,而非字形(Glyph,每個字的具體形狀、寫法)。陸、港、臺、韓的「港」字右下從「巳」,日本的「港」字右下從「己」;港、臺、韓、日的「角」字中豎不穿頭,大陸的「角」字中豎穿頭;港、臺「起」字從「巳」,陸、日、韓從「己」……這些異形同字,Unicode都不分別編碼。例如「港」就是「6E2F」,不論從「巳」還是從「己」。
  
- 然而,爲了相容不同地區的編碼,Unicode又有「字源分離原則」。好像日本JIS編碼同時收錄了「剣」、「劍」二形,Unicode爲了與之兼,即使它們是同一個字,Unicode也分別給予編碼:「剣」是「5263」,「劍」是「528D」。+ 然而,爲了相容不同地區的編碼,Unicode又有「原規格分離原則」(又譯「字源分離原則」,但並不是指漢字文字學的「字源」,而是指「來源字集」。爲免混淆,一郎並不採用此翻譯)。好像日本JIS編碼同時收錄了「剣」、「劍」二形,Unicode爲了與之兼,即使它們是同一個字,Unicode也分別給予編碼:「剣」是「5263」,「劍」是「528D」。
  
 <WRAP right 400px><WRAP center round box miku> <WRAP right 400px><WRAP center round box miku>
-<WRAP centeralign>{{:說文:cing_unified.png}}</WRAP><poem><fc #5F00BD>★ 橙字是正常Unicode編碼。</fc+<WRAP centeralign>{{:說文:cing_unified.png}}</WRAP><poem><color #5F00BD>★ 橙字是正常Unicode編碼。</color
-<fc #5F00BD>★ 黃字是兼容區編碼,難以正常輸入。</fc+<color #5F00BD>★ 黃字是兼容區編碼,難以正常輸入。</color
-<fc #5F00BD>★ 若只有一個Unicode編碼,卻有兩個字形,表示Adobe以CID技術,在同一Unicode碼內製作了兩個字形,可用Adobe InDesign等軟件選擇心目中的異體字。但在不支援CID的軟件裏,只能顯示其中一形。</fc></poem></WRAP></WRAP> 結果,有些異形同字,被編進同一碼位,有些則區分作兩碼,造成了Unicode內的自相矛盾。「青」字旁的字正是好例子。「靑」、「青」分別編碼作「9751」、「9752」;「淸」、「清」也分別編碼作「6DF8」、「6E05」。每個形態都有一個常規編碼。在Windows 7或8裏開啟「倉頡輸入法」,鍵入「手一月」可輸入編碼爲「9752」的「青」,鍵入「手一月卜」可輸入編碼爲「9751」的「靑」。至於鍵入「水手一月」,則有「清」、「淸」二字可選。這四個字形都能正常輸入——不過有附帶條件:要把輸入法設定作輸入Big5碼外的字,以及使用支援Big5碼外的字之電腦字體。因爲在進入Unicode時代前,大家已慣用臺灣的Big5編碼去處理正體(繁體)字,它並不支援「靑」(9751)、「淸」(6DF8)。即使今天是Unicode時代,用「靑」(9751)、「淸」(6DF8)二字,仍要冒變成空格的風險——用戶端選了只支援Big5的字體,以致顯示不到。有些軟件甚至到現在都不支援Big5碼外字,剝奪了用戶選擇正字的權利。+<color #5F00BD>★ 若只有一個Unicode編碼,卻有兩個字形,表示Adobe以CID技術,在同一Unicode碼內製作了兩個字形,可用Adobe InDesign等軟件選擇心目中的異體字。但在不支援CID的軟件裏,只能顯示其中一形。</color></poem></WRAP></WRAP> 結果,有些異形同字,被編進同一碼位,有些則區分作兩碼,造成了Unicode內的自相矛盾。「青」字旁的字正是好例子。「靑」、「青」分別編碼作「9751」、「9752」;「淸」、「清」也分別編碼作「6DF8」、「6E05」。每個形態都有一個常規編碼。在Windows 7或8裏開啟「倉頡輸入法」,鍵入「手一月」可輸入編碼爲「9752」的「青」,鍵入「手一月卜」可輸入編碼爲「9751」的「靑」。至於鍵入「水手一月」,則有「清」、「淸」二字可選。這四個字形都能正常輸入——不過有附帶條件:要把輸入法設定作輸入Big5碼外的字,以及使用支援Big5碼外的字之電腦字體。因爲在進入Unicode時代前,大家已慣用臺灣的Big5編碼去處理正體(繁體)字,它並不支援「靑」(9751)、「淸」(6DF8)。即使今天是Unicode時代,用「靑」(9751)、「淸」(6DF8)二字,仍要冒變成空格的風險——用戶端選了只支援Big5的字體,以致顯示不到。有些軟件甚至到現在都不支援Big5碼外字,剝奪了用戶選擇正字的權利。
  
  至於「精」、「靖」、「晴」三字,從「月」的字形,分別有「7CBE」、「9756」、「6674」這三個常規編碼;從「円」的字形,則獲編作「FA1D」、「FA1C」、「FA12」。問題是,從「円」的那些「FAXX」編碼,並非常規編碼,而是「兼容區」編碼。於是,在Windows 7或8裏開啟「倉頡輸入法」,無論怎麼拆碼,都輸入不到從「円」的「精」、「靖」、「晴」三字。碼不是沒有編,但根本不想你用。  至於「精」、「靖」、「晴」三字,從「月」的字形,分別有「7CBE」、「9756」、「6674」這三個常規編碼;從「円」的字形,則獲編作「FA1D」、「FA1C」、「FA12」。問題是,從「円」的那些「FAXX」編碼,並非常規編碼,而是「兼容區」編碼。於是,在Windows 7或8裏開啟「倉頡輸入法」,無論怎麼拆碼,都輸入不到從「円」的「精」、「靖」、「晴」三字。碼不是沒有編,但根本不想你用。
行 25: 行 25:
  既然Unicode對這些異體字的處理如此混亂,字型設計者若依從它,只會使字型也變得混亂。若說要統一這些部件的寫法,我同意。但統一的方向,應當是依照《康熙》、《說文》等正統印版字形,而非大陸或臺灣那套以手寫楷字竄改印版字形的所謂「標準」。換言之,只獲編一碼的「請」、「情」等字,當寫作從「円」部件;分別被賦予兩個碼的字,不管哪個碼位,不論是「9751」還是「9752」,是「6DF8」還是「6E05」,都同樣應寫作「円」部件。如是者,整套字型裏的字形才統一。不論輸入法、軟件對編碼的支援、字型涵蓋的編碼範圍如何,使用者都能顯示出正確的傳統字形。  既然Unicode對這些異體字的處理如此混亂,字型設計者若依從它,只會使字型也變得混亂。若說要統一這些部件的寫法,我同意。但統一的方向,應當是依照《康熙》、《說文》等正統印版字形,而非大陸或臺灣那套以手寫楷字竄改印版字形的所謂「標準」。換言之,只獲編一碼的「請」、「情」等字,當寫作從「円」部件;分別被賦予兩個碼的字,不管哪個碼位,不論是「9751」還是「9752」,是「6DF8」還是「6E05」,都同樣應寫作「円」部件。如是者,整套字型裏的字形才統一。不論輸入法、軟件對編碼的支援、字型涵蓋的編碼範圍如何,使用者都能顯示出正確的傳統字形。
  
- 然而,這種主張也有人反對。在下強烈推薦的傑兄文章〈[[http://www.ideographer.com/articles/article.php?aid=69|是誰寫錯字?(三)]]〉裏,But於留言欄的回應可作代表。他說:「舊版的細明體在 Unicode 下是有名的錯誤連篇。例如Unicode裏『為』、『爲』是兩個不同的字,但舊版細明體可能是因爲第一版只有Big5部分(按:宜作『份』),把『為』字造成『爲』了。結果擴充到Unicode範圍後,兩個碼位的文字無法區分。形成錯誤造字。」「例如『柿』跟『杮』是否能清楚區分。……在沒有區分必要的情況下,上面的點(宋體通常是豎)跟下面連貫倒無所謂。但因爲有一個木字旁『柿』跟『杮』會混淆的問題,只好像辦法區分它們……」+ 然而,這種主張也有人反對。在下強烈推薦的傑兄文章〈[[http://www.ideographer.com/articles/article.php?aid=69|是誰寫錯字?(三)]]〉裏,But於留言欄的回應可作代表。他說:「舊版的細明體在Unicode下是有名的錯誤連篇。例如Unicode裏『為』、『爲』是兩個不同的字,但舊版細明體可能是因爲第一版只有Big5部分(按:宜作『份』),把『為』字造成『爲』了。結果擴充到Unicode範圍後,兩個碼位的文字無法區分。形成錯誤造字。」「例如『柿』跟『杮』是否能清楚區分。……在沒有區分必要的情況下,上面的點(宋體通常是豎)跟下面連貫倒無所謂。但因爲有一個木字旁『柿』跟『杮』會混淆的問題,只好像辦法區分它們……」
  
  對此,我看到But兄的回應有一大盲點:「『柿、杮』之別」與「『為、爲』之別」是兩個截然不同的概念,他卻弄混了。論證有訛謬,結論亦因此有誤。  對此,我看到But兄的回應有一大盲點:「『柿、杮』之別」與「『為、爲』之別」是兩個截然不同的概念,他卻弄混了。論證有訛謬,結論亦因此有誤。
  • 說文/unicode摧殘正體字.1385891443.txt.gz
  • 上一次變更: 2013/12/01 17:50 +0800
  • ichirouuchiki