Unicode

BOM付きUTF-8ファイルはテキストファイルではない

では何か? 構造のあるデータ、すなわちバイナリである。C言語*風*に書けばこんな感じ。 struct { char signature[3]; char body[n]; }; バイナリなので、shebang(“#!”)が動作しないのは当然である。 バイナリなので、catでつなぐとゴミが混じるのは当然であ…

続々・wcwidth と East Asian Ambiguous Character Width 問題

[NetBSD][Cygwin] wcwidth(3)その2くらいより: しかし世の中には -c- で -ISO10646-1なフォント、ちゅう頭の痛いモノも存在しますが。常にwcwidth=1って… そんな邪悪なシロモノに付き合う必要性は認めません(^^;# 何考えてンなフォント作ったんだ……何も考え…

続・wcwidth と East Asian Ambiguous Character Width 問題

[NetBSD][Cygwin] wcwidth(3)より: そもそもL prefixはC localeつまりPortable Character Set以外ダメで、multibyteは扱えないでっせ 動けばいいやーレベルのテストコードなんで大目に見てつかーさい(^^; # 文字コードも表示してるのは、期待通りにコンパイ…

wcwidth と East Asian Ambiguous Character Width 問題

ことの発端@Cygwin-ML こりーな「CJK Ambiguous Width は無視するぜ!!」 おれ「冗談ぢゃねぇ、LC_CTYPE=ja, ko, vi, zhなら2を返せ*1」 こりーな「おk」 とます「かくかくしかじかという問題があるし、そもそもそんなworkaroundは許せん」 おれ「そういう実…