WTM22 に参加した、 Unicode関連の記事を読んだ

WTM22

Women Techmakers Tokyo - International Women's Day 2022 のイベントの前半部分に参加していた。

wtm-tokyo.connpass.com

oVice を使ったイベントで、使い方が面白かった。背景をイベント会場っぽくしてミーティングオブジェクトの有効範囲を会場全体にすることで、ミーティングオブジェクトに繋がなくても全体に声が届くようにしていた。また、懇親会は別途ルームを作ってクリックするだけで入れるようにしていた。oVice はミーティングオブジェクト周りの操作に慣れが必要なので、初めて使う方でも話に入りやすくする工夫だと思った。

hikalium さんの発表を聞いて、発表後に少しお話させてもらった。

文字コード好きな人はどこにいるんでしょう、と聞いたところブラウザ周りには居そうと教えてもらってとても参考になった。たしかに、ブラウザは文字コードの複雑さを受け止める最前線に立っている気がする。ブラウザは Unicode の複雑怪奇な仕様を完璧に実装してそうだと思っていたのだけど、実際はバグも多いですよ〜と聞いた。人間が作ってるソフトウェアなんだからそれはそうか…と思ったりした。

hikalium さんの熱量がすごくて、OSやブラウザに興味が湧いてきた。みかん本とWeb DB press vol. 120を積んでるので読みたくなってきた。

元気がもらえる発表はいいなぁ。

Unicode

以下の記事を読んだ。

抜粋元の同人誌読みたくなった。

たかが文字コード、されど文字コード/Vol1.ShiftJISerへ贈る鎮魂歌+Vol2.Unicode練習曲 - BadSector(バッドセクター) - BOOTH

あとこちらも。

qiita.com

UTF-18 なんて知らないぞ?!と思ったらエイプリルフールRFCだった。36ビットワードの環境1 でも効率的に格納できる文字符号化方式、というネタ。

UTF-9 and UTF-18 Efficient Transformation Formats of Unicode

ちなみに UTF-7 はネタではない。

ja.wikipedia.org

Wikipedia によれば、Unicode文字符号化方式UTF-7, UTF-8, CESU-8, UTF-16, UTF-32, UTF-EBCDIC, SCSU, Punycode, GB 18030 とのこと。UTF-EBCDIC, SCSU, Punycode, GB 18030 は存在すら知らなかった。

UTF-EBCDIC 一般に、設計対象であったEBCDICベースのメインフレームにおいてさえ、この符号化形式は滅多に使われない。z/OSのような、IBM製のEBCDICベースのメインフレームオペレーティングシステムは、通常完全なUnicodeサポートにUTF-16を使用する。たとえば、DB2 UDB、COBOLPL/IJavaおよびIBM XMLツールキットはIBMメインフレーム上でUTF-16をサポートする。

UTF-EBCDIC で表現しちゃうと EBCDIC の欠点をそのまま引き継ぎそう。例えば、UTF-EBCDIC のまま外部に送信すると文字コード変換が困難になりそうで結局UTF-8なりUTF-16なりに変換が必要とか。