2023-12-05: 𩸽

役を得たら一気に仕事が回らなくなってあっぷあっぷしてた。昼はコンビニでホッケとネバネバサラダとツナマヨおにぎりを食べた。𩸽は脂が乗ってて美味しい。

𩸽という漢字は文字コードのテストをする文字としてよく使う。*1

𩸽はU+29E3DとBMP範囲外にあるので、UTF-8では4バイトになる。UTF-16だとサロゲートペアが必要で、MySQLのutf8mb3ではサポートされない。

BMP範囲外の文字として絵文字もよく使われるけど、絵文字はものによってはBMP内にある。

"".ord.to_s(16)
=> "2603"

BMP内にある絵文字は https://www.unicode.org/emoji/charts-15.1/emoji-variants.html の Text presentation にある文字くらいかなと思ったけどもっと色々あった。

https://util.unicode.org/UnicodeJsps/list-unicodeset.jsp?a=[:Emoji=Yes:] でEmoji propertyの一覧を見られる*2

*1:https://web.archive.org/web/20210727001027/https://yanok.net/2011/07/post-158.html

*2: #*0-9 は絵文字ではないと思うけど、Keycap emojisのパーツなので絵文字扱いされている