M.C.P.C.

―むり・くり―プラスコミュニケーション(更新終了)


| トップページ |

2004年10月30日 02:30

netatalk 2 とCJK Ext B文字

このエントリーをはてなブックマークに追加 mixiチェック

netatalk_icon_2.png関連記事

netatalk 2 になって、ファイル名として、Unicode の BMP にある文字を使うことはおおむね良好のようだけれども、Mac OS X は、ローカルのファイルシステムでは サロゲートペアして、Plane 2 にある CJK Ext B の文字(例えば、𠮷(←Firefox やら Safari やらで、フォントがなくては表示できません))が平気で使えたりするんですよね。これは、いまだに netatalk 2 ではうまく取扱いできないようです。

AFP の仕様的にはどうなのかしら。Linux 側の iconv としてはどうなのかしら。

FTP だと、put したものを get しても 件の文字は使えていますが、それはどちらかというと FTP ではファイル名の文字コードは無処理だからこそできるワザっていう感じでした。

それはともかく、ファイルネームに CJK Ext B の文字を使うことに対して、Mac コミュニティではどういう姿勢なんだろうかなあと思いました。

投稿 大野 義貴 [netatalk] | |

トラックバック(0)

トラックバックURL: http://blog.dtpwiki.jp/MTOS/mt-tb.cgi/486

コメント(13)

うーん、気づいてなかった。
こういう文字って、どうやって入力するんですか?
今回はコピー&ペーストでごまかしたんですが、
ことえりとかで入力できますか?

Mac OS X 10.3 なら確実に入力できます。イメージを gif画像で。

その1 その2

うーん、文字パレットの一覧をスクロールして探せということなのでしょうか?
気が遠くなって「吉」までたどり着かないんですが。
読みとかからは変換できない?

読みとかからは変換できない?

どぞ。

でも、これだと、異体字に変換できたとしても、必ずしも、Plane 1 や 2 にならないので、netatalk で問題になる、u+10000からの文字にはならないので、やっぱりUnicode のカテゴリから CJK Unified Ideographs Ext. B を選択し入力するのが確実かなあと思います。

Compat Ideographs Suppの文字に関して試してみたんですが、netatalkのみならずローカルのボリュームでも変な動作をしますね。「再」という文字を「関連文字に変換」してみると、Compat Ideographs Suppの文字が選べるのですが、保存した次の瞬間に普通の「再」に戻ってしまう。

実は、CJK Unified Ideographs Ext.B だけじゃなく、u+10000 以降のものはだめっぽいです。

Linux 側で CJK Unified Ideographs Ext.B の UTF-16 を iconv で UTF-8 に変換したファイル名をつけてみて、Mac からちゃんと見えるかどうかっていうのは試せるかなあと思います。

サロゲートペアがちゃんとできているか、ていう問題なのかなあ。

utf8.cを新しいのにするとなおる。
というのは私のページに書いたとおりです。
ところで、u+10000からu+1FFFFの間にある文字って、なんでしょう?
u+10400からu+1044Fの間のDESERT LETTERしか見つからないのですが。

ところで、u+10000からu+1FFFFの間にある文字って、なんでしょう? u+10400からu+1044Fの間のDESERT LETTERしか見つからないのですが。

そこは、Plane 1 ですが、SMP(補助多言語面)ていうものです。

漢字を使わない言語用の Plane なので、その領域のグリフが登録されているフォントが少ないのだと思います。

参考:Unicode: 基本多言語面を越えて - faireal [faireal.net]

いや、そういう話じゃなくて、この領域に何か使いそうな文字は入ってますか?DESERT LETTERしか見つからないのですが。
一応、DESERT LETTERがnetatalkで使えるようになっていることだけは確認しましたが。

いや、そういう話じゃなくて、この領域に何か使いそうな文字は入ってますか?

SMP(Supplementary Multilingual Plane) の名のとおり、ふつうの人が積極的に使う文字群ではないと思います。

フォントによってはグリフが入っている(=使えるようになる)ので、研究者の方とかは使うこともあるかもしれません。

samba3.0.8が出てますが、もしかして3.0.7と挙動が違いませんか?
OSXからつないだとき、3.0.7だとCJK EXT.Bが使えなかったと思うのですが、3.0.8だと使えるみたいです。

残念なことに、我が家には samba 3 は入っていないのです。ファイルサーバの OS を更新するときに変えようと思っているのですが(ファイル名エンコーディング変換などがしやすいから)、当分しないと思います。

samba-jaメーリングリストで聞いてみました。
samba3.0.7では内部コードがUCS-2だったが、3.0.8からはUTF-16に変わった影響ではないか、とのことです。
Windowsが次のバージョンあたりでこのあたりの文字を扱えるようになったらいいですね。XIIIとかも共通で使えるようになるかもしれない。
もしかしたら、有限会社も。

コメントする