広東語の拼音を探して… Unicode に辿り着く

広東語を勉強するためのツールの揃いがワルすぎるので、ちょっと自分で作ることに。

まずは、広東語の発音をコンピュータで調べる方法として http://www.kawa.net/works/ajax/romanize/chinese.html を使っていたのですが、自分でももうチョット工夫してみたいなと思っていたところでした。

イロイロと調べたところ、こんな感じでした。



さらに調査を進めたところ、Unicode の Unihan Database に、Unicodeの各文字と発音の対応が載っていることを発見。 Unihan とは Unicode Han(漢) の略だそうです。 さらっと見た漢字では、これらの内容が収録されています。


  • 各漢字の中国語普通話(Mandarin)、広東語、日本語、ベトナム語、韓国語での発音が記されています。 いわゆる CJKVってやつですね。

  • 簡体字・繁体字・日本語などの他言語の文字で、書き方は異なるが同じ意味の文字への対応もまとまっています。

  • Cangjie での入力方法、辞書などでの収録位置など。 あれ、五筆の入力方法が書いていないな。。



詳しくは、Unicode Standard Annex #38 Unicode Han Databaseを御覧ください。

ってことで、ちょいとこの Unihan を parse して表示するプログラムを書いてみました。 実行結果はこんな感じ。

Unihanをホジホジ

あとは、これを kvs などに入れてやったりすれば、先に上げたWebサイトみたいなものは作れそうですね。

コメント

このブログの人気の投稿

大型特殊自動車免許を取った時の話。

パスワードを覚えるのも無理があるから、パスワードマネージャ使いましょう。

車両系建設機械運転者(整地) の講習