広東語の拼音を探して… Unicode に辿り着く
広東語を勉強するためのツールの揃いがワルすぎるので、ちょっと自分で作ることに。
まずは、広東語の発音をコンピュータで調べる方法として http://www.kawa.net/works/ajax/romanize/chinese.html を使っていたのですが、自分でももうチョット工夫してみたいなと思っていたところでした。
イロイロと調べたところ、こんな感じでした。
さらに調査を進めたところ、Unicode の Unihan Database に、Unicodeの各文字と発音の対応が載っていることを発見。 Unihan とは Unicode Han(漢) の略だそうです。 さらっと見た漢字では、これらの内容が収録されています。
詳しくは、Unicode Standard Annex #38 Unicode Han Databaseを御覧ください。
ってことで、ちょいとこの Unihan を parse して表示するプログラムを書いてみました。 実行結果はこんな感じ。
あとは、これを kvs などに入れてやったりすれば、先に上げたWebサイトみたいなものは作れそうですね。
まずは、広東語の発音をコンピュータで調べる方法として http://www.kawa.net/works/ajax/romanize/chinese.html を使っていたのですが、自分でももうチョット工夫してみたいなと思っていたところでした。
イロイロと調べたところ、こんな感じでした。
- Wikipediaによると、発音表記としてはYale式広東語拼音が多い。
- Yale式広東語拼音を使ったプログラムを探したところ、LinuxのInput methodである iBus に広東語拼音入力があり、辞書も含めてオープンソース
- しかし、広東語拼音入力の辞書データを見ても、そこに声調(イントネーション)が載っていないので、拼音を表示する側には使えなかった。
さらに調査を進めたところ、Unicode の Unihan Database に、Unicodeの各文字と発音の対応が載っていることを発見。 Unihan とは Unicode Han(漢) の略だそうです。 さらっと見た漢字では、これらの内容が収録されています。
- 各漢字の中国語普通話(Mandarin)、広東語、日本語、ベトナム語、韓国語での発音が記されています。 いわゆる CJKVってやつですね。
- 簡体字・繁体字・日本語などの他言語の文字で、書き方は異なるが同じ意味の文字への対応もまとまっています。
- Cangjie での入力方法、辞書などでの収録位置など。 あれ、五筆の入力方法が書いていないな。。
詳しくは、Unicode Standard Annex #38 Unicode Han Databaseを御覧ください。
ってことで、ちょいとこの Unihan を parse して表示するプログラムを書いてみました。 実行結果はこんな感じ。
あとは、これを kvs などに入れてやったりすれば、先に上げたWebサイトみたいなものは作れそうですね。
コメント
コメントを投稿