-
Notifications
You must be signed in to change notification settings - Fork 18
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
和文/日本語にマッチする正規表現 #1
Comments
|
でいいのかな |
「和文」「日本語」が何を指すのかにもよりますが、Unicode Script Property の Hiragana, Katakana, Han (Hira, Kana, Hani) をベースにしてはどうでしょうか。
ちなみに ES6 の |
Unicodeで「漢字」の正規表現 「日本語の漢字の正規表現」は、Unicodeは漢字統合されているので無理ですね。 漢字以外の日本語は、mashabowさんの仰るようにUnicode Script Propertyを利用するのが良い方法だと思います。記号も含まれていますし。→ Katakanaの例 上記コメントがトンチンカンでしたので、改めて。 そもそもUnicodeには「スクリプト」の区分けはあっても「言語」の区分けがありません。この2つは同じようでまったく異なります。例えば、全角アルファベットのスクリプトは「Latin」です。 「日本語の文字の正規表現」は、Unicodeではあまりに遠大なことになる(しかも「日本語の漢字」の判定は決して確実さには到らない)ので、実質的に不可能なんだと思います。 |
@mashabow @monokano ありがとうございます。 JTFスタイルガイドで「和文」の定義が曖昧なのですが、
みたいな感じのルールを実現するのに、「和文.」となっていたらエラーというの検出したくて、「和文/日本語にマッチする正規表現」が必要になった感じですね。 この場合の「和文」は大体IMEで日本語入力出来る範囲みたいな感じで考えるのが妥当かなと思います。
なるほどです。 |
「和文=欧文の正規表現にマッチしない」で、実用上問題ないかもしれません。欧文の正規表現も大雑把で済むような気がします。 |
[亜-熙ぁ-んァ-ヶ]
はイマイチThe text was updated successfully, but these errors were encountered: