-
-
Notifications
You must be signed in to change notification settings - Fork 42
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Tweaks to Unihan property handling #1022
Changes from all commits
3e3cb5e
bacfe60
55f4112
9104df0
f6b774f
a436775
f0afb41
ed88e6c
dcb016e
55a450a
3c1ec5e
38bb70c
0f51c98
f539660
52904b2
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
Original file line number | Diff line number | Diff line change | ||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
@@ -105,7 +105,7 @@ kCCCII ; EXTENSIBLE ; [0-9A-F]{6} | |||||||||||||||||||||||||||||||||
kEACC ; SINGLE_VALUED ; [0-9A-F]{6} | ||||||||||||||||||||||||||||||||||
kAccountingNumeric ; SINGLE_VALUED ; [0-9]+ | ||||||||||||||||||||||||||||||||||
kOtherNumeric ; SINGLE_VALUED ; [0-9]+ | ||||||||||||||||||||||||||||||||||
kPrimaryNumeric ; SINGLE_VALUED ; [0-9]+ | ||||||||||||||||||||||||||||||||||
kPrimaryNumeric ; ORDERED ; [0-9]+ | ||||||||||||||||||||||||||||||||||
kFenn ; MULTI_VALUED ; [0-9]+a?[A-KP*] | ||||||||||||||||||||||||||||||||||
kCowles ; MULTI_VALUED ; [0-9]{1,4}(\.[0-9]{1,2})? | ||||||||||||||||||||||||||||||||||
kXerox ; SINGLE_VALUED ; [0-9]{3}:[0-9]{3} | ||||||||||||||||||||||||||||||||||
|
@@ -176,11 +176,29 @@ kKoreanEducationHanja ; MULTI_VALUED ; 20[0-9]{2} | |||||||||||||||||||||||||||||||||
kKoreanName ; MULTI_VALUED ; (20[0-9]{2})(:U\+2?[0-9A-F]{4})* | ||||||||||||||||||||||||||||||||||
kTGH ; MULTI_VALUED ; 20[0-9]{2}:[1-9][0-9]{0,3} | ||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
kIRG_UKSource ; SINGLE_VALUED ; V[0-4]-[0-9A-F]{4} | ||||||||||||||||||||||||||||||||||
kIRG_SSource ; SINGLE_VALUED ; V[0-4]-[0-9A-F]{4} | ||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
# Unihan properties from 13.0 and later. No regexes for now. | ||||||||||||||||||||||||||||||||||
# TODO(egg): We should automate the updating of the regexes from UAX #38. | ||||||||||||||||||||||||||||||||||
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Agreed. There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Ideally the fields from the table would be in a machine-readable format, and the table generated from them, and our usage also. I initially generated by dumping the table into a spreadsheet, then using formulæ to transform a bit, eg:
=>
Then extract the delimiter and syntax for each property; but then also check the text for the ones with delimiters to see whether they were ordered or not. However, I didn't keep up to date (obviously), so it needs a better process. |
||||||||||||||||||||||||||||||||||
kSpoofingVariant ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kTGHZ2013 ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kUnihanCore2020 ; SINGLE_VALUED ; .* | ||||||||||||||||||||||||||||||||||
# 14.0 | ||||||||||||||||||||||||||||||||||
kStrange ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
# 15.0 | ||||||||||||||||||||||||||||||||||
kAlternateTotalStrokes ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
# 15.1 | ||||||||||||||||||||||||||||||||||
kJapanese ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kMojiJoho ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kSMSZD2003Index ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kSMSZD2003Readings ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kVietnameseNumeric ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kZhuangNumeric ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
# 16.0 | ||||||||||||||||||||||||||||||||||
kFanqie ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
kZhuang ; MULTI_VALUED ; .* | ||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
# ============================= | ||||||||||||||||||||||||||||||||||
# Catalog/Enum/Binary Properties | ||||||||||||||||||||||||||||||||||
# All not listed are SINGLE_VALUED ; null | ||||||||||||||||||||||||||||||||||
|
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
A list hash set preserves the original order