What's the complete range for Chinese characters in Unicode?

U+4E00..U+9FFF is part of the complete set, but not all

141926 次浏览

The definitive list can be found at Unicode字符密码表; search the page for "CJK".

East Asian Script”文件确实提到:

汉表意文字块

汉字可以在 Unicode 标准的五个主要区块中找到,如 表18-1所示

表18-1. 汉文表意文字块

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Unified Ideographs Extension F      2CEB0–2EBEF  Rare, historic
CJK Unified Ideographs Extension G      30000–3134F  Rare, historic
CJK Unified Ideographs Extension H      31350–323AF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

注意: 这个表是 Unicode 15.0的最新版本。块范围可以随着时间的推移而变化: 最新版本是在 中日韩越统一表意文字中。

There are also

CJK Radicals / Kangxi Radicals          2F00–2FDF
CJK Radicals Supplement                 2E80–2EFF

其中包含的字符可能会找到它们的方式进入正规文本,以及

CJK Symbols and Punctuation             3000–303F

另见维基百科:

另见 Unihan 数据库(组织与中日韩越统一表意文字属性有关的信息)

Unicode 目前有74605个 CJK 字符。CJK 字不仅包括汉字,还包括日语汉字、韩语汉字和越南语 楚楠。有些 CJK 字符是 没有中文字符。

1) 中日韩越统一表意文字的20941个字元。

代码点 U + 4 E00到 U + 9 FCC。

  1. U + 4 E00-U + 62 FF
  2. U + 6300-U + 77 FF
  3. U + 7800-U + 8 CFF
  4. U+8D00 - U+9FCC

2)来自 一个街区的6582个字符。

代码点 U + 3400到 U + 4 DB5. Unicode 3.0(1999)。

3)来自 CJKUI 出口 B 区的42711个字符。

代码点 U + 20000到 U + 2 A6D6. Unicode 3.1(2001)。

  1. U + 20000-U + 215 FF
  2. U+21600 - U+230FF
  3. U + 23100-U + 245 FF
  4. U+24600 - U+260FF
  5. U + 26100-U + 275 FF
  6. U + 27600-U + 290 FF
  7. U + 29100-U + 2 A6DF

3) 4149 characters from the C 区.

代码点 U + 2 A700至 U + 2 B734. Unicode 5.2(2009)。

4)来自 外 D 区的222个字符。

代码点 U + 2 B740到 U + 2 B81D. Unicode 6.0(2010)。

5) CJKUI Ext E 座。

Coming soon

如果上面的意大利面还不够,看看 已知问题。玩得开心 =)

汉字的确切范围(扩展名除外)是 [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement is a Unicode block containing alternative, often positional, forms of the Kangxi radicals. They are used headers 在字典索引和其他 CJK 表意文字收集组织 彻底中风。

  1. [\u3190-\u319f]

中使用的注释字符的 Unicode 块 中国古典文献的日文本,以表明阅读顺序。

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A is a Unicode block containing rare 汉字。

  1. [\u4E00-\u9FCC]

中日韩越统一表意文字是一个 Unicode 代码块,包含最常见的 现代汉语和日语中的 CJK 表意文字。

  1. [\uF900-\uFAAD]

中日韩相容表意文字是用来包含 Han 的 Unicode 块 中多个位置编码的字符 建立字符编码,除了他们的 CJK 统一 表意文字分配,以保持往返兼容性 在 Unicode 和那些编码之间。

有关详情请参阅 here,并在其他答案中提供了扩展。

其他答案给出的 Unicode 代码块当然涵盖了大多数中文 Unicode 字符,但也可以查看其他一些代码块。

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

参见我的更全面的讨论 给你。和 this site是方便的浏览 Unicode。

Unicode version 11.0.0

在 Unicode 中,中文、日文和韩文(CJK)脚本共享一个共同的背景,统称为 CJK 字符。

These ranges often contain non-assigned or reserved code points(such as U + 2 E9A , U+2EF4 - 2EFF),

汉字

bottom  top     reference (also have a look at wiki page)   block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
                

  • In 中日韩越统一表意文字 block, I notice many answers use upper bound 9FCC, but U+9FCD(鿍) is indeed a Chinese char. And all characters in this block are Chinese characters (also used in Japanese or Korean etc.).
  • 中日韩越统一表意文字中的大部分字符(除外显 F 外,外显 F 中只有17% 是中文字符)是繁体中文字符,在中国很少使用。
  • 〇 is the Chinese character form of zero and still in use today

Therefore the range is

[0x3007,0 x3007] ,[0x3400,0 x4DBF ] ,[0x4E00,0 x9FEF ] ,[0x20000,0 x2EBFF ]

但从未在汉语中使用过

他们是普通的汉族人,只用于相容。

它们几乎不可能出现在任何中文书籍、文章、著作等中。

这里的所有字符都有一个对应的字形相同的汉字, 如金(U + F 90A)和金(U + 91 D1) ,它们是相同的象形文字。

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

相关符号

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
            

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • 一些像 汉语兼容性 Jamo这样的块被排除在外,因为 与中国人没有任何关系。
  • 康熙部首不是汉字,它是汉字的图形组成部分,专门用来表示部首, (U + 2 F3B) ,(U + 5 F73) ,(U + 2 EDC)和飞(U + 98 DE)

汉语中其他常见的标点符号

这是一个广泛的范围,一些标点符号可能永远不会被使用,一些标点符号,如 ……”“是使用在中国这么多。

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

也有许多与中文有关的符号,如 Yijing Hexagram SymbolsKanbun,但它是偏题的。为了更好地解释什么是汉字,我用中日韩文写了一些非汉字。上述范围已经涵盖了除数学和其他专业符号外汉字书写中出现的几乎所有字符。

Supplementary

符号和标点符号

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Halfwidth and Fullwidth Forms

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

参考

  1. Https://zh.wikipedia.org/wiki/%e6%b1%89%e5%ad%97 语言,注意右边栏)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97 (注意下面的表格)
  3. Http://www.unicode.org

总而言之,听起来就是这些:

var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]

Unicode 不断发展,目前的 目标有“一个新的主要版本的标准将每年发布。从 Unicode 14.0开始,每个版本都定于每年第三季度发布。”

没有一个社区维基,有人定期更新,如果你想保持覆盖更正和额外的扩展,为了保持最新,一定要仔细检查最新的标准,总是可以在: https://www.unicode.org/versions/latest/找到 East Asia章节(除非有一天也被分开)。

在本文最初撰写时,最新版本是 v14,而 Ch 18“展示了在东亚使用的脚本。这包括与中文、日文和韩文有关的主要书写系统。它还包括一些少数民族语言的脚本”。第一张表回顾了 Blocks Containing Han Ideographs,我们看到它们已经上升到了扩展 G:

Block                                   Range       Comment
-----------------------------------------------------------
CJK Unified Ideographs                  4E00–9FFF   Common
CJK Unified Ideographs Extension A      3400–4DBF   Rare
CJK Unified Ideographs Extension B      20000–2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Unified Ideographs Extension F      2CEB0–2EBEF Rare, historic
CJK Unified Ideographs Extension G      30000–3134F Rare, historic
CJK Compatibility Ideographs            F900–FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800–2FA1F Unifiable variants

第二张表格 Small Extensions to CJK Blocks注意到补充说明: “中日韩越统一表意文字中的曲目随后被扩展,增加了与各种标准互操作所需的小套统一表意文字或表意文字组件,或 由于其他原因,如表18-2所示,其中一些“涉及其他 CJK 块末尾的保留范围。”

对于额外的相关块,如标点符号和其他音节(包括 J + K)应该更稳定,检查 Unicode 章节以及其他答案在这里,和 https://en.wikipedia.org/wiki/Han_unification#Unicode_ranges。尽管 https://blog.miniasp.com/post/2019/01/02/Common-Regex-patterns-for-Unicode-characters写于2019年,但它也有一些有趣的讨论。

有关试图呈现这些字体的字体,请参见 https://en.wikipedia.org/wiki/List_of_CJK_fonts,但请注意覆盖率信息是稀疏的。你必须仔细查看这些细节,比如 Adobe/Google 的 来源 Han/Noto 字体并没有涵盖所有的扩展或兼容性表意文字。