信息发布→ 登录 注册 退出

如何在 PHP 中正确实现土耳其语等多语言的自然排序

发布时间:2026-01-08

点击量:

php 的 `natsort()` 无法正确处理土耳其语等非英语字符的排序,应改用 `collator` 类并指定对应语言环境(如 `'tr_tr'`),才能实现符合本地习惯的字母序与大小写敏感/不敏感、带重音字符的自然排序。

在国际化 Web 应用中,对含土耳其语、德语、法语等特殊字符的字符串数组进行排序时,直接使用 natsort() 或 natcasesort() 往往会得到不符合语言习惯的结果——例如 "A", "Ü", "Ç", "Ş", "Ğ" 被排为 A → Ç → Ü → Ğ → Ş,而土耳其语正序应为 A, Ç, Ğ, Ş, Ü(依据土耳其语字母表:A, B, C, Ç, D, E, F, G, Ğ, H, I, İ, J, K, L, M, N, O, Ö, P, R, S, Ş, T, U, Ü, V, Y, Z)。

根本原因在于:natsort() 是基于 ASCII/UTF-8 码点的“伪自然排序”,不理解任何语言的字母顺序、大小写映射或变音符号规则;它把 Ü(U+00DC)当作普通 Unicode 字符比较,而非“U 的带分音符大写形式”。

✅ 正确方案:使用 PHP 内置的 Collator 类(ICU 库支持),专为多语言、区域化排序设计:

$texts = ["A", "Ü", "Ç", "Ş", "Ğ"];

$collator = new Collator('tr_TR'); // 指定土耳其语本地化规则
$collator->setAttribute(Collator::NUMERIC_COLLATION, Collator::ON); // 启用数字感知(即实现“自然排序”效果)

if ($collator->sort($texts) === false) {
    throw new RuntimeException('Collation failed: ' . $collator->getErrorMessage());
}

echo implode(', ', $texts); // 输出:A, Ç, Ğ, Ş, Ü ✅

? 关键说明:

  • 'tr_TR' 表示土耳其语(土耳其)语言环境,确保 Ç 在 C 后、Ğ 在 G 后、İ(带点大写 I)与 I(无点大写 I)被正确区分;
  • Collator::NUMERIC_COLLATION 设为 ON 后,Collator 将像 natsort() 一样智能处理数字子串(如 "file2.txt" 排在 "file10.txt" 前),兼顾语言规则与自然序;
  • 若需忽略大小写(类似 natcasesort),可额外设置:
    $collator->setAttribute(Collator::CASE_FIRST, Collator::LOWER_FIRST);
    或直接使用 asort() 配合 SORT_LOCALE_STRING(但兼容性弱于 Collator)。

⚠️ 注意事项:

  • 确保 PHP 编译时启用了 intl 扩展(extension=intl),否则 Collator 不可用;
  • 语言标签必须有效(如 'tr_TR'、'de_DE'、'fr_FR'),可通过 Collator::getAvailableLocales() 查看支持列表;
  • Collator::sort() 直接修改原数组;如需保持原始数组不变,请先 array_values($arr) 或 clone(注意:Collator 不支持对象克隆,建议 array_merge([], $arr) 复制)。

总结:多语言自然排序 ≠ natsort + UTF-8。请坚定弃用 natsort() 处理非英语文本,拥抱 Collator——它是 PHP 提供的、符合 Unicode CLDR 标准、开箱即用的国际化排序解决方案。

标签:# ASCII  # 不符合  # 不支持  # 请先  # 它是  # 设为  # 法语  # 德语  # 英语  # 土耳其  # php  # 对象  # 字符串  # asort  # sort  # 字符串数组  # 本地化  # 多语言  # ai  
在线客服
服务热线

服务热线

4008888355

微信咨询
二维码
返回顶部
×二维码

截屏,微信识别二维码

打开微信

微信号已复制,请打开微信添加咨询详情!