Легенда:
новое сообщение
закрытая нитка
новое сообщение
в закрытой нитке
старое сообщение
|
- Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
- Новичкам также крайне полезно ознакомиться с данным документом.
Переменный размер символом в байтах очень неудобен при... 06.12.12 14:18 Число просмотров: 2925
Автор: leo <Леонид Юрьев> Статус: Elderman Отредактировано 06.12.12 14:19 Количество правок: 1
|
Переменный размер UTF-8 символов в байтах очень неудобен при реализации регулярок. Поэтому непосредственно в UTF-8 толком никакие регулярки не работают.
Стандартное решение = перед поиском регулярок все переводиться в UTF16/unicode. Проблемы с суррогатными парами при это все равно остаются, но решаются перекодированием в UTF-32.
Ну и в целом - http://site.icu-project.org/
|
|
|