Получается, что задача сводится к тому, чтобы представить 128-бит GUID в виде 16 строковых символов XML.
Без потерь это можно сделать, только сохраняя 8 бит на символ. Поэтому первый вариант такой - определить алфавит в 256 строковых символов из набора Unicode/UTF-8.
Если ПО партнера не может Unicode/UTF-8, то придется жертвовать размером GUID. Тогда делаем так:
- определяем алфавит из допустимых строковых символов, их будет не меньше 64 (заглавные латинские буквы, прописные, пробел, подчерк и цифры);
- разбиваем GUID на две половины по 64 биnа, для вычисления на unsigned __int64;
- для каждой половины 8 раз берем остаток от деления на размер алфавита и переводим в соответствующий символ;
- если есть вероятность, что все GUID не случайные числа с нормальным распределением (например порядковый номер), то перед преобразованием берем MD5 (или SHA) от GUID, и дальше работаем с этим дайджестом. Свертка 8 байтов в 7через XOR очень плохое решение с точки зрения обеспечения уникальности результирующего DocID;
- вероятность коллизии 1.0/(размер_алфавита**16);
Необходимо создать строковое представление "уникального" UID длиной 16символов
ПО нашего партнёра требует, чтобы каждый наш XML документ, направляемый этому партнёру, содержал уникальный UID длиной 16 символов. При этом он предъявляет странноватое требование, что мол, это должен быть GUID (128 бит).
Однако, непосредственно строковое представление GUID в XML документе, типа DocID = "da2ea19c3b394356a54eb6656b60a23b", программа нашего партнёра не воспринимает, т.к. максимальная длина этого поля в их ПО равна 16 символам. "Уникальность" должна быть обеспечена с большой вероятностью, хотя одна коллизия допускается и может быть разрешена (я буду проверять по нашей базе UID для всех документов).
Вопрос как получить UID-дообразный 16 символьный хеш, например GUID, который можно было без проверок на допустимые символы использовать в XML (желательно без сложных алгоритмов проверки и замены недопустимых символов).
Получается, что задача сводится к тому, чтобы представить 128-бит GUID в виде 16 строковых символов XML.
Без потерь это можно сделать, только сохраняя 8 бит на символ. Поэтому первый вариант такой - определить алфавит в 256 строковых символов из набора Unicode/UTF-8.
Если ПО партнера не может Unicode/UTF-8, то придется жертвовать размером GUID. Тогда делаем так:
- определяем алфавит из допустимых строковых символов, их будет не меньше 64 (заглавные латинские буквы, прописные, пробел, подчерк и цифры);
- разбиваем GUID на две половины по 64 биnа, для вычисления на unsigned __int64;
- для каждой половины 8 раз берем остаток от деления на размер алфавита и переводим в соответствующий символ;
- если есть вероятность, что все GUID не случайные числа с нормальным распределением (например порядковый номер), то перед преобразованием берем MD5 (или SHA) от GUID, и дальше работаем с этим дайджестом. Свертка 8 байтов в 7через XOR очень плохое решение с точки зрения обеспечения уникальности результирующего DocID;
- вероятность коллизии 1.0/(размер_алфавита**16);
Совершенно верно.08.09.06 05:18 Автор: void <Grebnev Valery> Статус: Elderman
> Получается, что задача сводится к тому, чтобы представить > 128-бит GUID в виде 16 строковых символов XML.
Совершенно верно.
> Без потерь это можно сделать, только сохраняя 8 бит на > символ. Поэтому первый вариант такой - определить алфавит в > 256 строковых символов из набора Unicode/UTF-8.
Спасибо за совет. Мы попробуем согласовать с партнёром поддерживаемый ими алфавит.
> Если ПО партнера не может Unicode/UTF-8, то придется > жертвовать размером GUID. Тогда делаем так: > - определяем алфавит из допустимых строковых символов, их > будет не меньше 64 (заглавные латинские буквы, прописные, > пробел, подчерк и цифры); > - разбиваем GUID на две половины по 64 биnа, для вычисления > на unsigned __int64; > - для каждой половины 8 раз берем остаток от деления на > размер алфавита и переводим в соответствующий символ; > - если есть вероятность, что все GUID не случайные числа с > нормальным распределением (например порядковый номер), то > перед преобразованием берем MD5 (или SHA) от GUID, и дальше > работаем с этим дайджестом. Свертка 8 байтов в 7через XOR > очень плохое решение с точки зрения обеспечения > уникальности результирующего DocID; > - вероятность коллизии 1.0/(размер_алфавита**16);
Интересно. Но в силу моей тугодомчивости, не совсем понятно.
Есть последовательность из 16 байт. Есть алфавит из, пусть, 64 литер.
Можно "сдвинуть" каждый байт набора символов (0-255) к номеру символа в "координатах" алфавита (0-64):
b[0] = b[0] mod 64;
...
b[15] = b[15] mod 64;
Правильно ли я понял ("... для каждой половины 8 раз берем остаток от деления на
размер алфавита и переводим в соответствующий символ ...")?
Спасибо.
Да, как уже сказал amirul так будет правильно. Я как-то...08.09.06 17:38 Автор: leo <Леонид Юрьев> Статус: Elderman Отредактировано 08.09.06 17:39 Количество правок: 1
> Интересно. Но в силу моей тугодомчивости, не совсем > понятно. > Есть последовательность из 16 байт. Есть алфавит из, пусть, > 64 литер. > Можно "сдвинуть" каждый байт набора символов (0-255) к > номеру символа в "координатах" алфавита (0-64): > > b[0] = b[0] mod 64; > ... > b[15] = b[15] mod 64; > > Правильно ли я понял ("... для каждой половины 8 раз берем > остаток от деления на > размер алфавита и переводим в соответствующий символ > ...")? Да, как уже сказал amirul так будет правильно. Я как-то упустил из виду, что итоговых символов будет как и исходных байтов ровно 16. Есть только маленькое "но" - если исходные GUID генерируется не на основе случайных чисел, то для упрощенного варианта нужно обязательно взять MD5/SHA. Иначе вероятность коллизий сильно возрастет.
Волею судеб у меня оказался w3c-шный стандарт XML 1.1 [update]08.09.06 15:21 Автор: amirul <Serge> Статус: The Elderman Отредактировано 08.09.06 15:42 Количество правок: 1
> > Получается, что задача сводится к тому, чтобы > представить > > 128-бит GUID в виде 16 строковых символов XML. > > Совершенно верно.
Еще одно уточнение. Каким именно элементом XML-я является этот DocID (насколько я понял это атрибут в стартовом теге типа <document DocID="guidbla-bla-bla" ....>)
Это означает всего лишь, что в значении атрибута, ограниченном кавычками запрещены только три символа: '<', '&' и '\"'
Ну а в значении атрибута, ограниченном апострофами, соответственно вместо кавычки запрещен апостроф.
Reference это &, < и т.д.
Кстати, понимает ли ваш клиент reference-ы? Если да, то проблемы нет вообще. Просто записать в атрибуте 16 байт, заменяя все кавычки, амперсанды и знаки меньше их reference-ами. Если нет, то все как написал leo, используя алфавит из 253-х символов.
> Интересно. Но в силу моей тугодомчивости, не совсем > понятно. > Есть последовательность из 16 байт. Есть алфавит из, пусть, > 64 литер.
64 - мало. Нужно сохранить как можно больше инфы. Для этого надо выбрать как можно бОльший размер алфавита.
> Можно "сдвинуть" каждый байт набора символов (0-255) к > номеру символа в "координатах" алфавита (0-64):
> b[0] = b[0] mod 64; > ... > b[15] = b[15] mod 64;
> Правильно ли я понял ("... для каждой половины 8 раз берем > остаток от деления на > размер алфавита и переводим в соответствующий символ > ...")?
Нет.
Это обычное преобразование из одной системы счисления в другую. Тебе надо перевести твой GUID в 253-ричную систему счисления.
Псевдокод:
int i;
bignum GUID;
char newGUID[16];
for (i = 0; i < 16; i++) {
newGUID[i] = GUID % 253; // здесь еще надо учесть, что "дырки" находятся не в конце, а в средине алфавита
GUID /= 253;
}
---
В принципе, если нет желания возиться с большими числами, можно преобразовать по 64-битным кусочкам (64-битная арифметика встроена во все современные компиляторы).
--------------------
Я понял, что ты хотел сказать. Действительно можно обойтись только 8-битной арифметикой. Никаких остатков от деления не надо. Просто заменяй амперсанд, кавычку и знак меньше на, к примеру, 0, 1 и 2 соответственно. Все остальное - без изменений.
Спасибо! Теперь понятно.09.09.06 03:25 Автор: void <Grebnev Valery> Статус: Elderman