BugTraq.Ru: форум / programming / Пишу "каталогизатор" для blogspot.com, а там всё в кодировке...

информационная безопасность
без паники и всерьез

подробно о проекте

Анализ криптографических сетевых...

Модель надежности двухузлового...

Специальные марковские модели надежности...

FreeBSD полностью избавляется от...

Рекордный июльский патч - первая...

Вредоносные плагины в маркетплейсе...

bugtraq.ru / форум / programming

Имя

Пароль

если вы видите этот текст, отключите в настройках форума использование JavaScript


ФОРУМ


регистрация

Легенда:

новое сообщение

закрытая нитка

новое сообщение

в закрытой нитке

старое сообщение

Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
Новичкам также крайне полезно ознакомиться с данным документом.

Пишу "каталогизатор" для blogspot.com, а там всё в кодировке... 19.11.09 05:27 Число просмотров: 3537
Автор: Vedrus <Serokhvostov Anton> Статус: Member
Отредактировано 19.11.09 05:30 Количество правок: 1

<"чистая" ссылка>

Пишу "каталогизатор" для blogspot.com, а там всё в кодировке UTF-8 записано, поэтому и смотрю в сторону неё.

MultiByteToWideChar пробовал. Вроде работает, но когда пытаюсь вывести строку в MessageBox или сохранить в БД (Access) то мусор получается.

И ещё попутный вопрос: обязательно ли во всей программе строки менять на юникодовские, или можно только в нужной мне части. Например, я загружаю контент страницы в обычную char'овскую строку, а потом нужный кусок перевожу в юникод. Попробовал такую стратегию прикрутить, но пока безуспешно.

[C++] Как правильно получить контент в кодировке UTF-8? 19.11.09 03:51
Автор: Vedrus <Serokhvostov Anton> Статус: Member

<"чистая" ссылка>

Наконец-то я созрел на переход с обычных строк к юникоду. Но вот беда: не могу разобраться, как сделать так, чтобы русские страницы в кодировке UTF-8 считывались в "читабльном" виде, а не в виде мусора.

Заменил в своей программе все char'ы на TCHAR'ы, LPSTR/LPCSTR на LPTSTRT/LPCTSTR. Но попрежнему вместо букв вижу мусор. Что делать?

[C++] А почему utf-8? 19.11.09 04:30
Автор: amirul <Serge> Статус: The Elderman

<"чистая" ссылка>

> Наконец-то я созрел на переход с обычных строк к юникоду.
> Но вот беда: не могу разобраться, как сделать так, чтобы
> русские страницы в кодировке UTF-8 считывались в
> "читабльном" виде, а не в виде мусора.
MultiByteToWideChar

> Заменил в своей программе все char'ы на TCHAR'ы,
> LPSTR/LPCSTR на LPTSTRT/LPCTSTR. Но попрежнему вместо букв
> вижу мусор. Что делать?
Использовать utf-16

Пишу "каталогизатор" для blogspot.com, а там всё в кодировке... 19.11.09 05:27
Автор: Vedrus <Serokhvostov Anton> Статус: Member
Отредактировано 19.11.09 05:30 Количество правок: 1

<"чистая" ссылка>

Ответ стандартный. Попробуй почитать документацию 19.11.09 06:40
Автор: amirul <Serge> Статус: The Elderman

<"чистая" ссылка>

> Пишу "каталогизатор" для blogspot.com, а там всё в
> кодировке UTF-8 записано, поэтому и смотрю в сторону неё.
Откуда данные берешь? Загрузил наугад одну из страниц
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
Ни о чем не говорит? В частности "xhtml"?

> MultiByteToWideChar пробовал. Вроде работает, но когда
> пытаюсь вывести строку в MessageBox или сохранить в БД
> (Access) то мусор получается.
Ну давай код уже.

> И ещё попутный вопрос: обязательно ли во всей программе
> строки менять на юникодовские, или можно только в нужной
Вообще нет, но за ANSI уже пора лишать лицензии. Или взымать акциз какой нибудь, ибо ЗАДОЛБАЛИ.

> мне части. Например, я загружаю контент страницы в обычную
> char'овскую строку, а потом нужный кусок перевожу в юникод.
В случае с utf8 не забудь синхронизировать поток

> Попробовал такую стратегию прикрутить, но пока безуспешно.
Читай про макросы _UNICODE и UNICODE и то каким образом MessageBox превращается в MessageBoxA/MessageBoxW, а TCHAR - в char/wchar_t

PS: Я тебе по моему уже советовал попробовать писать на шарпе или VB. Серьезно, там таких проблем не возникает - плюсы, похоже, не для тебя.

Код 19.11.09 07:54
Автор: Vedrus <Serokhvostov Anton> Статус: Member
Отредактировано 19.11.09 07:55 Количество правок: 1

<"чистая" ссылка>

Сейчас пока остановился на топоровом варианте, где из юникода тупо русские символы распознаются. Но хотелось бы, чтобы отображались все символы.

BOOL InsertBlogInDB(LPCSTR lpcszLink2Blog, LPCSTR lpcszTitle, DWORD dwLocale)
{
	SQLHANDLE	hStmt;
	SQLRETURN	ret;
	char		szTitle[SIZE_TITLE];
	char		szQuery[MAXSIZE_QUERYSTR];

	if (0 == lstrcmp(szLikeLocale, "ru"))
	{
		lstrcpy(szTitle, lpcszTitle);
		for (int i = 0, k = 0; szTitle[i]; k ++)
		{
			if (szTitle[i] < 0)
			{
				szTitle[k] = (szTitle[i] + 48) * 64 + szTitle[i + 1] + 48;
				i += 2;
			}
			else
			{
				szTitle[k] = szTitle[i];
				i++;
			}
		}
		szTitle[k] = 0;
	}

	ret = SQLAllocHandle(SQL_HANDLE_STMT, hConn, &hStmt);
	if (SQL_SUCCESS != ret && SQL_SUCCESS_WITH_INFO != ret)
		return FALSE;

	wsprintf(szQuery, "INSERT INTO index (url, title, locale) VALUES ('%s', '%s', %d)", lpcszLink2Blog, szTitle, dwLocale);

	ret = SQLExecDirect(hStmt, (SQLTCHAR *) szQuery, lstrlen(szQuery));

	if (SQL_SUCCESS != ret && SQL_SUCCESS_WITH_INFO != ret)
		return FALSE;
	SQLFreeHandle(SQL_HANDLE_STMT, hStmt);

	return TRUE;
}

---

Хотелось бы вместо функции wsprintf поставить какую-нибудь другую функцию. чтобы в szQuery вставилась юникодная строка. Есть такая?

Я вообще то просил код, в котором ты получаешь строку. 19.11.09 09:22
Автор: amirul <Serge> Статус: The Elderman

<"чистая" ссылка>

Я вообще то просил код, в котором ты получаешь строку.

> if (0 == lstrcmp(szLikeLocale, "ru"))
> {
> lstrcpy(szTitle, lpcszTitle);
> for (int i = 0, k = 0; szTitle[i]; k ++)
> {
> if (szTitle[i] < 0)
> {
> szTitle[k] = (szTitle[i] +
> 48) * 64 + szTitle[i + 1] + 48;
> i += 2;
> }
> else
> {
> szTitle[k] = szTitle[i];
> i++;
> }
> }
> szTitle[k] = 0;
> }
^^^^ Что это?!!
MultiByteToWideChar же!!!

> ret = SQLAllocHandle(SQL_HANDLE_STMT, hConn,
> &hStmt);
> if (SQL_SUCCESS != ret &&
> SQL_SUCCESS_WITH_INFO != ret)
> return FALSE;

> wsprintf(szQuery, "INSERT INTO index (url, title,
> locale) VALUES ('%s', '%s', %d)", lpcszLink2Blog, szTitle,
> dwLocale);
Что это? Почему wsprintf-у даешь char[] в качестве буфера? Почему строка формата char[]? Почему аргументы для %s типизированы (char *) в конце концов? Ну, пожалуйста, ну пиши на шарпе, а?

> ret = SQLExecDirect(hStmt, (SQLTCHAR *) szQuery,
> lstrlen(szQuery));
>
> if (SQL_SUCCESS != ret &&
> SQL_SUCCESS_WITH_INFO != ret)
> return FALSE;
> SQLFreeHandle(SQL_HANDLE_STMT, hStmt);
>
> return TRUE;
> }
>
---
>
> Хотелось бы вместо функции wsprintf поставить какую-нибудь
> другую функцию. чтобы в szQuery вставилась юникодная
> строка. Есть такая?
Ага, есть. wsprintf

PS: Ну если не шарп, то подумай хотя бы над использованием C++ и ADO вместо ODBC.

I would use ADO along with C++. But C# is the best 19.11.09 20:02
Автор: void <Grebnev Valery> Статус: Elderman

<"чистая" ссылка>

Page build time: 0 s

Design: Vadim Derkach