Легенда:
новое сообщение
закрытая нитка
новое сообщение
в закрытой нитке
старое сообщение
|
- Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
- Новичкам также крайне полезно ознакомиться с данным документом.
Фраза означает следующее - была составлена модель, которая... 25.02.04 11:52 Число просмотров: 2297
Автор: xelator Статус: Незарегистрированный пользователь
|
> не совсем понял фразу: "цифры прилично сходились для обоих платформ" Фраза означает следующее - была составлена модель, которая включала в себя количество запускаемых инструкций, отражение их зависимостей и также алгоритмические приемы, типа развертки на 3.
После этого в формулы были подставлены соответствующие латенси операций и их трупут (количество тактов через которые независимые операции одного типа могут запуститься) а также количество исполняемых блоков и посчитана цена в тактах на обработку одного ключа.
Так вот цифры сходились при расчетах как на АМД так и на Интеле.
Именно так я оценивал почему P4 тормозит в RC5-64, действительно ли код должен настолько медленно работать, или имеется непонятный/понятный оверхэд. Имеено таким образом было срезано около 40% в RC5-64 - тупой перераскладкой ассемблера + замена некоторых неудобных с точки зрения P4 инструкций. Алгоритм не менялся.
Все просто - вы делаете предположение что цена например одного вращения на вашей любимой АМД = 1 такт, сложения = 1 такт, логических операций = 1 такт и считаете минимум тактов на исполнение.
Теперь то же самое для P4 и P4 Prescott. У них латенси вращения поменялась с 4 на 1. Понятно что эффект обязан быть при равных частотах. Если он не сходится с ожидаемыми цифрами, опять надо смотреть кто съел законный прирост. Далее владея цифрами производительности в тактах на элемент, умножаем его на некий коэффициент частоты, предполагая полную линейную маштабируемость задачи от частоты ( что верно, т.к. задача чисто "молотильная" потому и Целероны выступают по сравнению с P4 не очень плохо).
Дальше было сложней. После этого я согласен с некоторой натяжкой назвать P4 тормозом в RC5. Но только ПОСЛЕ, а не априори. Можно ведь припомнить КАК замечательно работают вещественные вычисления у АМД. Незачем пинать на то, что FPU у P4 медленный - он медленный по дизайну, зато SSE работает прилично в отличие от АМД. Мне например как инженеру важно посчитать некий результат и абсолютно пофиг в FPU или в SSE.
Вопрос втом, дает некая технология возможность сделать это быстрей?
Если да, я буду ее использовать.
|
|
|