> Спасиб. > Попробую соседа-программера подписать на написание клиента > для Nvidia-ядер.... :) Возможно, это ему поможет :) : dungeon.darktech.org/hg/dnetc_cuda/file/2a4408f1bdfd/rc5-72/cuda/r72cuda1.cu
Кто нибудь тестировал DNET c CUDA ?
Если да, то какие впечатления ? Какие глюки ?
Я на выходных буду пробовать компилить, хочу узнать к чему готовится...
[RC5] где скачать клиент для CUBA?08.08.08 12:56 Автор: vialine Статус: Незарегистрированный пользователь Отредактировано 08.08.08 12:57 Количество правок: 1
> Кто нибудь тестировал DNET c CUDA ? > Если да, то какие впечатления ? Какие глюки ? > Я на выходных буду пробовать компилить, хочу узнать к чему > готовится...
давайте выкладывать ссылки где можно скачать клинт для CUBE.
любые версии
[RC5] Было бы не плохо увидеть на что способны нв в проектах днет )06.06.08 09:52 Автор: jiZo <Александр> Статус: Member
> Кто нибудь тестировал DNET c CUDA ? > Если да, то какие впечатления ? Какие глюки ? > Я на выходных буду пробовать компилить, хочу узнать к чему > готовится... Я так понимаю, ставятся дрова с поддержкой cuda, sdk - компилится исходник клиента (или того что нужно запустить для обсчета путем gpu) и вуаля?
Хы, если верить Hardware Support то моя 8800 GT в деле ) А если верить новостным хардварным сайтам, то поддержка cuda "по настоящему" начнется только с новой ветки GPU - GT200, хотя они правы, производительным должен быть агригатик
Было бы интересно увидеть результаты.06.06.08 09:08 Автор: J'JF <Dmytro Volhushyn> Статус: Elderman
Причем, интересно больше CTM, потому как нвидий не пользую. Хотя, думаю, с такой статичностью разработчиков, какие-либо осмысленные релизы мы увидим не скоро...
[RC5] DNET-овцы действительно заметно тормозят. Остается...11.06.08 19:59 Автор: sla Статус: Незарегистрированный пользователь
DNET-овцы действительно заметно тормозят. Остается надеяться, что это время им нужно на тестирование, чтобы потом больше усилий участников не ушло в пыль.
> Причем, интересно больше CTM, потому как нвидий не пользую. Для CUDA ядро есть, AFAIR 8800 GTX показывал 140 MKeys/sec, только вот когда появится официальный клиент - непонятно. Теоретически, c CTM должно быть примерно (по порядку) столько же, но писать там несколько затруднительнее, хотя на асм'e, конечно, больше возможностей и адреналина :)
[RC5] теперь гнаться янадо не за процессорами а за видюхами?:)14.06.08 14:49 Автор: maestro_sochi <maestro> Статус: Member
Чел, который писал клиента под GPU написал что "не воздействовал на код" примерно 11 месяцев. И судя по всему, дальше тож не будет воздействовать некоторое время (какое - непонятно). :(
Про скорость: на distributed.net пробегало сообщение о 400М на GPU от Nvidia 8ххх. В тоже время общая производительность ATI 4850 1 терафлопс. У PS3 (клиент уже есть!) общая производительность "более 180 GFLOPS" - скорость в существующем клиенте RC72 - 166M - это примерно 3300 блоков в день.
Те если на ATI или Nvidia можно достичь 400-500М клиент под GPU интерсен (принимая во внимание SLI etc в одной машине...), если же скорость GPU в районе 150М, то PS3 кажется интереснее по производительности и цене..
> Чел, который писал клиента под GPU написал что "не > воздействовал на код" примерно 11 месяцев. И судя по > всему, дальше тож не будет воздействовать некоторое время > (какое - непонятно). :( Скорее всего, дело не столько в нем, сколько в торможении дистрибутовцев, не включающих его детище в официальный клиент. Боятся глюков и неправильно посчитанных блоков, наверное. Хотя могли бы выделить отдельный keyspace для GPU клиентов, если найдется злостный баг - потом пересчитать. Да что говорить - у них лежит новая версия ядра под Core 2 & P4E, но и то не включли в prerelease. В общем, не совсем понятно.
> Про скорость: на distributed.net пробегало сообщение о 400М > на GPU от Nvidia 8ххх. В тоже время общая > производительность ATI 4850 1 терафлопс. google говорит от 144MKeys/sec...
И сами флопы тут не совсем полезны - важно быстродействие в целочисленной арифметике, например (очень важно) наличие и скорость операции логического циклическго сдвига влево (rol) - именно по этой причине SSE2 ядра оказываются не быстрее, чем int, а K8 - во всяком случае не медленнее, чем Core 2 :)
> Может найти писателя прог и ему заказать? > Как мысль? Проблема не в отсутсвии клиента, а в невключении его в релиз...
Никуда :) Просто времени сейчас маловато. Brook+ версию попробовал на HD3870. Тесты проходит, но о быстродействии говорить не приходится, поскольку она работает в 2 потока вместо как минимум 64*4. Тем более, AMD-шники успели поменять 2 версии Brook+ ,и старая прога перестала компилироваться :-D Зато поправили некоторые глюки. Сейчас потихоньку переписываю на IL ассемблер: все-таки этот Brook+ довольно-таки неуклюжая штука, имхо. Как только будут проходить тесты, так сразу выложу :)
Подскажи, плиз, а как можно грамотно объясить программисту, что и как конкретно должен делать клиент GPU, что бы он написал этого самого клиента??
Те как составить ТЗ понятное для программиста?
[RC5] ТЗ27.10.08 11:49 Автор: Sla <Sla> Статус: Member
Если ТЗ понимать как минимум информации, необходимый для написания, то нужно описание проблемы и программно-аппаратной платформы, на которой это должно выполняться. Для rc5-72 проще всего взять файлы из комплекта сырцов, например, gentests72.cpp, r72-ref.cpp, несколько ассемблерных вариантов. Из них понятнее будет.
По сути, задача-то проста: есть ключ из трех частей, есть 2 dword'а, которые шифруются подготовленным блоком, нужно вернуть число и место последнего частичного совпадения с зашифрованными 2*dword и место полного совпадения (если есть). В gentests72.cpp это заняло 20 строчек на Си (без инкремента ключа). Клиента сделать просто, проблематичнее сделать так, чтобы он выполнялся быстро - тут и rol, который не всегда эффективен (если вообще есть), тут и необходимость изменения порядка байт в номере ключа при его увеличении, еще некоторые мелочи. На GPU это еще и возврат результатов, желательно чтобы он еще как можно меньше CPU грузил... (Вообще, пожеланий каким должен быть GPU клиент можно целый вагон насобирать :D )
> Спасиб. > Попробую соседа-программера подписать на написание клиента > для Nvidia-ядер.... :) Возможно, это ему поможет :) : dungeon.darktech.org/hg/dnetc_cuda/file/2a4408f1bdfd/rc5-72/cuda/r72cuda1.cu
> > Чел, который писал клиента под GPU написал что "не > > воздействовал на код" примерно 11 месяцев. И судя по > > всему, дальше тож не будет воздействовать некоторое > время > > (какое - непонятно). :( > Скорее всего, дело не столько в нем, сколько в торможении > дистрибутовцев, не включающих его детище в официальный > клиент. Боятся глюков и неправильно посчитанных блоков, > наверное. Хотя могли бы выделить отдельный keyspace для GPU > клиентов, если найдется злостный баг - потом пересчитать. > Да что говорить - у них лежит новая версия ядра под Core 2 > & P4E, но и то не включли в prerelease. В общем, не > совсем понятно.
Как говориться - доставать их надо по этому поводу... :)
> > > Про скорость: на distributed.net пробегало сообщение о > 400М > > на GPU от Nvidia 8ххх. В тоже время общая > > производительность ATI 4850 1 терафлопс. > google говорит от 144MKeys/sec...
А вообще откуда эта цифра взялась? кто-то собирал клиента и запускал?
На днете вродебы чел, который исходники для GPU клиента писал говорил о 400М. Или я неправильно понял...
> > И сами флопы тут не совсем полезны - важно быстродействие в > целочисленной арифметике, например (очень важно) наличие и > скорость операции логического циклическго сдвига влево > (rol) - именно по этой причине SSE2 ядра оказываются не > быстрее, чем int, а K8 - во всяком случае не медленнее, чем > Core 2 :)
Ты "глубоко" в теме? А согласно информации о структуре GPU производительность оценить можешь?
ЗЫ а клиента написать?
а то потрачу 20к на 2 PS3 (стоят 2 черных коробки СМ-но и ничего не требуют - предлесть...) и не буду ждать клиента GPU....
> > > Может найти писателя прог и ему заказать? > > Как мысль? > Проблема не в отсутсвии клиента, а в невключении его в > релиз...
Предполагаю, что днетовцы должны быть заинтересованы в увеличении производительности... вконце-концов под PS3 клиента ведь выпустили...
[RC5] 8800 CUDA, GPU15.07.08 22:54 Автор: Sla <Sla> Статус: Member Отредактировано 15.07.08 23:00 Количество правок: 4
> Как говориться - доставать их надо по этому поводу... :) Какие будут предложения? :)
> А вообще откуда эта цифра взялась? кто-то собирал клиента и > запускал? Вот тут пишут: episteme.arstechnica.com/eve/forums/a/tpc/f/122097561/m/766004683831
Just today, I optimized the result calculation and I am now seeing ~ 144 Mkeys/sec on my 8800 GTX.
Just for reference, my GTS/320 gets about ~104 Mkeys/sec [factory clocked slightly faster than stock].
где-то видел, писали 280K на GTX SLI. Правда, тот чувак написал клиента под Linux, но переделать под вынь не такая уж и проблема - был бы смысл. Исходничек самого CUDA ядра лежит где-то. (Чудик еще для OGR постепенно портирует, но может не успеть до конца проекта)
> Ты "глубоко" в теме? А согласно информации о структуре GPU > производительность оценить можешь? Ну есть немного :) Писал ядрышко... для CPU. :-[ Для АМД сложно точно сказать - во что скомпилит BROOK + CAL - Бог его знает - пробовать надо. Но, имхо, должно быть примерно (+-трамвайная остановка) на уровне Nvidia. И серия 48xx должна быть побыстрее - у него все пять ALU в группе могут выполнять shift против одного из 5 у 38xx.
> ЗЫ а клиента написать? Написал бы, но, боюсь, интегряха в моем ноуте против :) А на работе тоже в основном интегряхи. Хотя для AMD = Brook +CAL работает эмуляция. Может, и дойдут руки...
> а то потрачу 20к на 2 PS3 (стоят 2 черных коробки СМ-но и > ничего не требуют - предлесть...) и не буду ждать клиента > GPU.... Самое интересное, в исходниках клиента для PS3 написано как его еще можно ускорить (процентов, наверное, 10-15), но это тяжкая и муторная ручная работа, примерно как для ядра altivec и go-2.
> Предполагаю, что днетовцы должны быть заинтересованы в > увеличении производительности... вконце-концов под PS3 > клиента ведь выпустили... Теоретически так, но тогда непонятно почему с апреля не могут включить в релиз ядро core2 и p4 (правда там рост, афаир, всего несколько процентов, зато это не новое ядро/платформа, а модификация - проверять проще). А go-2 почти год валялось в багрепортах пока в клиент всунули.
Вообще, на многое бы их подпинать - например, сменить keyspace для random блоков. Может, конечно, у меня глюки, но много рандомных блоков просто не принимается - возможно, из-за накопившихся за 5+ лет повторений
P.S. народ и на FPGA клиента писал, но где хоть упоминание на сервере dnet? Эх!
> > Как говориться - доставать их надо по этому поводу... > :) > Какие будут предложения? :)
Как обычно - писать письмо турецкому султану... :)
Как технически это сделать (типа кому писать) - тут Вы, Sla, новерное больше меня знаете, я так, пользователь клиента, программки даже маленькие не пишу...
А стратегически - сказать что давайте сделаем, что для этого от нас требуется (как вариант - какие условия мы должны соблюсти.).
Примерно так.
Приступим к реешнию тех. вопросв? :)
> > > А вообще откуда эта цифра взялась? кто-то собирал > клиента и > > запускал? > Вот тут пишут: > episteme.arstechnica.com/eve/forums/a/tpc/f/122097561/m/766 > 004683831 > Just today, I optimized the result calculation and I am now > seeing ~ 144 Mkeys/sec on my 8800 GTX. > Just for reference, my GTS/320 gets about ~104 Mkeys/sec > [factory clocked slightly faster than stock]. > > где-то видел, писали 280K на GTX SLI. Правда, тот чувак > написал клиента под Linux, но переделать под вынь не такая > уж и проблема - был бы смысл. Исходничек самого CUDA ядра > лежит где-то. (Чудик еще для OGR постепенно портирует, но > может не успеть до конца проекта)
Ну, в принципе, 140м конечно меньше 400М, но все же большой плюс... Тем более, 2 карты можно воткнуть...
А под пингвина даже лучше.... :)
> > > Ты "глубоко" в теме? А согласно информации о > структуре GPU > > производительность оценить можешь? > Ну есть немного :) Писал ядрышко... для CPU. :-[ Для АМД > сложно точно сказать - во что скомпилит BROOK + CAL - Бог > его знает - пробовать надо. Но, имхо, должно быть примерно > (+-трамвайная остановка) на уровне Nvidia. И серия 48xx > должна быть побыстрее - у него все пять ALU в группе могут > выполнять shift против одного из 5 у 38xx.
Ты находка для шпиона :)
> > > ЗЫ а клиента написать? > Написал бы, но, боюсь, интегряха в моем ноуте против :) А > на работе тоже в основном интегряхи. Хотя для AMD = Brook > +CAL работает эмуляция. Может, и дойдут руки...
У меня тут завалялась без дела 8800 что-то там. Но должна быть самая продвинутая. Почему завалялась? А чего ей тепло в системнике выделять? выдернута и на ее место что попроще.... :)
так что могу выделить для написания... Правда, с возвратом.... И в Мск....
Ну и АТИ 48хх можно получить для этого....
> > > а то потрачу 20к на 2 PS3 (стоят 2 черных коробки > СМ-но и > > ничего не требуют - предлесть...) и не буду ждать > клиента > > GPU.... > Самое интересное, в исходниках клиента для PS3 написано как > его еще можно ускорить (процентов, наверное, 10-15), но это > тяжкая и муторная ручная работа, примерно как для ядра > altivec и go-2.
И ПС3 можно на разработку выделить... :)
> > > Предполагаю, что днетовцы должны быть заинтересованы в > > увеличении производительности... вконце-концов под > PS3 > > клиента ведь выпустили... > Теоретически так, но тогда непонятно почему с апреля не > могут включить в релиз ядро core2 и p4 (правда там рост, > афаир, всего несколько процентов, зато это не новое > ядро/платформа, а модификация - проверять проще). А go-2 > почти год валялось в багрепортах пока в клиент всунули. > Вообще, на многое бы их подпинать - например, сменить > keyspace для random блоков. Может, конечно, у меня глюки, > но много рандомных блоков просто не принимается - возможно, > из-за накопившихся за 5+ лет повторений
Насколько я понимаю, днетовцев как таковых немного - по пальцам одной руки.... :)
И они взрослеют, работу меняют, интересы меняются - ну и проект задвигают. текет себе самотеком и ладно... :(
Те если не пытаться - ничего и не получиться, а пробуя - может и выйдет чего....
> > P.S. народ и на FPGA клиента писал, но где хоть упоминание > на сервере dnet? Эх!
Может сил/времени/интереса не хватило? К примеру не только дописать/отладить клиента, но и в релиз продвинуть?
[RC5] GPU новости, нужен тест21.07.08 22:03 Автор: Sla <Sla> Статус: Member Отредактировано 21.07.08 22:05 Количество правок: 1
В общем, ситуация такая - нечто, напоминающее клиента под brook я сделал. :) Во всяком случае, на эмуляции это выглядит вот так:
Unable to initialize CAL runtime, falling back to CPU
dnetc v2.9012-497-CTL-06032022devfor Win32 (WindowsNT 5.1).
Please provide theentireversion descriptor when submitting bug reports.
The distributed.net bug report pages are at http://www.distributed.net/bugs/
[Jul 21 17:40:43 UTC] Automatic processor type detection found
an Intel Pentium M processor.
[Jul 21 17:40:43 UTC] RC5-72: using core #10 (brook 2-pipe).
[Jul 21 17:40:43 UTC] RC5-72: Test 01 passed: C9:0C0353C0:D4E1FE85-C9:0C035 ...
[Jul 21 17:40:44 UTC] RC5-72: Test 02 passed: DE:EE0C6279:BF66F898-DE:EE0C6 ...
[Jul 21 17:40:45 UTC] RC5-72: Test 03 passed: 0F:556979E7:6C009260-0F:55697 ...
[Jul 21 17:40:46 UTC] RC5-72: Test 04 passed: 9E:D8B648C6:00003A3C-9E:D8B64 ...
[Jul 21 17:40:48 UTC] RC5-72: Test 05 passed: C8:B3631100:0000EAF0-C8:B3631 ...
[Jul 21 17:40:49 UTC] RC5-72: Test 06 passed: FE:40080000:00006F64-FE:40080 ...
[Jul 21 17:40:50 UTC] RC5-72: Test 07 passed: 28:69000000:0000204D-28:69000 ...
[Jul 21 17:40:51 UTC] RC5-72: Test 08 passed: 6E:00000000:0000172F-6E:00000 ...
[Jul 21 17:40:51 UTC] RC5-72: Test 09 passed: C6:E9386A44:C0F9D107-C6:E9386 ...
[Jul 21 17:40:52 UTC] RC5-72: Test 10 passed: 2B:E01C5B9D:D65CCAD7-2B:E01C5 ...
[Jul 21 17:40:52 UTC] RC5-72: Test 11 passed: 97:2C0F244D:EFC54E4F-97:2C0F2 ...
[Jul 21 17:40:53 UTC] RC5-72: Test 12 passed: A8:8960B40B:1F46AD1F-A8:8960B ...
[Jul 21 17:40:53 UTC] RC5-72: Test 13 passed: B1:FFE95917:B38E4396-B1:FFE95 ...
[Jul 21 17:40:53 UTC] RC5-72: Test 14 passed: C6:46E7E19D:9CD65C85-C6:46E7E ...
[Jul 21 17:40:53 UTC] RC5-72: Test 15 passed: E3:D686400B:7EFB2180-E3:D6864 ...
[Jul 21 17:40:53 UTC] RC5-72: Test 16 passed: 85:EA3678CF:91DB0D2C-85:EA367 ...
[Jul 21 17:40:54 UTC] RC5-72: Test 17 passed: D6:BE71026E:348165EE-D6:BE710 ...
[Jul 21 17:40:54 UTC] RC5-72: Test 18 passed: 5F:71AD1E37:82BC4D50-5F:71AD1 ...
[Jul 21 17:40:54 UTC] RC5-72: Test 19 passed: 11:4134BDB0:175A077F-11:4134B ...
[Jul 21 17:40:54 UTC] RC5-72: Test 20 passed: 94:888FF8CB:282E6E5F-94:888FF ...
[Jul 21 17:40:54 UTC] RC5-72: Test 21 passed: D9:48A2E6E4:CD610000-D9:48A2E ...
[Jul 21 17:40:54 UTC] RC5-72: Test 22 passed: E5:71448E83:D0860001-E5:71448 ...
[Jul 21 17:40:54 UTC] RC5-72: Test 23 passed: 3E:ED6D9F85:A6D70002-3E:ED6D9 ...
[Jul 21 17:40:54 UTC] RC5-72: Test 24 passed: 25:D04F6B0E:16AD0003-25:D04F6 ...
[Jul 21 17:40:56 UTC] RC5-72: Test 25 passed: 05:45C2E10D:273D0000-05:45C2E ...
[Jul 21 17:40:57 UTC] RC5-72: Test 26 passed: 56:30E19DF4:8C460000-56:30E19 ...
[Jul 21 17:40:59 UTC] RC5-72: Test 27 passed: 85:3B37FFD3:9F140000-85:3B37F ...
[Jul 21 17:41:01 UTC] RC5-72: Test 28 passed: 80:B75263C5:41660000-80:B7526 ...
[Jul 21 17:41:02 UTC] RC5-72: Test 29 passed: 03:52A1DF42:D8A30000-03:52A1D ...
[Jul 21 17:41:04 UTC] RC5-72: Test 30 passed: 87:23A58F8F:D5940000-87:23A58 ...
[Jul 21 17:41:04 UTC] RC5-72: Test 31 passed: CC:9661BA34:7604002A-CC:9661B ...
[Jul 21 17:41:05 UTC] RC5-72: Test 32 passed: 21:E765D2F6:C6110000-21:E765D ...
[Jul 21 17:41:05 UTC] RC5-72: 32/32 Tests Passed (22.262011 seconds)
Это черновая версия, сделано лишь бы работала. Загвоздка вот в чем: есть подозрение, что в brook+ есть глюк со сдвигами unsigned, поэтому клиент сделан с небольшим workaround, и может не работать "в железе", если там это обрабатывается так, как и положено честному C. Поэтому есть просьба: проверить клиент на ATI HD2400 или HD2600 или 2900 или 3850/70, ... и т.д. т.е. на любом AMD-шнике, способном жевать DX10. Интересует лог
dnetc -test rc5-72 10
dnetc -bench rc5-72 10
тоже любопытен, но просьба не делать никаких выводов о потенциально достижимой скорости, поскольку он работает всего в 2 потока, и переходник brook+ <-> dnetc представляет из себя, скорее затычку, и т.д. Кроме того, его потом бы портировать на IL, а еще лучше на R600asm, но это дело не близкого будущего. Сейчас бы, помолясь, запустить тест на ATI R600+ hardware... Дрова нужны Catalyst 8.6, хотя 8.5, возможно, тоже будет работать.
P.S. запихнул все в архив http://depositfiles.com/files/6691873 чуть меньше 2-х метров, пароль - мой ник 2 раза подряд маленькими буквами. Вирусов и троянов вроде там не было :-D