Topic: /идейка/ эмулятор CPU на GPGPU (Read 7605 times)

Quote from: tvv on October 28, 2012, 11:17:05 PM

Цена MH/s у меня абсолютно круглая - полный 0, поскольку старый хлам бесплатная халява которую лень нести на помойку.
Ты правда думаешь что можно сделать новое дешевле?..

давай, ты сначала сделаешь или расскажешь, как сделать, а потом цену назовешь.
А то я готов по названой цене купить с миллион майнеров. Продашь? Не? Тогда и не пи...

я уже объяснял как задействовать хлам.

Конечно ради 1 старого модема тратить несколько дней на ковыряние в ПЗУ не выгодно,
но если скинуться, то все окупается тк этого хлама у людей очень много.
(то есть фактически за счет майнинга можно поднять крутой проект по реверс-инжинирингу)

Vladimir

SHawk

sr. member

Activity: 658

Merit: 250

Да, кстати, в каком размере fpga нынче 1 ячейка стоит дешевле?..
(этот тот класс на котором ты сделал майнер, или чипы меньшего размера имеют меньшую удельную стоимость?)

То есть удельная стоимость лог. элемента - если цену чипа разделить на число ячеек.

кстати - ни в каком. цена в пересчете на вентиль стабильна для всего семейства сделанного по одной технологии.

SHawk

sr. member

Activity: 658

Merit: 250

Ну ладно, OK, похоже и правда придеться проводить натурный эксперимент...

Первый вопрос(на засыпку) - в чем мерить-то будем, умник?

Да в чем хочешь, умник.

Ты правда думаешь что компилятор тебе покажет информацию о чипе и технологии, а не более высокого уровня?

Напомню - думаешь и предполагаешь здесь ты. Я же знаю, что говорю.

Цена MH/s у меня абсолютно круглая - полный 0, поскольку старый хлам бесплатная халява которую лень нести на помойку.
Ты правда думаешь что можно сделать новое дешевле?..

давай, ты сначала сделаешь или расскажешь, как сделать, а потом цену назовешь.
А то я готов по названой цене купить с миллион майнеров. Продашь? Не? Тогда и не пи...

tvv

legendary

Activity: 1302

Merit: 1005

Да, кстати, в каком размере fpga нынче 1 ячейка стоит дешевле?..
(этот тот класс на котором ты сделал майнер, или чипы меньшего размера имеют меньшую удельную стоимость?)

То есть удельная стоимость лог. элемента - если цену чипа разделить на число ячеек.

tvv

legendary

Activity: 1302

Merit: 1005

Нафига ты пишешь всю эту ахинею? Ты думаешь, что есть люди, программирующие fpga и не понимающие всего этого лучше тебя?

а чтобы ты понял, хоть что-то. Но я вижу это мало помогает...

В чипах и технологиях ты кстати совсем не разбираешься - чего я тебе и пытаюсь показать на пальцах.

Ты даже "Фиббоначи" неправильно пишешь. Твоя тотальная безграмотность поражает.

забавный ты Wink

Обычно народ к "VDHL" прикапывается - а тебе уже больше не к чему чтоли?..
(вон специально не стал исправлять очепятку - но даже не думал что ты на это попадешься, удивил Wink

)

Давай проведем эксперимент. Я напишу на VHDL сложение двух 32-битных слов, откомпилирую и опубликую количество ресурсов, потраченное после разводки на эту операцию. А ты выкинешь АЛУ нафиг, извлечешь из своей думалки "ядро последовательного майнера", откомпилируешь (или опубликуешь здесь, если компилировать нечем) и посчитаешь (посчитаем) количество ресурсов, которые уйдут на твою реализацию. Ну и скорость работы (количество тактов) сравним заодно.
И посмеемся/поплачем...

а до тебя ведь нифига и не доходит, даже после того как разжевал 2*2...

Ну ладно, OK, похоже и правда придеться проводить натурный эксперимент...

Первый вопрос(на засыпку) - в чем мерить-то будем, умник?
Ты правда думаешь что компилятор тебе покажет информацию о чипе и технологии, а не более высокого уровня?

Вот зачем я тебе 2*2 только объяснял не понимаю, если ты все равно не читаешь...

Quote from: tvv on October 27, 2012, 12:37:29 AM

Какова у тебя получается цена 1MH/s?
Вот в этом то и проблема - ты ничего в своей жизни не доводил до конца. Иначе ты бы понимал, как глубоко ты заблуждаешься.
Предлагаю еще один спор - спорим, что на "халявном старом хламе" ты (да и никто другой) не соберешь устройство, которое бы по цене 1MH/s превосходило бы показатели того, что уже есть в продаже?

хм... Это ты про себя чтоли? Я думал у тебя этот уродец работает... Ну да ладно.

Цена MH/s у меня абсолютно круглая - полный 0, поскольку старый хлам бесплатная халява которую лень нести на помойку.

Ты правда думаешь что можно сделать новое дешевле?..

Но главного принципа ты все равно не понял - в новых проектах такой подход будет сильно выгоднее.
(Подскажу - и даже новые чипы с майнерами могут стоить почти 0. Сможешь теперь дагадаться почему?..
Да, и объясни почему заказ чипов в полупроводниковых фирмах может полностью убить прибыль от майнинга...)

Vladimir
PS в технологиях, маркетинге, схемотехнике и архитектуре чипов ты все-же нифига не понимаешь...

SHawk

sr. member

Activity: 658

Merit: 250

То есть ты видешь результат от f(f(f(...f(x) ))) (32 раза - иногда в подобных математиках это записывают как 32 степень)
многократного применения этой функции за один вызов подпрограммы оптимизированного под CPU алгоритма, вот и все.
И думаешь что там что-то сложное - нифига просто это экв многократному вызову 1-бит функции, и там всего пара отводок,
ну а входы вообще никого не волнуют - это всего экв. 1 слою элементов от универсального АЛУ, который ты идиот
реализовал в своей fpga, тупо не думая взяв и перенеся преобразованный и оптимизированный алгоритм под CPU с мощным
универсальным АЛУ. Кстати один тока этот универсальный АЛУ занимает ячеек в десятки раз больше всего ядра
последовательного майнера...

Нафига ты пишешь всю эту ахинею? Ты думаешь, что есть люди, программирующие fpga и не понимающие всего этого лучше тебя?
Ты даже "Фиббоначи" неправильно пишешь. Твоя тотальная безграмотность поражает.
То что ты пишешь - общие, смешные слова.
Изначально, на описанную тобой операцию будет уходить 32 такта работы устройства. Именно для того, чтобы делать эту операцию за такт и создают АЛУ. Иначе будет огромный простой всех остальных участков, которым в данный момент не нужно "сложение за 32 такта". Только не гундось о том, что в твоем устройстве такты маленькие - ты этого не добьешься.
Давай проведем эксперимент. Я напишу на VHDL сложение двух 32-битных слов, откомпилирую и опубликую количество ресурсов, потраченное после разводки на эту операцию. А ты выкинешь АЛУ нафиг, извлечешь из своей думалки "ядро последовательного майнера", откомпилируешь (или опубликуешь здесь, если компилировать нечем) и посчитаешь (посчитаем) количество ресурсов, которые уйдут на твою реализацию. Ну и скорость работы (количество тактов) сравним заодно.
И посмеемся/поплачем...

До этого момента, все сказанное тобой воспринимается как полный бред и мечты не подкрепленные даже попытками сделать что-то на практике или что-то доказать общепринятым научным языком (терминами).

Quote from: tvv on October 27, 2012, 12:37:29 AM

Vladimir
несколько последовательных
ядер можно всунуть в любую маленькую матрицу, что учитывая халявность старого хлама все равно выгодно,
хоть и не бьет рекорды по пиковой производительности(что и не нужно для майна - важна тока цена 1 MH/s)...

Какова у тебя получается цена 1MH/s?
Вот в этом то и проблема - ты ничего в своей жизни не доводил до конца. Иначе ты бы понимал, как глубоко ты заблуждаешься.
Предлагаю еще один спор - спорим, что на "халявном старом хламе" ты (да и никто другой) не соберешь устройство, которое бы по цене 1MH/s превосходило бы показатели того, что уже есть в продаже?

tvv

legendary

Activity: 1302

Merit: 1005

Спорим, у тебя пальцев на руках больше, чем человек на этом форуме, способных это сделать (включая и ветки на других языках)? Так что свои "в принципе" оставь при себе.

я даже в своем маленьком городе знаю людей кто знает VHDL больше, чем у тебя всего пальцев, включая 21-й Wink

(а в списке контактов их еще на порядки больше, так что не бином ньютона твой вхдл, уж поверь)

Другое дело что майнингом они не интересуются, это да...

Quote

А схема там предельно простая - похожа на CRC схемы, тока в отводках от регистра часть XOR заменена другими для придания нелинейности, вот и все.

Если ты знаешь одну единственную схему на сдвиговом регистре с обратной связью и отводами, это еще не значит, что весь мир на ней построен. Расширь свой кругозор. Почитай учебники.
SHA НЕ ОПИСЫВАЕТСЯ схемой, которая "похожа на CRC".

я знаю тока методов описания всяких кодов и их применений гораздо больше, чем ты можешь себе представить...
Даже знаю про "скрытый бит" из FPU DEC, и знаю почему его нет в ЕС ЭВМ(IBM).
(а ты знаешь? Особенность схемотехники построения АЛУ - уважающие себя аппаратчики должны знать про эту фичу)
Не считая всяких кодов вроде Фиббоначи из экспериментального многоразрядного ЦАП-а КАМАК,
кодов спутниковой связи, корректоров ошибок... АКФ, ВКФ, CDMA и много других страшных слов Wink

(кстати умеешь спутниковые модемы настраивать? и знаешь почему qualcomm отымел моторолу по плотности сотовой связи? )

Но с этими кодами ты тут сильно прокололся - задан SHA не алгоритмом, а именно _логической битовой_ функцией!!!
(сюрприз: и вся математика этих кодов описана именно по этой базе, а не в арифметической форме алгоритма для CPU!
То есть криптоанализ ты похоже даже не знаешь как выглядит, и даже не видел исходных функций для него)

Есть класс арифметических кодов(про которые ты похоже не слышал, а я это прекрасно понимаю) и тп - вот их
может быть и можно задать сразу алгоритмом, хз. Но не SHA это точно - потому что у него вся база и исходная
математика описана именно в логических битовых функциях!..

То есть совершенно не важно что существует ускоренный алгоритм его расчета на CPU - это побочный отход оптимизации,
и никто сам этот алгоритм ковырять не будет. Для анализа надо смотреть именно исходную форму(а она побитовая - сюрприз)
этой функции тк под этот класс схем и создавалась вся математика и доказательства его устойчивости...

Хоть ты и непроходимый тупица,
но попытаюсь тебе втемяшить главное отличие от твоих crc-подобных схем - в "твоих" схемах на каждом такте изменение конкретных бит зависит от малого количества других бит. Например в одноканалке каждый бит зависит только от одного соседнего, и только один (первый или последний) от каких-то нескольких бит (обратной связи). Эти схемы очень легко реализуются на простой логической схемотехнике.

как самокритично Wink

А ничего что в аппаратной схеме лог. элемент можно воткнуть хоть перед каждым триггером,
и можно хоть вообще все биты всего 256/512 бит регистра поменять за 1 такт?.. (сюрприз1? Wink

)

А ничего что если внимательно посмотреть на схему SHA, там окажеться всего 2 отводки? (точнее подводки Wink

)

Просто в алгоритме для CPU там за один проход пытаются сразу считать несколько битов - коли уж АЛУ CPU универсальное,
то почему бы не использовать все биты и не считать по 32 бита за раз.

То есть, один цикл оптимизированного алгоритма экв. 8-32 тактам последовательной схемы.
(но ковырять сам этот алготм довольно глупо - он уже в другой базе и у него другая математика, исходный битовый проще)

То есть, на каждом бите данных регистр может изменяться всего в паре мест - но после 32 битов эти изменения
распостраняются уже довольно далеко - потому тебе и кажеться что там лавинный эффект очень большой,
хотя этого нет. (и кстати по секрету скажу что если отводок сделать больше, то взломать его будет легче)

В современных же компьютерных криптоалгоритмах давно ушли от таких схем. Именно для того, чтобы усложнить построение специализированных крипто- акселераторов. В SHA2 - в том числе. В SHA2 есть биты, зависящие одновременно от более чем 60 входных бит даже после всех упрощений и оптимизаций. На обычной логике никакая неимоверная оптимизация эту схему упростить не может. Это принципиально и никак не зависит от твоей личной безграмотности и жопа-чувств. Если вдруг, ты "жопой чуешь", что здесь есть поле для оптимизации - чувствуй это втихаря, или доказывай (аргументируй) свой жопа-бред.

просто ты не понимаешь что один проход алгоритма для CPU экв. 32 проходам битового алгоритма.
(но базовый исходный которым описан SHA - именно битовый, это без вариантов, и вся математика под него)

То есть ты видешь результат от f(f(f(...f(x) ))) (32 раза - иногда в подобных математиках это записывают как 32 степень)
многократного применения этой функции за один вызов подпрограммы оптимизированного под CPU алгоритма, вот и все.
И думаешь что там что-то сложное - нифига просто это экв многократному вызову 1-бит функции, и там всего пара отводок,
ну а входы вообще никого не волнуют - это всего экв. 1 слою элементов от универсального АЛУ, который ты идиот
реализовал в своей fpga, тупо не думая взяв и перенеся преобразованный и оптимизированный алгоритм под CPU с мощным
универсальным АЛУ. Кстати один тока этот универсальный АЛУ занимает ячеек в десятки раз больше всего ядра
последовательного майнера...

Vladimir
PS возможно что на старших fpga(где уже есть целые готовые блоки АЛУ, RAM и тп) разницы особой не будет(но в asic
все немного иначе - там никто не заставляет лепить не нужные универсальные блоки), но ты все равно полный лох тк думаешь
что для аппаратного майнера нужна только большая матрица fpga - а это далеко не так тк несколько последовательных
ядер можно всунуть в любую маленькую матрицу, что учитывая халявность старого хлама все равно выгодно,
хоть и не бьет рекорды по пиковой производительности(что и не нужно для майна - важна тока цена 1 MH/s)...

tvv

legendary

Activity: 1302

Merit: 1005

Типа для тебя логика с 60 входами диковинка и предел сложности?

А ты хоть знаешь что для АЛУ нужно порядка N**2 элементов?

То есть для логики с 60 входами нужно 60-100 лог. элементов всего,
а для АЛУ 32 бит порядка 1000, причем с гораздо более сложной логикой!

Доходит?..

PS c VDHL справились вполне так себе весьма средненькие инженеры,
или как ты думаешь почему мне самому не пришлось читать даташиты?..

PPS счас если дойдут руки до форума по программированию,
можно будет провести натурный эксперимент за сколько школьник освоит VHDL.
Тока я потом за твое ЧСВ не отвечаю Wink

SHawk

sr. member

Activity: 658

Merit: 250

Quote

зря сомневаешься - разбираться с этими каракулями обычно сложнее чем переписать сразу как надо,
аккуратно написанных проектов единицы.

я сомневаюсь не в чьих-то каракулях (которых повидал немало и всегда мог в них разобраться, в отличии от тебя), а сомневаюсь я в твоих способностях что бы то ни было написать самостоятельно...

Quote

Я и с математикой особо не церемонюсь - все что надо предпочитаю выводить сам.

Голословно. Что ты за последний месяц/год вывел сам?

Quote

ни одного не видел - секрет фирмы-с...

то, что ты не умеешь читать даташиты уже давно понятно. Но из этого не следует, что это "секрет фирмы-с" - это только твой "секрет"...

Quote

VHDL мало чем отличается от любого другого языка - в принципе его можно с равным успехом преподавать даже в школе, вместо бейсика, так что в принципе любой школьник может сделать то-же самое...

Спорим, у тебя пальцев на руках больше, чем человек на этом форуме, способных это сделать (включая и ветки на других языках)? Так что свои "в принципе" оставь при себе.

Quote

А схема там предельно простая - похожа на CRC схемы, тока в отводках от регистра часть XOR заменена другими для придания нелинейности, вот и все.

Если ты знаешь одну единственную схему на сдвиговом регистре с обратной связью и отводами, это еще не значит, что весь мир на ней построен. Расширь свой кругозор. Почитай учебники.
SHA НЕ ОПИСЫВАЕТСЯ схемой, которая "похожа на CRC".

Хоть ты и непроходимый тупица, но попытаюсь тебе втемяшить главное отличие от твоих crc-подобных схем - в "твоих" схемах на каждом такте изменение конкретных бит зависит от малого количества других бит. Например в одноканалке каждый бит зависит только от одного соседнего, и только один (первый или последний) от каких-то нескольких бит (обратной связи). Эти схемы очень легко реализуются на простой логической схемотехнике.
В современных же компьютерных криптоалгоритмах давно ушли от таких схем. Именно для того, чтобы усложнить построение специализированных крипто- акселераторов. В SHA2 - в том числе. В SHA2 есть биты, зависящие одновременно от более чем 60 входных бит даже после всех упрощений и оптимизаций. На обычной логике никакая неимоверная оптимизация эту схему упростить не может. Это принципиально и никак не зависит от твоей личной безграмотности и жопа-чувств. Если вдруг, ты "жопой чуешь", что здесь есть поле для оптимизации - чувствуй это втихаря, или доказывай (аргументируй) свой жопа-бред.

naima53

hero member

Activity: 616

Merit: 502

ТВВ, где мой психпортрет? Grin

или это была просто разведка... Undecided

tvv

legendary

Activity: 1302

Merit: 1005

Это ж ты не о себе писал? Сомневаюсь, что ты хоть что-то можешь написать быстрее, чем найти в сети готовое...

зря сомневаешься - разбираться с этими каракулями обычно сложнее чем переписать сразу как надо,
аккуратно написанных проектов единицы.

Я и с математикой особо не церемонюсь - все что надо предпочитаю выводить сам.
(потому и не помню имен тех балбесов чьими именами названы теоремы и функции - а тебя судя по всему это ставит в полный тупик тк ничего кроме названий ты похоже в школе не учил и сути не понимаешь)

Бред. Все fpga-шные фирмы дают описания на свои чипы.

ни одного не видел - секрет фирмы-с...

Что блин меня напрягает - мне конечно пофиг как они свои проблемы решали, но например при отладке хотелось бы осциллом и hex-редактором видеть и понимать какой бит конфигурации чего означает и где может глючить...

Что значит "чуть серьезнее"? Объясни, плиз.
Я полностью написал майнер под fpga, полностью написал к нему интерфейсную часть для компьютера, полностью написал софт, работающий с сетью.
В результате майню на всем своем. Ты знаешь тех, кто "чуть серьезнее"?

VHDL мало чем отличается от любого другого языка - в принципе его можно с равным успехом преподавать даже в школе, вместо бейсика, так что в принципе любой школьник может сделать то-же самое...
(и кстати там синтаксис от Ады взят, то есть я в принципе могу на нем сразу писать даже не читая документации)

В "fpga" в которых "надо 2 ячейки на триггер" SHA256 не влезет и они, кстати, cpld называются - термин fpga к ним неприменим. Во ВСЕХ пригодных для майнинга fpga полный триггер встроен в каждую ячейку.

вот и я про то-же - на каждый элемент там много всякой фигни лишней + коммутатор,
так что КПД использования кремния ниже плинтуса.