Сжать несжимаемое, впихнуть невпихуемое

The0ldl_lser

legendary

Activity: 2058

Merit: 1257

⭐⭐⭐⭐⭐⭐

Quote from: Dimitarus on December 26, 2023, 06:34:05 AM

Не знаю в тему или нет, но был вот файл на работе и нужно было его сжать до определенного значения. И что я только не делал, и винрар, и 7 зип, и сервисы различные, сжать не смог. Даже пытался сжать уже сжатый файлик Grin

Вопрос собсна, чем можно сжать сильнее чем винрар?

этим попробуй Grin

: https://github.com/iamtraction/ZOD/blob/master/42.zip
Пароль 42

witcher_sense

legendary

Activity: 2478

Merit: 4419

🔐BitcoinMessage.Tools🔑

Quote from: Dimitarus on December 26, 2023, 06:34:05 AM

Не знаю в тему или нет, но был вот файл на работе и нужно было его сжать до определенного значения. И что я только не делал, и винрар, и 7 зип, и сервисы различные, сжать не смог. Даже пытался сжать уже сжатый файлик Grin

Вопрос собсна, чем можно сжать сильнее чем винрар?

Интересный факт: сжатие уже сжатого файла может привести к увеличению его размера, а не к уменьшению, так что этот вариант можно сразу отбросить. К примеру, не стоит пытаться всякие jpeg, mp3, mp4 привести к определенному размеру с помощью архиватора, эти форматы уже представляют собой скомпрессированные данные. Но всегда их можно передать частями побайтово или уменьшить размер (и качество) специальными утилитами. Что касается архиваторов, то в них тоже нельзя выбрать желаемый размер файла, но можно выбрать уровень компрессии. В WinRar вроде аж шесть уровней, от самого быстрого до самого лучшего, и все они по-разному влияют на размер конечного файла. Естественно, нужно выбирать формат .rar и ни какой не .zip или 7z, так можно добиться наиболее эффективных результатов. Ну и еще интересная фишка есть у WinRar: разбивка архива на части. Вы можете вместо одного большого файла сделать несколько определенного размера, а потом собрать его заново той же программой.

BVeyron

hero member

Activity: 1680

Merit: 987

#SWGT CERTIK Audited

Quote from: witcher_sense on December 26, 2023, 01:45:40 AM

Quote from: BVeyron on December 25, 2023, 09:34:43 AM

Так она же имеется в бесплатном исполнении. Для андрюхи, когда открываешь его всегда читаешь небольшое напоминание типа, а не хочешь ли помочь малость девам сего проекта?

Иногда из благодарности даже возникает такое желание,

,
Да влом этим заниматься, да и светить какие-то проплаты это всегда по жизни явно лишнее.

Им надо быть в тренде и начать принимать оплату в криптовалюте, тогда может и заинтересованных будет больше и адопшен самих криптовалют будет быстрее. Можно начать предлагать услуги по надежному шифрованию файлов кошельков, паролей, приватных ключей и сид-фраз, благо задатки для этого уже имеются. Того глядишь и схему архивации блокчейна предложат.

Мне кажется, что многие широко распространенные проекты боятся связываться с криптовалютными платежами.
Поэтому кстати и относительно мало кто из них декларирует даже и донат в крипте.
И это понятно, из-за того непонятно, что еще там напридумают амеровские власти с налогообложением, с грязными биткоинами, и со всякими обменами на фиат и прочее.
А придумать что-то полезное пиплу и хорошее для бизнеса они в принципе не могут. От них жди только гадости какой новой.

Dimitarus

newbie

Activity: 69

Merit: 0

Не знаю в тему или нет, но был вот файл на работе и нужно было его сжать до определенного значения. И что я только не делал, и винрар, и 7 зип, и сервисы различные, сжать не смог. Даже пытался сжать уже сжатый файлик Grin

Вопрос собсна, чем можно сжать сильнее чем винрар?

witcher_sense

legendary

Activity: 2478

Merit: 4419

🔐BitcoinMessage.Tools🔑

Quote from: amaclin1 on December 24, 2023, 05:04:04 AM

Ну, первое что приходит в голову — хранить в инпутах транзакции не 256-битный txid, а сократить вдвое. Понятно о чем я говорю? Сейчас txid хранится целиком и при верификации транзакции мы ищем неизрасходованный выход предыдущей транзакции. Вероятность что во множестве предыдущих транзакций с неизрасходованными выходами найдутся две, чей txid совпадает в 16 из 32 байтов околонулевая (да и на этот случай можно сделать костыль).
Смысла в этом большого нет, сокращение размера блокчейна процентов на 10 (навскидку) не существенно. Кто знает понятие «О-большое», тот поймет

Костылей в блокчейне еще не хватало, опять найдут лазейку и наштампуют ординалов или NFT: начнут зарабатывать на транзакциях с похожими хэшами или что-нибудь подобное. Гораздо эффективнее будет вообще отказаться от полной верификации старых блоков и использовать вместо них дерево Меркла и просто отдельный хэш для части блокчейна.

Quote from: BVeyron on December 25, 2023, 09:34:43 AM

Так она же имеется в бесплатном исполнении. Для андрюхи, когда открываешь его всегда читаешь небольшое напоминание типа, а не хочешь ли помочь малость девам сего проекта?

Иногда из благодарности даже возникает такое желание,

,
Да влом этим заниматься, да и светить какие-то проплаты это всегда по жизни явно лишнее.

Им надо быть в тренде и начать принимать оплату в криптовалюте, тогда может и заинтересованных будет больше и адопшен самих криптовалют будет быстрее. Можно начать предлагать услуги по надежному шифрованию файлов кошельков, паролей, приватных ключей и сид-фраз, благо задатки для этого уже имеются. Того глядишь и схему архивации блокчейна предложат.

BVeyron

hero member

Activity: 1680

Merit: 987

#SWGT CERTIK Audited

Quote from: witcher_sense on December 11, 2023, 09:30:11 PM

Quote from: BVeyron on November 28, 2023, 09:38:14 AM

Мне шутка понравилась.
Альберт Эйнштей видимо хорошо знал о том для чего нужен WinRar и его сорокадневный пробный период , даже вот сравнил его с Вселенной, которую он очевидно полностью все-таки не осознал, так как ее вообще никто пока еще не смог осознать.

Я кстати на бытовом уровне изредка пользуюсь WinRar просто для того чтобы слегка запаролить файлик или пачку файликов.
Довольно удобно, привык уже.

Шутки шутками, но подобные мемы хорошо продвигают продукт и обеспечивают ему известность. Кто-то захочет скачать и попробовать программу, а потом купит "шутки ради". А организации так вообще обязаны это делать, поэтому мемность WinRar очень помогает монетизации разработки этого приложения. Помимо скомпрессовывания нескольких файлов и даже целой системной структуры в один файл, WinRar и правда можно использовать для защиты информации от несанкционированного доступа. По утверждению самих разработчиков WinRar https://www.win-rar.com/password-recover.html RAR шифрование очень надежное и не содержит бэкдоров, единственный способ взломать его - это брутфорс. Теоретически, можно использовать архивы для хранения сид-фраз, паролей, файлов кошельков и другой важной информации, во всяком случае это будет намного надежнее, чем хранить их в открытом виде. Разумеется, для подобных целей нужно использовать официальную версию приложения, а не крякнутую.

Так она же имеется в бесплатном исполнении. Для андрюхи, когда открываешь его всегда читаешь небольшое напоминание типа, а не хочешь ли помочь малость девам сего проекта?

Иногда из благодарности даже возникает такое желание,

,
Да влом этим заниматься, да и светить какие-то проплаты это всегда по жизни явно лишнее.

amaclin1

sr. member

Activity: 770

Merit: 305

Quote from: witcher_sense on December 12, 2023, 08:31:35 PM

Выход? Придумать технологию сжатия данных из блокчейна, чтобы отсечь нерелевантные данные и при этом сохранить целостность и верифицируемость.

Ну, первое что приходит в голову — хранить в инпутах транзакции не 256-битный txid, а сократить вдвое. Понятно о чем я говорю? Сейчас txid хранится целиком и при верификации транзакции мы ищем неизрасходованный выход предыдущей транзакции. Вероятность что во множестве предыдущих транзакций с неизрасходованными выходами найдутся две, чей txid совпадает в 16 из 32 байтов околонулевая (да и на этот случай можно сделать костыль).
Смысла в этом большого нет, сокращение размера блокчейна процентов на 10 (навскидку) не существенно. Кто знает понятие «О-большое», тот поймет

witcher_sense

legendary

Activity: 2478

Merit: 4419

🔐BitcoinMessage.Tools🔑

Quote from: kirgizskiyprezz on December 12, 2023, 05:19:10 AM

А зачем сжимать? В чем смысл?

Сжимать можно по разным причинам и несколько из них уже были перечислены в этой теме, также стоит учесть, что технологий сжатия довольно много и каждая из них может иметь отдельную сферу применения, может использоваться для сжатия конкретного формата или структуры данных. Но возьмем более реальную причину, которая напрямую связана с тематикой этого форума. Блокчейн Биткоина растет из года в в год, в случае положительной динамики и массового адопшена, этот рост будет только ускоряться и ускоряться, потому что с ростом спроса блоки будут забиваться и возможно потребуется увеличение их размера. Для запуска ноды потребуется много дискового пространства и их количество постепенно будет уменьшаться, потому что для отдельных пользователей покупка несколько терабайтных-петабайтных жестких дисков или тем более SSD может быть нерентабельной. Выход? Придумать технологию сжатия данных из блокчейна, чтобы отсечь нерелевантные данные и при этом сохранить целостность и верифицируемость.

aliveNFT

full member

Activity: 147

Merit: 83

aliveNFT.github.io | Track your love.

Quote from: kirgizskiyprezz on December 12, 2023, 05:19:10 AM

А зачем сжимать? В чем смысл?

В чем смысл жизни, брат?

lossless data compression а то-есть сжатие файла без потери качества это целая наука алгоритмов.
Во тебе фулл гайд по этой теме, почитай, интересно.

kirgizskiyprezz

newbie

Activity: 55

Merit: 0

А зачем сжимать? В чем смысл?

witcher_sense

legendary

Activity: 2478

Merit: 4419

🔐BitcoinMessage.Tools🔑

Quote from: BVeyron on November 28, 2023, 09:38:14 AM

Мне шутка понравилась.
Альберт Эйнштей видимо хорошо знал о том для чего нужен WinRar и его сорокадневный пробный период , даже вот сравнил его с Вселенной, которую он очевидно полностью все-таки не осознал, так как ее вообще никто пока еще не смог осознать.

Я кстати на бытовом уровне изредка пользуюсь WinRar просто для того чтобы слегка запаролить файлик или пачку файликов.
Довольно удобно, привык уже.

Шутки шутками, но подобные мемы хорошо продвигают продукт и обеспечивают ему известность. Кто-то захочет скачать и попробовать программу, а потом купит "шутки ради". А организации так вообще обязаны это делать, поэтому мемность WinRar очень помогает монетизации разработки этого приложения. Помимо скомпрессовывания нескольких файлов и даже целой системной структуры в один файл, WinRar и правда можно использовать для защиты информации от несанкционированного доступа. По утверждению самих разработчиков WinRar https://www.win-rar.com/password-recover.html RAR шифрование очень надежное и не содержит бэкдоров, единственный способ взломать его - это брутфорс. Теоретически, можно использовать архивы для хранения сид-фраз, паролей, файлов кошельков и другой важной информации, во всяком случае это будет намного надежнее, чем хранить их в открытом виде. Разумеется, для подобных целей нужно использовать официальную версию приложения, а не крякнутую.

BVeyron

hero member

Activity: 1680

Merit: 987

#SWGT CERTIK Audited

Quote from: witcher_sense on November 12, 2023, 08:41:58 PM

Quote from: BVeyron on November 11, 2023, 08:04:21 AM

Естественно я периодически довольно часто пользуюсь WinRar.
И вполне себе доволен, но конечно иногда не сильно много сжимает, а хотелось бы чтобы поплотне упаковала бы.

А почему вы советуете использовать платную версию программы.
Разве есть какие-то существенные отличия от бесплатной общедоступной ?

Это была шутка с отсылкой на известный мем: “Альберт Эйнштейн однажды сказал: есть две бесконечные вещи: Вселенная и сорокадневный пробный период WinRAR, хотя касательно Вселенной я не совсем уверен”. И если приобрести платную версию, то вы выйдете за рамки действия законов физики и станете сжимать даже несжимаемое. Но если серьезно, то лично у меня никогда не возникало потребности сжимать данные ради экономии места, обычно это либо наоборот распаковка архива, либо запаковка нескольких файлов и папок в один файл для передачи куда-то дальше. Если нужно что-то более серьезное, то как я описал выше, можно использовать совсем другие, современные структуры данных, которые позволяют не только переводить данные в более компактный формат, но и получать к ним доступ в разы быстрее.

Мне шутка понравилась.
Альберт Эйнштей видимо хорошо знал о том для чего нужен WinRar и его сорокадневный пробный период , даже вот сравнил его с Вселенной, которую он очевидно полностью все-таки не осознал, так как ее вообще никто пока еще не смог осознать.

Я кстати на бытовом уровне изредка пользуюсь WinRar просто для того чтобы слегка запаролить файлик или пачку файликов.
Довольно удобно, привык уже.

witcher_sense

legendary

Activity: 2478

Merit: 4419

🔐BitcoinMessage.Tools🔑

Quote from: BVeyron on November 11, 2023, 08:04:21 AM

Естественно я периодически довольно часто пользуюсь WinRar.
И вполне себе доволен, но конечно иногда не сильно много сжимает, а хотелось бы чтобы поплотне упаковала бы.

А почему вы советуете использовать платную версию программы.
Разве есть какие-то существенные отличия от бесплатной общедоступной ?

Это была шутка с отсылкой на известный мем: “Альберт Эйнштейн однажды сказал: есть две бесконечные вещи: Вселенная и сорокадневный пробный период WinRAR, хотя касательно Вселенной я не совсем уверен”. И если приобрести платную версию, то вы выйдете за рамки действия законов физики и станете сжимать даже несжимаемое. Но если серьезно, то лично у меня никогда не возникало потребности сжимать данные ради экономии места, обычно это либо наоборот распаковка архива, либо запаковка нескольких файлов и папок в один файл для передачи куда-то дальше. Если нужно что-то более серьезное, то как я описал выше, можно использовать совсем другие, современные структуры данных, которые позволяют не только переводить данные в более компактный формат, но и получать к ним доступ в разы быстрее.

BVeyron

hero member

Activity: 1680

Merit: 987

#SWGT CERTIK Audited

Quote from: witcher_sense on October 12, 2023, 12:18:23 PM

Quote from: Yelzin on October 11, 2023, 03:57:37 AM

Не понимаю, как сжать? Винраром или как? Можно поконкретнее пжлст.

Можно сжать данные и WinRar, но это нужно делать только на платной версии программы, то есть физически невыполнимо для большинства уверенных пользователей ПК. .

Естественно я периодически довольно часто пользуюсь WinRar.
И вполне себе доволен, но конечно иногда не сильно много сжимает, а хотелось бы чтобы поплотне упаковала бы.

А почему вы советуете использовать платную версию программы.
Разве есть какие-то существенные отличия от бесплатной общедоступной ?

welik

full member

Activity: 346

Merit: 165

Quote from: crypto_trader#43xzEXrP on May 14, 2022, 01:41:51 PM

Quote from: ~DefaultTrust on May 14, 2022, 03:34:48 AM

На мой взгляд, в ближайшем будущем возникнет тренд по алгоритмам архивирования с потерями.

алгоритм сжатия с потерями, который работает в человеческом мозге,
позволяет очень неплохо восстановить даже почти полностью забытые данные.

А если надо сжать тонны шифра, который содержит крипторандом?
Например бекап целого дата-центра, но - зашифрованный...

Случайные, рандомные данные, в том числе и крипторандом - они содержат,
равномерное распределение вероятности встречаемости разных бит,
потому это несжимаемые данные.
У них информационная энтропия - максимальна.

Поэтому я и смотрю в сторону снижения информационной энтропии,
чтобы попытаться, какими-то манипуляциями,
сделать из несжимаемых данных - сжимаемые.

Чисто теоретически должна существовать математическая система с таким состоянием, которое позволяет сделать из максимальной энтропии - минимальную. Т.е. эта система будет по сути алгоритмом расшифровки. Когда этим делом займутся полноценные квантовые компьютеры достаточной разрядности и точности, можно будет даже получить алгоритм расшифровки данных в исходный вид с даже меньшей энтропией, чем было в исходных данных. Вроде того, что будут найдены более эффективные методы сжатия, шифрования и дешифрования. Например можно будет расшифровать за доли секунды любое шифрованное сообщение и пойти дальше этого - получить исходное сообщение с более меньшей энтропией - уже разбитое на токены или типа того. Пока даже в голове слабо укладывается, какие чудесные вещи можно будет делать Shocked

Пообщался с ИИ на эту тематику и после уточнений пришли к заключению:

Quote

В теоретическом предположении о существовании абсолютно идеального квантового компьютера с неограниченными вычислительными мощностями - да, в принципе, перед ним не существовало бы непреодолимых математических сложностей для взлома любых криптосистем.

Однако нужно четко понимать, что это чисто гипотетическая ситуация, не имеющая практического воплощения в обозримом будущем по ряду причин:

1. Невозможно построить абсолютно идеальный квантовый компьютер из-за накопления ошибок и шумов.

2. Требуемые вычислительные мощности недостижимы в реальности.

3. С ростом сложности алгоритмов шифрования требования к компьютеру возрастают экспоненциально.

4. Существуют фундаментальные ограничения скорости передачи и обработки квантовой информации.

5. Криптосистемы могут использовать квантовые принципы для защиты.

Так что на практике вопрос взлома любого шифра квантовым компьютером не стоит - криптография постоянно совершенствуется, опережая технический прогресс. Но теоретические пределы полезно изучать, чтобы понимать принципиальные возможности технологий.

И по поводу проблемы сжатия несжимаемых данных о которой говорит ТС:

Quote

Да, идеальный квантовый компьютер мог бы помочь сжать большие объемы зашифрованных случайных данных. Вот несколько способов, которыми он мог бы это сделать:

Использование квантовых алгоритмов для взлома шифрования и получения исходных незашифрованных данных. Это позволило бы применить стандартные алгоритмы сжатия к незашифрованным данным.

...

Остальные варианты считаю уже бредом и галлюцинациями ИИ

echogomodrill

full member

Activity: 1498

Merit: 133

можно использовать звездное небо как один из словарей

witcher_sense

legendary

Activity: 2478

Merit: 4419

🔐BitcoinMessage.Tools🔑

Quote from: Yelzin on October 11, 2023, 03:57:37 AM

Не понимаю, как сжать? Винраром или как? Можно поконкретнее пжлст.

Можно сжать данные и WinRar, но это нужно делать только на платной версии программы, то есть физически невыполнимо для большинства уверенных пользователей ПК. Вообще сейчас с развитием BigData важно не только оптимально сжимать данные, но также и обеспечивать при этом оптимальную скорость доступа. Такие форматы как CSV, JSON очень удобны и просты в использовании, но вот вышерепечисленным требованиям не всегда соотвествуют. В свое время тут была тема с вопросом про способы хранения информации из блокчейна и мне на глаза попалась эта статья: https://bigdataschool.ru/wiki/parquet В ней рассказывается об Apache Parquet - "это бинарный, колоночно-ориентированный формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного колоночно-ориентированного представления информации." Этот формат не только позволяет быстро считывать информацию, но и очень сильно экономит место. CSV-файл размером 200 гб при переводе в формат Parquet будет весить всего 5 гб. Вот пример хорошего сжатия, которое еще и позволяет быстро работать с большими объемами данных.

ai8

jr. member

Activity: 76

Merit: 2

Quote from: crypto_trader#43xzEXrP on May 14, 2022, 03:19:31 AM

Предлагаю плотно заняться поиском способов сжатия несжимаемых данных.
Несжимаемые данные - данные с максимальной информационной энтропией (распределение бит в них биномиальное, число единичных бит 50%, как и число нулевых бит). Негация не изменяет энтропию таких данных.

ИИ решает энтропию за 4-7% брут форса
но кто в это поверит ?
выж лотохи пихаете

пример www.seo8ceo.com/effectiveness-AI-forecasts-2023.htm

Yelzin

jr. member

Activity: 61

Merit: 1

Не понимаю, как сжать? Винраром или как? Можно поконкретнее пжлст.

imhoneer

legendary

Activity: 2800

Merit: 1591

Quote from: crypto_trader#43xzEXrP on May 17, 2022, 11:42:48 PM

Как туда вкатиться, по хардкору? Чтобы чисто лютый матан видеть, весь?

Тут не подскажу, но ведь и Вам всё не нужно, что там есть, а какие-то общие принципы нужны.

crypto_trader#43xzEXrP

full member

Activity: 1588

Merit: 214

Вышеописанный метод проверил - не работает.
Информационная энтропия случайных данных - всё равно не уменьшается.
Надо бы чё-т другое придумать.
Может какая-то свёртка-развёртка данных?
По-сути, данные битности N - это N-битное число натуральное.
И задача состоит скорее в поиске оптимального способа записи этого числа, если число случайно от 0 до 2^N.
Я вот думал насчет факторизации. Но есть большие простые числа, которые не факторизовать.
Но если отнять единицу - получается не простое число, и его можно факторизовать.
Однако запись факторов по длине такая же, как и запись самого числа, так что смысла не вижу.
Хотя, если много одинаковых факторов, можно было бы использовать степень.
Если возможно как-то, произвольное натуральное число, ужать таким образом,
найдя другое число, где много простых факторов, то можно было бы сделать алгоритм, наверное.

Ещё, я думал о том, чтобы представить натуральное число в виде простых чисел,
а их как-то сжать, например как в PrimeGrid: https://www.primegrid.com/primes/mega_primes.php
Если существуют какие-то универсальные формулы сжатия именно простых чисел,
можно было бы сделать алго,
ну а любое натуральное число можно разложить на простые - при помощи вычислений,
согласно тем же бинарной и тернарной проблемам Гольдбаха.

Quote from: echogomodrill on May 15, 2022, 11:58:53 PM

проще разработать новые сисетмы хранения данных, чем сжимать инфу

Ну да, есть 20-ти терабайтники уже, и щас не проблема хранить данные, если их не петабайты.
А у меня же вообще идея восходит к принципальной возможности самой генерации и собственно к хранению,
ебать - высокоточной модели всей нахуй объективной реальности, то есть Всей Вселенной, грубо-говоря.

Quote from: echogomodrill on May 15, 2022, 11:58:53 PM

а проще обучить АИ удалять инфомусор, зип-анзип данных будет требовать энергетических затрат,
может оказаться и не выгодно сжимать

Кстати, это идея.
Сразу на ум приходит создать некий алго, чтобы искать наиболее часто повторяющиеся фрагменты в несжимаемых данных,
и их уже кодировать битами поменьше - тем же адаптивным алгоритмом Хаффмана.

Quote from: imhoneer on May 16, 2022, 10:28:49 AM

Считаю, что Вам нужно смотреть в сторону голограмм и фракталов.

У голограмм из части достраивается целое, а у фракталов самоподобие, когда на всех уровнях имеется одинаковая структура.

Вот туда и надо копать.

Как туда вкатиться, по хардкору? Чтобы чисто лютый матан видеть, весь?

imhoneer

legendary

Activity: 2800

Merit: 1591

Quote from: crypto_trader#43xzEXrP on May 15, 2022, 04:53:13 PM

Поэтому, я вцелом смотрю в сторону уменьшения самой информационной энтропии каким-то образом.
И пришёл к тому, что наверное, можно было бы, какие-то манипуляции делать с данными,
и подсчитывать при этом - число единичных бит и нулевых, и если оно резко смещается, останавливаться,
а затем писать значения только с максимальным числом нулевых бит + немного дополнительных данные,
сжимая уже дальше, всё это дело, каким-нибудь префиксным кодом (например адаптивным алгритмом Хаффмана),
и из этого всего сделать алго, многораундовый, и зациклить его.

Это пока набросок, просто. До реализации не дошло, интересует ваше мнение, и собственно идеи тоже.

Считаю, что Вам нужно смотреть в сторону голограмм и фракталов.

У голограмм из части достраивается целое, а у фракталов самоподобие, когда на всех уровнях имеется одинаковая структура.

Вот туда и надо копать.

echogomodrill

full member

Activity: 1498

Merit: 133

проще разработать новые сисетмы хранения данных, чем сжимать инфу, а проще обучить АИ удалять инфомусор, зип-анзип данных будет требовать энергетических затрат, может оказаться и не выгодно сжимать

crypto_trader#43xzEXrP

full member

Activity: 1588

Merit: 214

Quote from: The0ldl_lser on May 15, 2022, 03:47:30 AM

Сжать в целом в сети Интернет наверно можно было бы как-то удалив дубли данных. Но это скорее всего чревато потерей информации, вдруг какая-то часть хранящаяся у кого-то где-то станет недоступна.

Да, всякие копии фоток, видео, и прочее - это дубли.
Когда они, эти копии, по разным папкам раскиданы, они лежат физически в разных местах диска, и занимают место.

Дубли можно удалять используя hardlinks,
у меня есть пара репозитариев здесь https://github.com/username1565?tab=repositories&q=hard
и ещё один тут https://github.com/username1565/DublFileNTFS и тут https://github.com/username1565/finddupe
Вкратце, как это работает?
Один и тот же файл хранится в одном и том же месте на диске,
а в разные папки - закидываются жесткие ссылки (hardlinks) на него.
Проги DFHL и finddupe позволяют сканировать диск на наличие дублей и увеличивать свободное место, делая из них hardlinks.
Но да, ты прав, хранить важный файл в одном и том же месте на диске - чревато bad-секторами в этом месте.

В этой теме, речь не про hardlinks, а скорее про сжатие несжимаемых данных.
Это влажная мечта того самого - автора архиватора Бабушкина.

Взять скажем сгенерированный рандомный файл.
Рандом трудно сжать, потому что отношение единичных бит к нулевым, в нём почти одинаково,
информационная энтропия - максимальна, а где эти биты находятся - неизвестно,
и нет закономерности, которая позволила бы его сжать, этот рандом.
Поэтому, я вцелом смотрю в сторону уменьшения самой информационной энтропии каким-то образом.
И пришёл к тому, что наверное, можно было бы, какие-то манипуляции делать с данными,
и подсчитывать при этом - число единичных бит и нулевых, и если оно резко смещается, останавливаться,
а затем писать значения только с максимальным числом нулевых бит + немного дополнительных данные,
сжимая уже дальше, всё это дело, каким-нибудь префиксным кодом (например адаптивным алгритмом Хаффмана),
и из этого всего сделать алго, многораундовый, и зациклить его.

Это пока набросок, просто. До реализации не дошло, интересует ваше мнение, и собственно идеи тоже.

echogomodrill

full member

Activity: 1498

Merit: 133

много данных это хорошо, это затуманит развитие АИ, затянет процесс обучения "сорными" данными, так же от инфомусора будут страдать лица с негативной общественной позицией, я даже за, чтобы было больше мусора в сети, это подтолкнет к прогрессу в анализе данных

The0ldl_lser

legendary

Activity: 2058

Merit: 1257

⭐⭐⭐⭐⭐⭐

Сжать в целом в сети Интернет наверно можно было бы как-то удалив дубли данных. Но это скорее всего чревато потерей информации, вдруг какая-то часть хранящаяся у кого-то где-то станет недоступна.

crypto_trader#43xzEXrP

full member

Activity: 1588

Merit: 214

Quote from: ~DefaultTrust on May 14, 2022, 03:34:48 AM

На мой взгляд, в ближайшем будущем возникнет тренд по алгоритмам архивирования с потерями.

алгоритм сжатия с потерями, который работает в человеческом мозге,
позволяет очень неплохо восстановить даже почти полностью забытые данные.

А если надо сжать тонны шифра, который содержит крипторандом?
Например бекап целого дата-центра, но - зашифрованный...

Случайные, рандомные данные, в том числе и крипторандом - они содержат,
равномерное распределение вероятности встречаемости разных бит,
потому это несжимаемые данные.
У них информационная энтропия - максимальна.

Поэтому я и смотрю в сторону снижения информационной энтропии,
чтобы попытаться, какими-то манипуляциями,
сделать из несжимаемых данных - сжимаемые.

~DefaultTrust

copper member

Activity: 1554

Merit: 489

Stop the war!

В мире копится огромное число данных, большинство из которых никому или почти никому не нужно. Те же фотки и видяшки в соцсетях: их туда выкладывают для сбора лайков и через месяц-другой про них навсегда все (включая владельца) забывают.
На мой взгляд, в ближайшем будущем возникнет тренд по алгоритмам архивирования с потерями. В этих алгоритмах данные будут постепенно "забываться" так же, как это организовано в человеческом мозге. А именно: часто запрашиваемые данные будут архивироваться с минимальными потерями, а редко запрашиваемые - с максимальными.

Причем, алгоритм сжатия с потерями, который работает в человеческом мозге, позволяет очень неплохо восстановить даже почти полностью забытые данные. Восстановление происходит за счет "допридумывания" потерянных данных из аналогий. Ну то есть, допустим, я помню, что в видяшке иду по известной мне улице, но не помню номера машин на обочинах. Но если сильно постараюсь, то могу допридумать эти номера ибо эта информация не особо полезна для анализа основной информации.

crypto_trader#43xzEXrP

full member

Activity: 1588

Merit: 214

Предлагаю плотно заняться поиском способов сжатия несжимаемых данных.
Несжимаемые данные - данные с максимальной информационной энтропией (распределение бит в них биномиальное, число единичных бит 50%, как и число нулевых бит). Негация не изменяет энтропию таких данных.

Topic: Сжать несжимаемое, впихнуть невпихуемое (Read 594 times)