Сжать несжимаемое, впихнуть невпихуемое - page 2.

full member

Activity: 1588

Merit: 214

Вышеописанный метод проверил - не работает.
Информационная энтропия случайных данных - всё равно не уменьшается.
Надо бы чё-т другое придумать.
Может какая-то свёртка-развёртка данных?
По-сути, данные битности N - это N-битное число натуральное.
И задача состоит скорее в поиске оптимального способа записи этого числа, если число случайно от 0 до 2^N.
Я вот думал насчет факторизации. Но есть большие простые числа, которые не факторизовать.
Но если отнять единицу - получается не простое число, и его можно факторизовать.
Однако запись факторов по длине такая же, как и запись самого числа, так что смысла не вижу.
Хотя, если много одинаковых факторов, можно было бы использовать степень.
Если возможно как-то, произвольное натуральное число, ужать таким образом,
найдя другое число, где много простых факторов, то можно было бы сделать алгоритм, наверное.

Ещё, я думал о том, чтобы представить натуральное число в виде простых чисел,
а их как-то сжать, например как в PrimeGrid: https://www.primegrid.com/primes/mega_primes.php
Если существуют какие-то универсальные формулы сжатия именно простых чисел,
можно было бы сделать алго,
ну а любое натуральное число можно разложить на простые - при помощи вычислений,
согласно тем же бинарной и тернарной проблемам Гольдбаха.

Quote from: echogomodrill on May 15, 2022, 11:58:53 PM

проще разработать новые сисетмы хранения данных, чем сжимать инфу

Ну да, есть 20-ти терабайтники уже, и щас не проблема хранить данные, если их не петабайты.
А у меня же вообще идея восходит к принципальной возможности самой генерации и собственно к хранению,
ебать - высокоточной модели всей нахуй объективной реальности, то есть Всей Вселенной, грубо-говоря.

Quote from: echogomodrill on May 15, 2022, 11:58:53 PM

а проще обучить АИ удалять инфомусор, зип-анзип данных будет требовать энергетических затрат,
может оказаться и не выгодно сжимать

Кстати, это идея.
Сразу на ум приходит создать некий алго, чтобы искать наиболее часто повторяющиеся фрагменты в несжимаемых данных,
и их уже кодировать битами поменьше - тем же адаптивным алгоритмом Хаффмана.

Quote from: imhoneer on May 16, 2022, 10:28:49 AM

Считаю, что Вам нужно смотреть в сторону голограмм и фракталов.

У голограмм из части достраивается целое, а у фракталов самоподобие, когда на всех уровнях имеется одинаковая структура.

Вот туда и надо копать.

Как туда вкатиться, по хардкору? Чтобы чисто лютый матан видеть, весь?

imhoneer

legendary

Activity: 2800

Merit: 1591

Quote from: crypto_trader#43xzEXrP on May 15, 2022, 04:53:13 PM

Поэтому, я вцелом смотрю в сторону уменьшения самой информационной энтропии каким-то образом.
И пришёл к тому, что наверное, можно было бы, какие-то манипуляции делать с данными,
и подсчитывать при этом - число единичных бит и нулевых, и если оно резко смещается, останавливаться,
а затем писать значения только с максимальным числом нулевых бит + немного дополнительных данные,
сжимая уже дальше, всё это дело, каким-нибудь префиксным кодом (например адаптивным алгритмом Хаффмана),
и из этого всего сделать алго, многораундовый, и зациклить его.

Это пока набросок, просто. До реализации не дошло, интересует ваше мнение, и собственно идеи тоже.

Считаю, что Вам нужно смотреть в сторону голограмм и фракталов.

У голограмм из части достраивается целое, а у фракталов самоподобие, когда на всех уровнях имеется одинаковая структура.

Вот туда и надо копать.

echogomodrill

full member

Activity: 1498

Merit: 133

проще разработать новые сисетмы хранения данных, чем сжимать инфу, а проще обучить АИ удалять инфомусор, зип-анзип данных будет требовать энергетических затрат, может оказаться и не выгодно сжимать

crypto_trader#43xzEXrP

full member

Activity: 1588

Merit: 214

Quote from: The0ldl_lser on May 15, 2022, 03:47:30 AM

Сжать в целом в сети Интернет наверно можно было бы как-то удалив дубли данных. Но это скорее всего чревато потерей информации, вдруг какая-то часть хранящаяся у кого-то где-то станет недоступна.

Да, всякие копии фоток, видео, и прочее - это дубли.
Когда они, эти копии, по разным папкам раскиданы, они лежат физически в разных местах диска, и занимают место.

Дубли можно удалять используя hardlinks,
у меня есть пара репозитариев здесь https://github.com/username1565?tab=repositories&q=hard
и ещё один тут https://github.com/username1565/DublFileNTFS и тут https://github.com/username1565/finddupe
Вкратце, как это работает?
Один и тот же файл хранится в одном и том же месте на диске,
а в разные папки - закидываются жесткие ссылки (hardlinks) на него.
Проги DFHL и finddupe позволяют сканировать диск на наличие дублей и увеличивать свободное место, делая из них hardlinks.
Но да, ты прав, хранить важный файл в одном и том же месте на диске - чревато bad-секторами в этом месте.

В этой теме, речь не про hardlinks, а скорее про сжатие несжимаемых данных.
Это влажная мечта того самого - автора архиватора Бабушкина.

Взять скажем сгенерированный рандомный файл.
Рандом трудно сжать, потому что отношение единичных бит к нулевым, в нём почти одинаково,
информационная энтропия - максимальна, а где эти биты находятся - неизвестно,
и нет закономерности, которая позволила бы его сжать, этот рандом.
Поэтому, я вцелом смотрю в сторону уменьшения самой информационной энтропии каким-то образом.
И пришёл к тому, что наверное, можно было бы, какие-то манипуляции делать с данными,
и подсчитывать при этом - число единичных бит и нулевых, и если оно резко смещается, останавливаться,
а затем писать значения только с максимальным числом нулевых бит + немного дополнительных данные,
сжимая уже дальше, всё это дело, каким-нибудь префиксным кодом (например адаптивным алгритмом Хаффмана),
и из этого всего сделать алго, многораундовый, и зациклить его.

Это пока набросок, просто. До реализации не дошло, интересует ваше мнение, и собственно идеи тоже.

echogomodrill

full member

Activity: 1498

Merit: 133

много данных это хорошо, это затуманит развитие АИ, затянет процесс обучения "сорными" данными, так же от инфомусора будут страдать лица с негативной общественной позицией, я даже за, чтобы было больше мусора в сети, это подтолкнет к прогрессу в анализе данных

The0ldl_lser

legendary

Activity: 2058

Merit: 1257

⭐⭐⭐⭐⭐⭐

Сжать в целом в сети Интернет наверно можно было бы как-то удалив дубли данных. Но это скорее всего чревато потерей информации, вдруг какая-то часть хранящаяся у кого-то где-то станет недоступна.

crypto_trader#43xzEXrP

full member

Activity: 1588

Merit: 214

Quote from: ~DefaultTrust on May 14, 2022, 03:34:48 AM

На мой взгляд, в ближайшем будущем возникнет тренд по алгоритмам архивирования с потерями.

алгоритм сжатия с потерями, который работает в человеческом мозге,
позволяет очень неплохо восстановить даже почти полностью забытые данные.

А если надо сжать тонны шифра, который содержит крипторандом?
Например бекап целого дата-центра, но - зашифрованный...

Случайные, рандомные данные, в том числе и крипторандом - они содержат,
равномерное распределение вероятности встречаемости разных бит,
потому это несжимаемые данные.
У них информационная энтропия - максимальна.

Поэтому я и смотрю в сторону снижения информационной энтропии,
чтобы попытаться, какими-то манипуляциями,
сделать из несжимаемых данных - сжимаемые.

~DefaultTrust

copper member

Activity: 1554

Merit: 489

Stop the war!

В мире копится огромное число данных, большинство из которых никому или почти никому не нужно. Те же фотки и видяшки в соцсетях: их туда выкладывают для сбора лайков и через месяц-другой про них навсегда все (включая владельца) забывают.
На мой взгляд, в ближайшем будущем возникнет тренд по алгоритмам архивирования с потерями. В этих алгоритмах данные будут постепенно "забываться" так же, как это организовано в человеческом мозге. А именно: часто запрашиваемые данные будут архивироваться с минимальными потерями, а редко запрашиваемые - с максимальными.

Причем, алгоритм сжатия с потерями, который работает в человеческом мозге, позволяет очень неплохо восстановить даже почти полностью забытые данные. Восстановление происходит за счет "допридумывания" потерянных данных из аналогий. Ну то есть, допустим, я помню, что в видяшке иду по известной мне улице, но не помню номера машин на обочинах. Но если сильно постараюсь, то могу допридумать эти номера ибо эта информация не особо полезна для анализа основной информации.

crypto_trader#43xzEXrP

full member

Activity: 1588

Merit: 214

Предлагаю плотно заняться поиском способов сжатия несжимаемых данных.
Несжимаемые данные - данные с максимальной информационной энтропией (распределение бит в них биномиальное, число единичных бит 50%, как и число нулевых бит). Негация не изменяет энтропию таких данных.

Topic: Сжать несжимаемое, впихнуть невпихуемое - page 2. (Read 605 times)