Pages:
Author

Topic: Сжать несжимаемое, впихнуть невпихуемое - page 2. (Read 465 times)

full member
Activity: 1589
Merit: 214
Вышеописанный метод проверил - не работает.
Информационная энтропия случайных данных - всё равно не уменьшается.
Надо бы чё-т другое придумать.
Может какая-то свёртка-развёртка данных?
По-сути, данные битности N - это N-битное число натуральное.
И задача состоит скорее в поиске оптимального способа записи этого числа, если число случайно от 0 до 2^N.
Я вот думал насчет факторизации. Но есть большие простые числа, которые не факторизовать.
Но если отнять единицу - получается не простое число, и его можно факторизовать.
Однако запись факторов по длине такая же, как и запись самого числа, так что смысла не вижу.
Хотя, если много одинаковых факторов, можно было бы использовать степень.
Если возможно как-то, произвольное натуральное число, ужать таким образом,
найдя другое число, где много простых факторов, то можно было бы сделать алгоритм, наверное.

Ещё, я думал о том, чтобы представить натуральное число в виде простых чисел,
а их как-то сжать, например как в PrimeGrid: https://www.primegrid.com/primes/mega_primes.php
Если существуют какие-то универсальные формулы сжатия именно простых чисел,
можно было бы сделать алго,
ну а любое натуральное число можно разложить на простые - при помощи вычислений,
согласно тем же бинарной и тернарной проблемам Гольдбаха.

проще разработать новые сисетмы хранения данных, чем сжимать инфу
Ну да, есть 20-ти терабайтники уже, и щас не проблема хранить данные, если их не петабайты.
А у меня же вообще идея восходит к принципальной возможности самой генерации и собственно к хранению,
ебать - высокоточной модели всей нахуй объективной реальности, то есть Всей Вселенной, грубо-говоря.

а проще обучить АИ удалять инфомусор, зип-анзип данных будет требовать энергетических затрат,
может оказаться и не выгодно сжимать
Кстати, это идея.
Сразу на ум приходит создать некий алго, чтобы искать наиболее часто повторяющиеся фрагменты в несжимаемых данных,
и их уже кодировать битами поменьше - тем же адаптивным алгоритмом Хаффмана.

Считаю, что Вам нужно смотреть в сторону голограмм и фракталов.

У голограмм из части достраивается целое, а у фракталов самоподобие, когда на всех уровнях имеется одинаковая структура.

Вот туда и надо копать.
Как туда вкатиться, по хардкору? Чтобы чисто лютый матан видеть, весь?
legendary
Activity: 2534
Merit: 1510

Поэтому, я вцелом смотрю в сторону уменьшения самой информационной энтропии каким-то образом.
И пришёл к тому, что наверное, можно было бы, какие-то манипуляции делать с данными,
и подсчитывать при этом - число единичных бит и нулевых, и если оно резко смещается, останавливаться,
а затем писать значения только с максимальным числом нулевых бит + немного дополнительных данные,
сжимая уже дальше, всё это дело, каким-нибудь префиксным кодом (например адаптивным алгритмом Хаффмана),
и из этого всего сделать алго, многораундовый, и зациклить его.

Это пока набросок, просто. До реализации не дошло, интересует ваше мнение, и собственно идеи тоже.

Считаю, что Вам нужно смотреть в сторону голограмм и фракталов.

У голограмм из части достраивается целое, а у фракталов самоподобие, когда на всех уровнях имеется одинаковая структура.

Вот туда и надо копать.
full member
Activity: 1484
Merit: 133
проще разработать новые сисетмы хранения данных, чем сжимать инфу, а проще обучить АИ удалять инфомусор, зип-анзип данных будет требовать энергетических затрат,  может оказаться и не выгодно сжимать
full member
Activity: 1589
Merit: 214
Сжать в целом в сети Интернет наверно можно было бы как-то удалив дубли данных. Но это скорее всего чревато потерей информации, вдруг какая-то часть хранящаяся у кого-то где-то станет недоступна.

Да, всякие копии фоток, видео, и прочее - это дубли.
Когда они, эти копии, по разным папкам раскиданы, они лежат физически в разных местах диска, и занимают место.

Дубли можно удалять используя hardlinks,
у меня есть пара репозитариев здесь https://github.com/username1565?tab=repositories&q=hard
и ещё один тут https://github.com/username1565/DublFileNTFS и тут https://github.com/username1565/finddupe
Вкратце, как это работает?
Один и тот же файл хранится в одном и том же месте на диске,
а в разные папки - закидываются жесткие ссылки (hardlinks) на него.
Проги DFHL и finddupe позволяют сканировать диск на наличие дублей и увеличивать свободное место, делая из них hardlinks.
Но да, ты прав, хранить важный файл в одном и том же месте на диске - чревато bad-секторами в этом месте.

В этой теме, речь не про hardlinks, а скорее про сжатие несжимаемых данных.
Это влажная мечта того самого - автора архиватора Бабушкина.

Взять скажем сгенерированный рандомный файл.
Рандом трудно сжать, потому что отношение единичных бит к нулевым, в нём почти одинаково,
информационная энтропия - максимальна, а где эти биты находятся - неизвестно,
и нет закономерности, которая позволила бы его сжать, этот рандом.
Поэтому, я вцелом смотрю в сторону уменьшения самой информационной энтропии каким-то образом.
И пришёл к тому, что наверное, можно было бы, какие-то манипуляции делать с данными,
и подсчитывать при этом - число единичных бит и нулевых, и если оно резко смещается, останавливаться,
а затем писать значения только с максимальным числом нулевых бит + немного дополнительных данные,
сжимая уже дальше, всё это дело, каким-нибудь префиксным кодом (например адаптивным алгритмом Хаффмана),
и из этого всего сделать алго, многораундовый, и зациклить его.

Это пока набросок, просто. До реализации не дошло, интересует ваше мнение, и собственно идеи тоже.
full member
Activity: 1484
Merit: 133
много данных это хорошо, это затуманит развитие АИ, затянет процесс обучения "сорными" данными, так же от инфомусора будут страдать лица с негативной общественной  позицией, я даже за, чтобы было больше мусора в сети, это подтолкнет к прогрессу в анализе данных
legendary
Activity: 2058
Merit: 1256
⭐⭐⭐⭐⭐⭐
Сжать в целом в сети Интернет наверно можно было бы как-то удалив дубли данных. Но это скорее всего чревато потерей информации, вдруг какая-то часть хранящаяся у кого-то где-то станет недоступна.
full member
Activity: 1589
Merit: 214
На мой взгляд, в ближайшем будущем возникнет тренд по алгоритмам архивирования с потерями.

алгоритм сжатия с потерями, который работает в человеческом мозге,
позволяет очень неплохо восстановить даже почти полностью забытые данные.
А если надо сжать тонны шифра, который содержит крипторандом?
Например бекап целого дата-центра, но - зашифрованный...

Случайные, рандомные данные, в том числе и крипторандом - они содержат,
равномерное распределение вероятности встречаемости разных бит,
потому это несжимаемые данные.
У них информационная энтропия - максимальна.

Поэтому я и смотрю в сторону снижения информационной энтропии,
чтобы попытаться, какими-то манипуляциями,
сделать из несжимаемых данных - сжимаемые.
copper member
Activity: 1540
Merit: 487
Stop the war!
В мире копится огромное число данных, большинство из которых никому или почти никому не нужно. Те же фотки и видяшки в соцсетях: их туда выкладывают для сбора лайков и через месяц-другой про них навсегда все (включая владельца) забывают.
На мой взгляд, в ближайшем будущем возникнет тренд по алгоритмам архивирования с потерями. В этих алгоритмах данные будут постепенно "забываться" так же, как это организовано в человеческом мозге. А именно: часто запрашиваемые данные будут архивироваться с минимальными потерями, а редко запрашиваемые - с максимальными.

Причем, алгоритм сжатия с потерями, который работает в человеческом мозге, позволяет очень неплохо восстановить даже почти полностью забытые данные. Восстановление происходит за счет "допридумывания" потерянных данных из аналогий. Ну то есть, допустим, я помню, что в видяшке иду по известной мне улице, но не помню номера машин на обочинах. Но если сильно постараюсь, то могу допридумать эти номера ибо эта информация не особо полезна для анализа основной информации.
full member
Activity: 1589
Merit: 214
Предлагаю плотно заняться поиском способов сжатия несжимаемых данных.
Несжимаемые данные - данные с максимальной информационной энтропией (распределение бит в них биномиальное, число единичных бит 50%, как и число нулевых бит). Негация не изменяет энтропию таких данных.
Pages:
Jump to: