Pages:
Author

Topic: [Aiutatemi] Wordlist italiana per il BIP39 - page 2. (Read 2829 times)

full member
Activity: 142
Merit: 104
November 07, 2015, 03:22:33 AM
#8

... mi sembra una "regola" difficile da rispettare, soprattutto perche' ci saranno liste compilate in futuro...
comunque se ci tieni ho fatto una lista delle parole in comune con gli spagnoli (togliendo gli accenti), ce ne sono ben 52:

ciao

PS: devo passare in rassegna anche tutte le altre lingue a partire dai francesi?

Son d'accordo che sia difficile da rispettare, e i vantaggi non sono così importanti. Per un sw controllare una parola o 100 non fa nessuna differenza. C'è un unico caso problematico, e anche questo può essere in parte risolto quasi sempre, cioè quando tutte le parole del seme sono presenti in due o più liste.
Il sw che genera il seme può mitigare questo problema non generando queste combinazioni, ma non può garantire compatibilità con le liste di parole pubblicate in futuro.
Pensando a questo problema cercherei di rimuovere il più possibile le parole in comune, certo che ci serviranno un bel po' di parole nuove da inserire Cheesy
member
Activity: 112
Merit: 10
November 05, 2015, 12:20:33 PM
#7

... mi sembra una "regola" difficile da rispettare, soprattutto perche' ci saranno liste compilate in futuro...
comunque se ci tieni ho fatto una lista delle parole in comune con gli spagnoli (togliendo gli accenti), ce ne sono ben 52:

Quote
abaco
agosto
ateo
atomo
boa
burla
caos
celebre
cemento
cripta
diadema
diario
duro
elefante
enigma
epoca
farsa
fiera
foto
frase
fuga
gloria
golfo
grumo
idioma
laguna
leopardo
memoria
minuto
nausea
nube
nucleo
numero
oceano
orbita
ozono
palma
patria
principe
rosa
selva
sistema
sonoro
sorpresa
teatro
tormenta
tregua
trofeo
urbano
utopia
vampiro
video

ciao

PS: devo passare in rassegna anche tutte le altre lingue a partire dai francesi?
full member
Activity: 142
Merit: 104
November 05, 2015, 11:27:50 AM
#6
https://github.com/bitcoin/bips/blob/master/bip-0039/bip-0039-wordlists.md

Per la lista spagnola si parla del fatto che non ha incomune parole con altre liste, in questo modo è possibile identificarle la lista controllando una sola parola. Non rispettare questa proprietà farebbe saltare anche il vantaggio della lista spagnola. (già la prima parola ábaco è in comune con quella italiana :S)
full member
Activity: 142
Merit: 104
November 05, 2015, 09:01:28 AM
#5
Ottimo lavoro! Grazie! Ho aggiunto le parole ad eccezione di *quote* (è presente in english.txt (da qualche parte avevo letto anche questa linea guida, chissà dove)) e *ancora* (c'era già nella lista).

Sarebbe ottimo avere anche la revisione da parte di qualcun altro.

member
Activity: 112
Merit: 10
October 30, 2015, 06:38:50 AM
#4

... visto che ormai mi sono fatto prendere da questo lavoro, ti propongo anche qualche parola:

Quote
ancora
caglio
disegni
fausto
giostra
letizia
nonna
riga
rosa
spazio
studio
tenda
torta
valore
vite
voce

ovviamente le parole sono compliant (ma per sicurezza ricontrolla) con il paragrafo a)  e mi pare che non diano problemi di parole simili... ho anche cercato di sceglierle corte per abbassare un pochino la media.
naturalmente sei libero di farne l'uso che credi.

ciao
full member
Activity: 142
Merit: 104
October 29, 2015, 07:36:14 AM
#3
prima considerazione, nella regola a) e' richiesto che le parole siano identificate univocamente delle loro prime 4 lettere... quindi toglierei le parole di 3 lettere che potrebbero creare problemi (non creano problemi solo se si considera lo spazio come 4' carattere) ed ho trovato queste:

Quote
ago
boa
cui
fez

Le ho tenute perché ho visto che anche nella lista inglese ci sono numerose parole con 3 lettere.

A breve cerco di integrare i suggerimenti, grazie mille per il contributo Smiley

EDIT: ottimi suggerimenti, ho eliminato tutte le parole a parte genziana. Per quanto riguarda le parole simili ho cercato di includere solo la più comune o la più corta.
La nuova lista è qui (2014 parole/2048).
member
Activity: 112
Merit: 10
October 29, 2015, 06:20:17 AM
#2
ottima iniziativa Smiley ti aiuto volentieri...

se non ho capito male queste sono le linee guida per la scelta delle parole:

Quote
Wordlist

An ideal wordlist has the following characteristics:

a) smart selection of words

   - the wordlist is created in such way that it's enough to type the first four
     letters to unambiguously identify the word

b) similar words avoided

   - word pairs like "build" and "built", "woman" and "women", or "quick" and "quickly"
     not only make remembering the sentence difficult, but are also more error
     prone and more difficult to guess

c) sorted wordlists

   - the wordlist is sorted which allows for more efficient lookup of the code words
     (i.e. implementations can use binary search instead of linear search)
   - this also allows trie (a prefix tree) to be used, e.g. for better compression

The wordlist can contain native characters, but they must be encoded in UTF-8 using Normalization Form Compatibility Decomposition (NFKD).

fonte: https://github.com/bitcoin/bips/blob/master/bip-0039.mediawiki


prima considerazione, nella regola a) e' richiesto che le parole siano identificate univocamente delle loro prime 4 lettere... quindi toglierei le parole di 3 lettere che potrebbero creare problemi (non creano problemi solo se si considera lo spazio come 4' carattere) ed ho trovato queste:

Quote
ago
boa
cui
fez


poi c'e' qualche piccolo refuso, qui si puo' scegliere se correggere le parole o eliminarle (per controllare la correttezza delle parole ho usato il vocabolario della treccani):

Quote
redito > reddito
rabbuiare > abbuiare
mussulmano > musulmano
inspessire > ispessire
figliuolo > figliolo

forviare > fuorviare
(questo e' corretto, ma desueto nella forma riportata nella wordlist... io lo toglierei per evitare problemi)


per quanto riguarda le parole simili l'analisi diventa piu' soggettiva; per quel che vale ti dico quelle che mi sono segnato:

Quote
volenteroso
volontario

stoppare
storpiare

smosso
smuovere

rilevo
rilievo

reagente
reattivo
reazione

qualunque
quantunque

oleastro
oleoso

incisivo
inclusivo

fastidio
fatidico

ateneo
ateo
atlante
atleta

anomalo
anormale


infine ci sono le parole che ritengo "problematiche", ma anche qui siamo nel campo del "molto soggettivo"; in ogni caso i criteri che me le hanno fatte scegliere sono: parole desuete, parole che spesso vengono storpiate scrivendole in maniera diversa dalla forma corretta o parole che ne hanno una simile molto piu' usata (e quindi piu' prone ad errori nelle trascrizioni):

Quote
alcool
babbuccia
chiacchierare
ciliegio
deismo
eresiarca
eureka
genziana
gramolata
granturco
immensurabile
isomeria
mangiucchiare
melagrana
mnemonica
necessita
nonnulla
panereccio
pluviometro
piva
prognostico
rullio
runico
unigenito
snudare


spero di essere stato utile Smiley

ciao
full member
Activity: 142
Merit: 104
October 29, 2015, 03:52:54 AM
#1
Buongiorno,
tempo fa ho stilato una lista di parole da usare per poter rappresentare il seed dei nostri wallet nella nostra lingua. La lista è di 2063 [2041] parole, ne servono 2048. Ho scelto le parole seguende le linee guida del BIP39. Rispetto alla lista inglese le parole sono mediamente più lunghe quindi il seed occuperà più spazio probabilmente.
Io l'ho riletta più volte ma sicuramente qualche parola strana mi è sfuggita.

C'è bisogno di voi per arrivare ad una lista elegante da usare per la localizzazione dei wallet nella nostra lingua e semplificare la vita ai nuovi utenti.

La lista temporanea: http://pastebin.com/zWz1pYip
EDIT2: ultima versione dela lista.

Potreste controllare solo una parte della lista e riportare qui i commenti per quella.

EDIT: ho creato un repository git per tenere traccia delle modifiche e delle motivazioni. Potete anche suggerire i cambiamenti via pull request.
Pages:
Jump to: