Pages:
Author

Topic: [2020] Lista de Palavras em Português para o BIP-0039 - page 15. (Read 3813 times)

legendary
Activity: 2352
Merit: 6089
bitcoindata.science
sabota

Cria uma conta no github com seu nome.
faz um pull request com a retirada das palavras que voce sugeriu.

Apos isso eu irei fazer um check de palavras repetidas com a minha conta, ja tenho um script pronto pra isso (outro pull request)

E assim vamos colocando nosso nome nos pull requests.

Será que não é melhor já ir adicionando uma palavra nova para cada palavra retirada? Ou tanto faz?

Vou fazer isso, hoje ou amanhã.. ou hoje e amanhã.. devagar e sempre Grin só preciso aprender a criar um PR Roll Eyes

Eu acho que voce pode simplesmente criar um pull request assim:

"I have removed those offensive words. For example Defunto means defunct and balofo means paunchy.
Also removed tijela, which contains a typo"

Daí voce faz upload do seu arquivo sem essas palavras (eu manteria o arquivo igual, somente deletaria elas)
Ao fazer isso voce já entra na lista de contributors.

Daí se voce ja quiser na sequencia, amanha ou depois adicionar as palavras, eu vou e comparo as palavras com todas as listas.
Tenho ja um script pronto para fazer essa conferencia com pandas, nao demora nem 2minutos.


Edit:
Ao deletar suas palavras idênticas ao de outras listas (subindo uma nova sem essas palavras) eu ja entro na lista de contributors. E assim vamos indo...
 só precisamos terminar o trabalho para garantirmos que nosso branch irá ser aprovado. É como se fosse uma side chain do BIP39 que estamos fazendo. Se o branch morrer, nao entramos na lsita de contribuires do BIP 39.

Funciona assim:

https://guides.github.com/activities/hello-world/

Precisamos chegar no merge com o master no final.
legendary
Activity: 2688
Merit: 2297
sabota

Cria uma conta no github com seu nome.
faz um pull request com a retirada das palavras que voce sugeriu.

Apos isso eu irei fazer um check de palavras repetidas com a minha conta, ja tenho um script pronto pra isso (outro pull request)

E assim vamos colocando nosso nome nos pull requests.

Será que não é melhor já ir adicionando uma palavra nova para cada palavra retirada? Ou tanto faz?

Vou fazer isso, hoje ou amanhã.. ou hoje e amanhã.. devagar e sempre Grin só preciso aprender a criar um PR Roll Eyes
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Code: (Palavras que eu excluiria)
-abalo
-aceito
-acne
-adjunto
-alelo
-alpe
-amaro
-ampola
-anedota
-apenas
-apesar
-apto
-argila
-argola
-atrofia
-avidez
-azedume
-azia
-balofo
-baque
-bedelho
-bemol
-bento
-bismuto
-bonobo
-brado
-brando
-brasil
-brejo
-bromo
-bucal
-burgo
-butano
-califa
-caninha
-cirrose
-clava
-coaxial
-cobalto
-corcova
-corja
-cosseno
-criolina
-cumbuca
-defunto
-degola
-dejeto
-delonga
-demente
-dengue
-derrame
-desuso
-dezoito
-diabo
-digesto
-digresso
-diminuto
-diodo
-discente
-doentio
-doido
-dois
-domo
-doninha
-druida
-dueto
-duodeno
-ebulidor
-eclesial
-edema
-efusivo
-eira
-elastina
-elogioso
-elusivo
-emanado
-emirado
-empolado
-endemia
-endosso
-entorno
-envolto
-ermo
-esbarro
-esguio
-esmeril
-esporo
-estima
-eunuco
-faquir
-farrapo
-fasor
-fauno
-fecho
-ferrolho
-fibroso
-fidalgo
-findo
-fineza
-finitude
-finura
-fixo
-flagelo
-folia
-fonema
-frade
-fraque
-friagem
-frouxo
-fugaz
-galante
-ganido
-garrote
-gatuno
-gaveta
-gazeta
-genitor
-germinal
-giga
-gnose
-gomo
-gongo
-gracioso
-grife
-gueixa
-guelra
-guilda
-guisado
-guizo
-gume
-gutural
-harpia
-havana
-hediondo
-hera
-hibisco
-hindu
-homicida
-horrendo
-idem
-iene
-ignitor
-ilibado
-imantado
-imitante
-imposto
-impune
-imune
-inapto
-incauto
-inciso
-inculto
-inepto
-inercial
-inexato
-infarto
-influxo
-inhame
-inodoro
-inundado
-iodo
-jacente
-jacobino
-jacu
-jade
-jambo
-jenipapo
-jorro
-jota
-jubileu
-judeu
-jurema
-jurubeba
-laboral
-labrador
-lacaio
-ladino
-ladrilho
-latim
-leigo
-leito
-lenda
-lenha
-letrado
-lhama
-libra
-limalha
-limeira
-limiar
-linfa
-lixa
-lixo


Ah, também tirei "imposto".. Não queremos imposto no BTC Tongue


@bitmover, veja se você quer fazer uma lista melhor do zero.. caso contrário dá para trabalhar em cima dessa..

sabota

Cria uma conta no github com seu nome.
faz um pull request com a retirada das palavras que voce sugeriu.

Apos isso eu irei fazer um check de palavras repetidas com a minha conta, ja tenho um script pronto pra isso (outro pull request)

E assim vamos colocando nosso nome nos pull requests.
legendary
Activity: 2688
Merit: 2297
Dei uma olhada rápida nas primeiras 1024 palavas (50%) e eu excluiria ~20% delas..

Algumas como "abalo" e "aceito" poderiam ser mudadas para seus verbos, neste caso "abalar" e "aceitar", respectivamente..

Outras palavras não existem no dicionário, como "criolina".

Outras são muito próximas, com apenas uma letra de diferença como "lixo" e "lixa", "gaveta" e "gazeta".. Neste caso, uma delas poderia ser mantida.

Também tirei algumas palavras negativas, como "defunto" e "homicida" e nomes de doenças como "cirrose", não imagino que alguém as queira em sua seed.

Bem como palavras que podem ser ofensivas, como "balofo".

Como usaram palavras com acentos nas listas em espanhol e francês, deve ter mais casos em que a palavra é a mesma, como o caso de "acne".

Também tirei palavras que são números, como "dezoito" e "dois".. e que são letras, como "jota".

Algumas palavras que podem causar confusão, como "apto" pois também é usado como abreviatura de "apartamento".

Palavras repetidas, como "ampola" (2x).

O resto são palavras que são pouco usadas e/ou eu nunca ouvi falar.

Code: (Palavras que eu excluiria)
-abalo
-aceito
-acne
-adjunto
-alelo
-alpe
-amaro
-ampola
-anedota
-apenas
-apesar
-apto
-argila
-argola
-atrofia
-avidez
-azedume
-azia
-balofo
-baque
-bedelho
-bemol
-bento
-bismuto
-bonobo
-brado
-brando
-brasil
-brejo
-bromo
-bucal
-burgo
-butano
-califa
-caninha
-cirrose
-clava
-coaxial
-cobalto
-corcova
-corja
-cosseno
-criolina
-cumbuca
-defunto
-degola
-dejeto
-delonga
-demente
-dengue
-derrame
-desuso
-dezoito
-diabo
-digesto
-digresso
-diminuto
-diodo
-discente
-doentio
-doido
-dois
-domo
-doninha
-druida
-dueto
-duodeno
-ebulidor
-eclesial
-edema
-efusivo
-eira
-elastina
-elogioso
-elusivo
-emanado
-emirado
-empolado
-endemia
-endosso
-entorno
-envolto
-ermo
-esbarro
-esguio
-esmeril
-esporo
-estima
-eunuco
-faquir
-farrapo
-fasor
-fauno
-fecho
-ferrolho
-fibroso
-fidalgo
-findo
-fineza
-finitude
-finura
-fixo
-flagelo
-folia
-fonema
-frade
-fraque
-friagem
-frouxo
-fugaz
-galante
-ganido
-garrote
-gatuno
-gaveta
-gazeta
-genitor
-germinal
-giga
-gnose
-gomo
-gongo
-gracioso
-grife
-gueixa
-guelra
-guilda
-guisado
-guizo
-gume
-gutural
-harpia
-havana
-hediondo
-hera
-hibisco
-hindu
-homicida
-horrendo
-idem
-iene
-ignitor
-ilibado
-imantado
-imitante
-imposto
-impune
-imune
-inapto
-incauto
-inciso
-inculto
-inepto
-inercial
-inexato
-infarto
-influxo
-inhame
-inodoro
-inundado
-iodo
-jacente
-jacobino
-jacu
-jade
-jambo
-jenipapo
-jorro
-jota
-jubileu
-judeu
-jurema
-jurubeba
-laboral
-labrador
-lacaio
-ladino
-ladrilho
-latim
-leigo
-leito
-lenda
-lenha
-letrado
-lhama
-libra
-limalha
-limeira
-limiar
-linfa
-lixa
-lixo


Ah, também tirei "imposto".. Não queremos imposto no BTC Tongue


@bitmover, veja se você quer fazer uma lista melhor do zero.. caso contrário dá para trabalhar em cima dessa..
legendary
Activity: 2688
Merit: 2297

Quote
tigela
tijela
tijolo

fala sério kkk

Melhor rejeitar e fazer outra.

Mexer nisso ai é trabalho manual

tijela foi foda kkkkkkk na outra lista que eu estava olhando não tinha essa..

Ah, por fim tem que ser manual mesmo, revisado por várias pessoas.. Deve dar pra aproveitar uns 90% dessa lista ai, é um começo, e então inserir as palavras que faltam usando essa lista: https://github.com/pythonprobr/palavras/blob/master/palavras.txt

E então comparar novamente com as listas de outros idiomas para retirar possíveis repetidas..
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
legendary
Activity: 2758
Merit: 6830
Essa é a lista atual do pull request: https://github.com/bitcoin/bips/blob/7699e6690eff39957711f009324d46a470bd9f55/bip-0039/portuguese.txt

Realmente tem algumas palavras que nunca vi na vida. Não acho que esteja nem um pouco pronto para ser aprovada.
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Andei olhando o repositorio e as discussoes.

O cara escolheu as palavras manualmente, está a anos trabalhando. Está cheio de problemas. Palavras complicadas. Começou sem seguir basicamente nenhuma regra, com palavras repetidas de outras línguas. Ele foi fazendo um monte de puxadinho, virou um frankstein.

Poucas pessoas se interessam pela revisão disso tb.

Complicado mexer com isso. Ainda mais com esse projeto já em andamento.

De repente dá pra revisar ele e ajudar a terminar.

https://github.com/bitcoin/bips/pull/654#issuecomment-523581098
Quote
brenorb commented on 21 Aug 2019
Who can review that? I don't know any core dev that speaks/understands Portuguese.

No one needs to be a core dev to review this PR. If you speek Portuguese I deeply encourage you to review it and leave a comment so they can properly accept or reject the PR.
legendary
Activity: 2688
Merit: 2297
Da pesquisa eu fiz, todas os BIPS em frances e espanhol tinham palavras com acento. Mas eles substituiram 'é' por 'e', etc...

IMO uma porcaria Grin Grin

Acho que essa é a última versão, sou meio leigo no Git: https://github.com/bitcoin/bips/pull/720/commits/7699e6690eff39957711f009324d46a470bd9f55
Confere?

Acho que tem bem pouca coisa pra fazer, só trocar umas palavras que são pouco usadas: ojeriza, horto, iene, fraque, eunuco, unifilar, guizo, manilha, solfejo.. e umas muito parecidas como zumbido e zunido..

Por fim pedir para uns portuga analisarem se todas palavras são comuns por lá também e então fazer um barulho para aprovarem..
legendary
Activity: 2352
Merit: 6089
bitcoindata.science

Acho que dá para trabalhar em cima dessa ai, manualmente..

Olhando por cima tem alguns "erros", como "genio" sem acento.. "zunzuns" é bem estranho, "xerox" primeiramente é uma marca, "xale" parece muito com "chalé" que também está na lista e foge da regra 3 dele (sem acentos), "mapa" e "mapeado".. alguma palavras próximas como "tato" e "tatu".. "noruega", "irlanda"..

Da pesquisa eu fiz, todas os BIPS em frances e espanhol tinham palavras com acento. Mas eles substituiram 'é' por 'e', etc...

Quote
https://github.com/bitcoin/bips/blob/master/bip-0039/bip-0039-wordlists.md#spanish
special Spanish characters like 'ñ', 'ü', 'á', etc... are considered equal to 'n', 'u', 'a', etc...
legendary
Activity: 2688
Merit: 2297

Acho que dá para trabalhar em cima dessa ai, manualmente..

Olhando por cima tem alguns "erros", como "genio" sem acento.. "zunzuns" é bem estranho, "xerox" primeiramente é uma marca, "xale" parece muito com "chalé" que também está na lista e foge da regra 3 dele (sem acentos), "mapa" e "mapeado".. alguma palavras próximas como "tato" e "tatu".. "noruega", "irlanda"..

Algumas palvras também vão contra as próprias regras do autor do PR, como: "jovens", "imersas", "males" que utiliza plural e a regra 5 é: No plural words, unless there's no singular form.

e outras palavras pouco utilizadas como "eunuco", "cumbuca", "cobalto", "acelga", "adiposo", "lhama", "ganido".. entre tantas outras ali..

edit: acho que eu estava olhando a primeira versão.. a versão do "brenorb", que parece ser a última, está bem melhor.. (todavia eu mudaria algumas palavras)
legendary
Activity: 2758
Merit: 6830
O que acham? Daí vemos quantas falta
é relativamente fácil fazer isso eh acho. Vou fazer segunda.
Tem que ver o que eu postei ali em cima.

Tem a proposta de uma lista que já foi enviada, só que espera pela possível aprovação dos "autores", que imagino serem as pessoas que mantem o repositório dos bips. Se for isso, dificil a gente só refazer tudo e tentar de alguma forma ser aprovada antes desse já existente. Chegamos tarde? Cry
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Já escolhi duas palavras
Ninja e sabotagem
Mas ninja  já deve ter kkk


Edit:
Vou traduzir do espanhol é do francês é tirar todas as palavras que sejam repetidas com qualquer outra lista, incluindo espanhol é francês.

O que acham? Daí vemos quantas falta
é relativamente fácil fazer isso eh acho. Vou fazer segunda.
legendary
Activity: 2758
Merit: 6830
É interessante também dar uma olhada no pull request das wordlists para ver a linha de pensamento que rolou em cada uma. Por exemplo, a em Francês: https://github.com/bitcoin/bips/pull/152

O usuário mandou um pull request com sua proposta de lista e muito se foi corrigido/alterado até chegar na lista final.

Edit: moio? Achei duas propostas para a lista em Português. Huh

https://github.com/bitcoin/bips/pull/720
https://github.com/bitcoin/bips/pull/654

A primeira ainda não foi aprovada, mas parece já ter andado bastante. Tanto que o último comentário foi apenas 1 semana atrás. A segunda é mais antiga e parece só ter sido deixada de lado por não ter tido alguém para revisá-la.
legendary
Activity: 2688
Merit: 2297
Tópico destinado a criação da lista de palavras em português para o BIP39..

Fork atual:
https://github.com/sabotag3x/bips/blob/master/bip-0039/portuguese.txt

Regras:
1. Words can be uniquely determined typing the first 4 characters.
2. No accents or special characters.
3. No complex verb forms.
4. No plural words, unless there's no singular form.
5. No words with double spelling.
6. No words with the exact sound of another word with different spelling.
7. No offensive words.
8. No words already used in other language mnemonic sets.
9. The words which have not the same spelling in Brazil and in Portugal are excluded.
10. No words that remind negative/sad/bad things.
11. No very similar words with 1 letter of difference.

Referências:
O que é preciso para criar uma lista de, 2048, palavras em português para o BIP39?
Wordlist em Português para o BIP-0039 (2015)
BIP-0039 wordlists

PR prévios:
https://github.com/bitcoin/bips/pull/720
https://github.com/bitcoin/bips/pull/654

Dicionários:
https://cgit.freedesktop.org/libreoffice/dictionaries/plain/pt_BR/pt_BR.dic
https://pt.scribd.com/doc/97916964/Dicionario-de-Portugues-em-TXT
https://github.com/pythonprobr/palavras
Pages:
Jump to: