Pages:
Author

Topic: [2020] Lista de Palavras em Português para o BIP-0039 - page 11. (Read 3809 times)

legendary
Activity: 2688
Merit: 2297
Crypto Swap Exchange
Retirei mais estas:

cirene - typo
bocudo - pouco utilizada
boiada - já tem "bolada", "i" e "l" é muito fácil confundir
chuca - 4 primeiras
comboio - 4 primeiras
doloso - negativa
embaixo - 4 primeiras
empada - 4 primeiras
enjoado - negativa
esquadro - 4 primeiras
falecido - negativa
fedido - negativa
fedor - negativa
folha - 4 primeiras
formado - 4 primeiras
fugitivo - negativa
garoto - 4 primeiras
interno - 4 primeiras
jasmin - typo, corrigido para jasmim
loiro - grafia dupla -> louro/loiro
malabar - pouco utilizada
melado - 4 primeiras
modal - pouco utilizada
museu - tinha 2x
paginar - pouco utilizada
plano - 4 primeiras
plugue - pouco utilizada
racismo - negativa
sentido - 4 primeiras
toca - muito parecida com touca, que já está na lista
trilogia - 4 primeiras
umedecer - Grafia em Portugal: humedecer*
umidade - Grafia em Portugal: humidade*
velar - pouco utilizada
vividez - pouco utilizada

*tem que ter um português para dar uma olhada na lista para evitar a rejeição do PR.. melhor uma 'universal' do que uma PTBR..



Então tem 2019 palavras, restam 29..


Peço que deem uma olhada manualmente, eu já olhei várias e sempre tem algo errado.. melhor revisar agora do que esperar 1 mês para o PR ser rejeitado e ter que refazer..



Sobre os acentos: acho que causaria mais confusão ao usuário final..


Não entendi nada sobre a Distância Levenshtein Grin
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Pessoal, tivemos uma boa sugestão aqui:

https://bitcointalksearch.org/topic/m.55132937

vou tentar aplicar ao código, especialmente a parte da https://en.wikipedia.org/wiki/Levenshtein_distance e das 4 palavras no comeco (essa das 4 palavras é bem simples de aplicar, vou fazer esses dias.)
legendary
Activity: 2758
Merit: 6830
Eu acho muito bem que se mantenham os acentos. Essa ditadura imposta pelos anglo-saxónicos tem que terminar. Será que ainda não ouviram falar em Unicode?

A língua portuguesa tem acentos! Estar a escolher palavras que sejam convenientes para "eles" não faz sentido.

Devíamos tentar, de alguma forma, lutar contra isso!
Mas na verdade nós podemos usar acento, afinal, com o sem assento, o resultado vai ser o mesmo (a carteira tira os acentos). Foi só algo que o outro user (autor inicial da lista) decidiu. Mas eu também concordo que usar acento é melhor (afinal, não atrapalha).
legendary
Activity: 1564
Merit: 1027
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..

Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..

Eu acho muito bem que se mantenham os acentos. Essa ditadura imposta pelos anglo-saxónicos tem que terminar. Será que ainda não ouviram falar em Unicode?

A língua portuguesa tem acentos! Estar a escolher palavras que sejam convenientes para "eles" não faz sentido.

Devíamos tentar, de alguma forma, lutar contra isso!
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
Palavras que eu tiraria:
~~~~

Eu concordo com todas do grupo "regra das 4 primeiras" e "pouco utilizada"
Pelas minhas contas vai sobrar umas 25 palavras após o @bitmover ajustar e rodar o script, então vamos ir com calma aí Grin
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Pessoal, tirem essas que vocês sugiram.
Vou tentar fazer o script hoje , no mais tardar amanhã.
legendary
Activity: 2688
Merit: 2297
Crypto Swap Exchange
Palavras que eu tiraria: EDIT: as palavras riscadas foram excluídas.. a lista agora contém 2048 palavras e só precisa ser revisada.

Tamanho - Tamanco - regra das 4 primeiras
Mugido - Mugir - regra das 4 primeiras
Moradia - Morango - regra das 4 primeiras
Jogada - Jogador - regra das 4 primeiras
Gerador - Gerar - regra das 4 primeiras
Encontro - Encosto - regra das 4 primeiras
Dinamite - Dinastia - regra das 4 primeiras

Utero - typo (útero)
Fuba - typo (fubá)

Zonzar - não existe no dicionário

Vilania - não sei o que é

Agrado - mudar para verbo

Roxa - Roxo - muito parecidas
Rali - Ralo - muito parecidas
Pular - Pulo - muito parecidas
Clipe - Clique - muito parecidas
Bula - Bule - muito parecidas

Vomitar - negativa
Vitimar - negativa
Virose - negativa
Vingar - negativa
Vesgo - negativa
Viciado - negativa
Verme - negativa
Tontura - negativa
Pior - negativa
Maluco - negativa
Nunca - negativa
Lamento - negativa
Jazida - negativa
Ineficaz - negativa
Falha - negativa
Falido - negativa
Fajuto - negativa
Facada - negativa
Dreno - negativa
Danoso - negativa
Caolho - negativa
Caluniar - negativa
Cafona - negativa
Azedo - negativa

Ecomuseu - pouco utilizada
Paiol - pouco utilizada
Miudeza - pouco utilizada
Macro - pouco utilizada
Leonino - pouco utilizada
Lavrado - pouco utilizada
Harpia - pouco utilizada
Fava - pouco utilizada
Bruma - pouco utilizada
Brado - pouco utilizada
Adiposo - pouco utilizada
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
Sim, é possível.

Acho que consigo fazer fácil.

Se preparem que lá vem bomba.

Pelo meu script, tem que eliminar essas...

Code:
bambu
bateria
bonsai
celeste
cinema
desvio
eclipse
engano
equipe
esqui
galeria
guia
imperial
ironia
legume
mineral
oceano
pequeno
quietude
raiz
rubi
teoria
vegetal

Das atuais 2085 palavras vai pra 2062.
Mas não confio muito porque estou fazendo tudo no excel (Microsoft, sabe né), vamos ver o que tu consegue.
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..

Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..

kct... realmente... eu consigo fazer isso sim. Preciso converter a lista deles toda de "é" para "e" e comparo depois.



edit: também tem umas que fogem a regra das 4 primeiras letras, como "mugir" e "mugido".. Alguém consegue automatizar a revisão desta regra?

Sim, é possível.

Acho que consigo fazer fácil.

Se preparem que lá vem bomba.

Edit:
Acho que usei uma bomba atomica pra mata uma formiga, mas nada ficou de fora desse dicionario:
Code:
'à':'a',
'á':'a',
'â':'a',
'ã':'a',
'ä':'a',
'å':'a',
'ç':'c',
'è':'e',
'é':'e',
'ê':'e',
'ë':'e',
'ì':'i',
'í':'i',
'î':'i',
'ï':'i',
'ò':'o',
'ó':'o',
'ô':'o',
'õ':'o',
'ö':'o',
'ù':'u',
'ú':'u',
'û':'u',
'ü':'u',
'ý':'y',
'ÿ':'y'

kkkk ja vou atualizar

Edit 2:
Pessoal tive um problema na hora de rodar, e vou ter que alterar o script.
Espero conseguir fazer hj, mas sexta e foda...
legendary
Activity: 2688
Merit: 2297
Crypto Swap Exchange
🤦
E eu já tava contente que não precisaria mais garimpar palavras....
Vou te mandar os dicionários que faltaram.

https://youtu.be/UPw-3e_pzqU
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..

Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..

🤦
E eu já tava contente que não precisaria mais garimpar palavras....
Vou te mandar os dicionários que faltaram.
legendary
Activity: 2688
Merit: 2297
Crypto Swap Exchange
@bitmover os caras usaram palavras com acento na lista em espanhol/francês.. Então tem que substituir os acentos na lista para fazer a comparação.. ex: "é" por "e", "à, á, ã" por "a"..

Francês tem: "cinéma" (linha 396) e o nosso também tem "cinema".. creio que deve ter mais palavras, assim como tinha "acne" na primeira lista em português e tem "acné" em espanhol..
legendary
Activity: 2688
Merit: 2297
Crypto Swap Exchange
Pessoal, tirei mais algumas que achei ofensivas ou sem sentido (sexual, afta, vuvuzera entre outras)

Trabalho praticamente encerrado. Acho que agora é reduzir mais ainda pra 2048.

Vou criar um topico na aba technical discussion, direcionando para os 4 principais contribuires (Sabota, Alegotardo eu e o TryNinja) e perguntando se eles tem alguma recomendacao para a proposta final antes de enviarmos para o iancoleman.

Eu esperaria alguns portugueses fazerem uma revisão.. Eu mandei uma PM para Jay_Pal, pedrog, FilipeHenriques, Trimegistus e idunets aqui no fórum.. com sorte eles dão uma olhada..

Eu acho que ainda tem trabalho a ser feito, passar um pente fino.. tem umas palavras pouco utilizadas como "modal".. "arruela" que é muito parecida com "ruela" (esta eu retirei) e é pouco utilizada, talvez tenha mais algumas "ofensivas/negativas" perdidas por ali também..

Também tem que citar os outros 2 contribuidores do Github que começaram a lista, e ver se teve mais gente que os ajudou..

@bitmover, não estou vendo essa sua exclusão aqui no histórico.

Tem certeza que está no branch correto?

Cheguei agora e já aceitei o PR..

se você me mandar mais letras eu adiciono mais algumas para poder filtrar melhor depois..

edit: também tem umas que fogem a regra das 4 primeiras letras, como "mugir" e "mugido".. Alguém consegue automatizar a revisão desta regra?
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
O @alegotardo fez eu trabalhar hoje..

Botei umas 6 letras.. agora a lista está com 2058 palavras..


Vou mandar umas PMs para o pessoal de Portugal nos ajudar a filtrar a lista..

Mas também, ficou mamão com açúcar depois de receber um dicionário já com palavras filtradas de 4 a 8 palavras, sem acentos, com as 4 primeiras letras distintas e que não existe nos outros dicionários do BIP39.

Quero ver o @bitmover tirar algo agora Tongue

Pessoal, tirei mais algumas que achei ofensivas ou sem sentido (sexual, afta, vuvuzera entre outras)
Cheesy

[EDIT]

@bitmover, não estou vendo essa sua exclusão aqui no histórico.

Tem certeza que está no branch correto?
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
O @alegotardo fez eu trabalhar hoje..

Botei umas 6 letras.. agora a lista está com 2058 palavras..


Vou mandar umas PMs para o pessoal de Portugal nos ajudar a filtrar a lista..

Pessoal, tirei mais algumas que achei ofensivas ou sem sentido (sexual, afta, vuvuzera entre outras)

Trabalho praticamente encerrado. Acho que agora é reduzir mais ainda pra 2048.

Vou criar um topico na aba technical discussion, direcionando para os 4 principais contribuires (Sabota, Alegotardo eu e o TryNinja) e perguntando se eles tem alguma recomendacao para a proposta final antes de enviarmos para o iancoleman.
legendary
Activity: 2688
Merit: 2297
Crypto Swap Exchange
O @alegotardo fez eu trabalhar hoje..

Botei umas 6 letras.. agora a lista está com 2058 palavras..


Vou mandar umas PMs para o pessoal de Portugal nos ajudar a filtrar a lista..
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
retiradas 2 palavras com mais de 8 letras
(   desumando e   discursar)

e retiradas palavras que batiam com outras listas

total de 37palavras removidas

~~~~

Eu to sem acesso de escrita ao seu branch, e naoconsegui editar la...
acho que é melhor voltarmos pro fork do sabotagex, assim pode dar problema

Esqueci desse acesso.
A intenção era fazer essa pré-filtragem antes de poluir o branch principal do @sabotag3x.

Vi que ele já tinha adicionado as palavras que separei, só faltou remover as que você destacou (já feito também).

Temos 1961 palavras até agora.

Estou adicionando algumas palavras.

O lance de colocar em ordem alfabética é manual mesmo?
Eu não achei isso, onde você colocou?
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
voce pode olhar o log de todas as minhas ações lá no github. Em vermelho são as que eu tirei. Se fuçar o site voce acha tudinho.
Contei aqui 244 palavras, dessas consegui substituto para 41 delas, algumas com até 5 sugestões (vai ter que escolher só uma).

Coloquei tudo em um novo branch (alegotardo-patch-1), aí você tira o que precisa que depois eu vejo se precisa fazer mais algum ajuste para então juntar ao branch atual Wink



retiradas 2 palavras com mais de 8 letras
(   desumando e   discursar)

e retiradas palavras que batiam com outras listas

total de 37palavras removidas

Code:
0 altura
1 carga
2 certeza
3 cobre
4 vaca
5 vampiro
6 vaso
7 veloz
8 vibrar
9 vinagre
10 vivo
11 vulgar
12 federal
13 item
14 manual
15 nuclear
16 oval
17 piano
18 radar
19 regular
20 ritual
21 super
22 vapor
23 visual
24 vital
25 vocal
26 volume
27 discreto
28 fumante
29 veterano
30 viscoso
31 gentil
32 piano
33 vital
34 volume
35 desumando
36 discursar

Eu to sem acesso de escrita ao seu branch, e naoconsegui editar la...
acho que é melhor voltarmos pro fork do sabotagex, assim pode dar problema
legendary
Activity: 2688
Merit: 2297
Crypto Swap Exchange
Contei aqui 244 palavras, dessas consegui substituto para 41 delas, algumas com até 5 sugestões (vai ter que escolher só uma).

Coloquei tudo em um novo branch (alegotardo-patch-1), aí você tira o que precisa que depois eu vejo se precisa fazer mais algum ajuste para então juntar ao branch atual Wink


Adicionei algumas manualmente respeitando a regra das 4 primeiras.. e deixei o PR aberto, não sei nem fechar Grin

Eu não botaria "bocal" por ser muito próximo a "bucal", inclusive retirei ela da primeira lista por conta disso..
https://dicionario.priberam.org/bocal
https://dicionario.priberam.org/bucal
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
voce pode olhar o log de todas as minhas ações lá no github. Em vermelho são as que eu tirei. Se fuçar o site voce acha tudinho.
Contei aqui 244 palavras, dessas consegui substituto para 41 delas, algumas com até 5 sugestões (vai ter que escolher só uma).

Coloquei tudo em um novo branch (alegotardo-patch-1), aí você tira o que precisa que depois eu vejo se precisa fazer mais algum ajuste para então juntar ao branch atual Wink
Pages:
Jump to: