Pages:
Author

Topic: [2020] Lista de Palavras em Português para o BIP-0039 - page 10. (Read 3813 times)

legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
Edit:
O problema é que vale a pena uma mexida manual. Por exemplo, "acumular" e "cumular". Cumular é uma palavra que não serve pra nossa lista, na minha opiniao. É uma palavra pouco usada. Entao deletar a primeira nao seria legal.

Sim, o @sabotag3x é um cara que gosta de fazer as coisas na mão Tongue
Falando com ele no telegram, está escolhendo e vendo também o que dá pra trocar por aquelas que tu já removeu (e eu falei que era pra deixar pro final) na regra das 4 primeiras.
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Code:
'abalar - abanar',
 'abanar - abonar',
 'abater - abster',
 'abonar - abanar',
 'abster - abater',
 'abusivo - alusivo',
 'aceitar - ajeitar',
 'acumular - cumular',
 'adaga - adega',
 'adega - adaga',
 'adorar - adotar',
 'adotar - adorar',
 'afeito - efeito',
 'aferir - auferir',
 'afiador - aviador',
 'afinador - afiador',
 'aflito - afeito',
 'afundar - fundar',
 'ainda - linda',
 'ajeitar - aceitar',
 'ajuntar - ajustar',
 'ajustar - ajuntar',
 'alocar - alojar',
 'alojar - alocar',
 'alusivo - abusivo',
 'amansar - amassar',
 'amassar - amansar',
 'ambas - ambos',
 'ambos - ambas',
 'antigo - artigo',
 'anunciar - enunciar',
 'aonde - bonde',
 'aorta - porta',
 'apagador - aparador',
 'aparador - apagador',
 'aresta - fresta',
 'ariscar - riscar',
 'arpar - zarpar',
 'arpear - arpar',
 'arriscar - ariscar',
 'artigo - antigo',
 'atestado - testado',
 'auferir - aferir',
 'aumentar - ausentar',
 'ausentar - aumentar',
 'aviador - avivador',
 'avivador - aviador',
 'bainha - rainha',
 'baixa - caixa',
 'balsa - falsa',
 'baralho - barulho',
 'barulho - baralho',
 'bisonho - risonho',
 'bode - bonde',
 'boiada - bolada',
 'bolada - boiada',
 'boldo - bolo',
 'bolo - boldo',
 'bonde - bode',
 'budismo - nudismo',
 'caixa - baixa',
 'calada - salada',
 'calha - malha',
 'camada - calada',
 'capela - lapela',
 'caridade - paridade',
 'carreira - parreira',
 'carteira - carreira',
 'cavidade - caridade',
 'ceifa - coifa',
 'cheque - chique',
 'chique - cheque',
 'ciente - crente',
 'cilada - calada',
 'cimento - ciumento',
 'ciumento - cimento',
 'cocada - pocada',
 'coifa - ceifa',
 'colar - rolar',
 'couro - ouro',
 'crente - frente',
 'cumular - acumular',
 'cursar - curvar',
 'curvar - cursar',
 'debitar - debutar',
 'debutar - debitar',
 'decente - recente',
 'degastar - degustar',
 'degustar - degastar',
 'dente - pente',
 'deparar - depurar',
 'depurar - deparar',
 'desdenho - desenho',
 'desenho - desdenho',
 'discar - riscar',
 'docagem - dosagem',
 'doente - poente',
 'dosagem - docagem',
 'efeito - afeito',
 'eletivo - letivo',
 'emigrar - migrar',
 'enjoar - entoar',
 'entoar - enjoar',
 'enunciar - anunciar',
 'erotismo - exotismo',
 'escola - esmola',
 'esmola - escola',
 'exalar - exilar',
 'exibir - eximir',
 'exilar - exalar',
 'eximir - exibir',
 'exotismo - erotismo',
 'facada - sacada',
 'falar - falir',
 'falha - malha',
 'falir - falar',
 'falsa - falta',
 'falta - falsa',
 'farpa - harpa',
 'fartura - fatura',
 'fatura - fartura',
 'feder - fedor',
 'fedor - feder',
 'fenda - tenda',
 'feto - teto',
 'fiado - figado',
 'fiapo - fiado',
 'ficar - fincar',
 'figado - fiado',
 'finar - ninar',
 'fincar - finar',
 'fogo - jogo',
 'forca - porca',
 'forjar - forrar',
 'forrar - jorrar',
 'frente - frete',
 'fresta - aresta',
 'frete - frente',
 'friagem - triagem',
 'frota - rota',
 'fundar - afundar',
 'glicose - glucose',
 'glucose - glicose',
 'harpa - farpa',
 'horta - porta',
 'imigrar - migrar',
 'janta - santa',
 'jato - nato',
 'jogo - fogo',
 'jorrar - forrar',
 'junta - janta',
 'lapela - capela',
 'legado - levado',
 'letivo - eletivo',
 'levado - legado',
 'licitar - limitar',
 'lidar - ligar',
 'ligar - lidar',
 'limitar - licitar',
 'linda - ainda',
 'lombo - rombo',
 'malha - falha',
 'meado - veado',
 'medida - mexida',
 'meia - teia',
 'merecer - perecer',
 'mesada - pesada',
 'mexida - medida',
 'migrar - imigrar',
 'nabo - nato',
 'nato - nabo',
 'neta - reta',
 'ninar - finar',
 'nobreza - pobreza',
 'noivo - novo',
 'nordeste - noroeste',
 'noroeste - nordeste',
 'novo - noivo',
 'nudismo - budismo',
 'ouro - couro',
 'paridade - caridade',
 'parreira - carreira',
 'patente - potente',
 'pecador - secador',
 'pegada - pesada',
 'peito - perito',
 'pelugem - penugem',
 'pente - poente',
 'penugem - pelugem',
 'perda - persa',
 'perecer - merecer',
 'perito - peito',
 'perna - persa',
 'persa - perna',
 'pesada - pisada',
 'piada - pisada',
 'pisada - risada',
 'piscar - riscar',
 'pobreza - nobreza',
 'pocada - cocada',
 'poceira - poeira',
 'poeira - poceira',
 'poente - potente',
 'pomar - somar',
 'porca - porta',
 'porque - torque',
 'porta - porca',
 'potente - poente',
 'prato - prazo',
 'prazo - prato',
 'rainha - bainha',
 'raio - raso',
 'ralo - talo',
 'raro - raso',
 'raso - raro',
 'reator - redator',
 'recente - regente',
 'redator - reator',
 'regente - recente',
 'reta - rota',
 'rica - ripa',
 'ripa - rica',
 'risada - pisada',
 'riscar - piscar',
 'risonho - bisonho',
 'rolar - colar',
 'rombo - lombo',
 'rota - reta',
 'sacada - salada',
 'salada - sacada',
 'santa - janta',
 'sebo - selo',
 'secador - senador',
 'seio - selo',
 'selar - telar',
 'selo - seio',
 'senador - secador',
 'socar - somar',
 'somar - socar',
 'talo - ralo',
 'teia - meia',
 'telar - selar',
 'tenda - fenda',
 'testado - atestado',
 'teto - feto',
 'torque - porque',
 'triagem - friagem',
 'trinfo - trunfo',
 'trunfo - trinfo',
 'turbo - turco',
 'turco - turbo',
 'vaga - viga',
 'vala - vaga',
 'veado - meado',
 'viagem - virgem',
 'videira - viseira',
 'viga - vigia',
 'vigia - viga',
 'virgem - viagem',
 'viseira - videira',
 'volante - votante',
 'votante - volante',
 'zarpar - arpar']

sabotag3x alegotardo

Conseguimos.

Sao 263 linhas de pares.
Podemos deletar as piores dessa lista manualmente (ou entao eu deleto automaticamente a primeira) e ainda sobrarão palavras.

Muitas linahs são assim 
'viga - vigia',
 'vigia - viga',

Em duas linhas, sai apenas uma palavras.
Estimo que serão retiradas umas 150 ainda.

Edit:
O problema é que vale a pena uma mexida manual. Por exemplo, "acumular" e "cumular". Cumular é uma palavra que não serve pra nossa lista, na minha opiniao. É uma palavra pouco usada. Entao deletar a primeira nao seria legal.
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
Ok.

Estou adaptando meu script a nova realidade, para poder apagar com agilidade a regra das 4. Daqui a pouco acho que consigo subir lá.

Bitmover, mas essa regras das 4 primeiras é facil fazer aqui.
Eu acho que antes disso é melhor aplicar a regra de Levenshtein, aí depois temos opções de escolha com o que sobrar.

[edit]
Se for o caso.... posta aqui o que deu colisão com 1 de diferença só e dou um jeito de filtrar.
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Sabota, retornou 599 palavras que nao respeitam a regra das 4 primeiras. tem ate palavra repetida kkk

Voces tao fazendo um script que gera palavras? kkk

É mais rápido você fazer essa checagem automaticamente do que a gente fazer de forma manual.. por isso tem tantas fugas às regras..

Se você preferir/conseguir filtrar antes (direto dos dicionários) fica mais fácil pra gente localizar palavras novas..

Ok.

Estou adaptando meu script a nova realidade, para poder apagar com agilidade a regra das 4. Daqui a pouco acho que consigo subir lá.

Edit:
Tirei mais de 400 palavras.
Vou aplicar a distancia

Edit2:
Voce está certo alegotardo. Talvez invertendo a ordem seja mais efetivo. Embora o tratamento do resultado da regra da distancia é muito manual....

O script do leveinstein demora pra rodar, esta rodando a uns 10min ja. Quando ficar pronto eu atualizo.
Vamos ver qual será o resultado dessa regra. Mas já estamos tão proximos agora que acho que mesmo assim dará certo.
Se por acaso muitas palavras cairem fora, podemos inverter a ordem sim.
legendary
Activity: 2688
Merit: 2297
Sabota, retornou 599 palavras que nao respeitam a regra das 4 primeiras. tem ate palavra repetida kkk

Voces tao fazendo um script que gera palavras? kkk

É mais rápido você fazer essa checagem automaticamente do que a gente fazer de forma manual.. por isso tem tantas fugas às regras..

Se você preferir/conseguir filtrar antes (direto dos dicionários) fica mais fácil pra gente localizar palavras novas..
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Adicionamos umas palavras lá @bitmover porém eu não conferi as 4 primeiras, nem em outros dicionários.. então tem que rodar todos scripts e retirar várias..

Sabota, retornou 599 palavras que nao respeitam a regra das 4 primeiras. tem ate palavra repetida kkk

Voces tao fazendo um script que gera palavras? kkk
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Eu até tinha começado a fazer isso, mas manualmente só no olho vi que isso é muito trabalhoso.

Pois é, agora voce viu que deletar palavras é muito mais dificil do que parece.

Eu criei até um script para automaticamente DELETAR e gerar uma nova lista sem a palavras repetidas de outras listas. Perceba que é um outro script, o primeiro só identifica as palavras repetidas rsrs

No caso da Levesnsajkajriaejhas distance, é muito mais complicado pq voce precisa escolher uma palavra, depois dar CTRL F na lista, achar a palavra, deletar, olhar na outra tela, deletar só uma, etc. UM SACO e muito trabalhoso.

Ontem eu demorei, sem exageros, uma hora apagando palavras com distancia =1. Foram muitas palavras mesmo.

Sinceramente, não tenho condições de selecionar uma palavra, apagar a outra, olhar a sua lista de sugestões e adicionar uma delas.

Quote
Vou fazer o seguinte.....
Começar a colocar todas as possibilidades e adicionar lá.... mesmo que forem repetir nas 4 primeiras letras, aí você filtra primeiro com base nessa regra de "Levenshtein distance >1" e depois com base nas 4 primeiras aquilo que sobrar.

Acho que vai ficar mais fácil.
O que acha?

Sim, crie uma lista com umas 2300 palavars e vamos deletando kkk
legendary
Activity: 2688
Merit: 2297
Adicionamos umas palavras lá @bitmover porém eu não conferi as 4 primeiras, nem em outros dicionários.. então tem que rodar todos scripts e retirar várias..
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
alegotardo

Voce prefere remover elas?

segue a lsita de palavras com distancia <1:

~~~~~


Eu até tinha começado a fazer isso, mas manualmente só no olho vi que isso é muito trabalhoso.

Vou fazer o seguinte.....
Começar a colocar todas as possibilidades e adicionar lá.... mesmo que forem repetir nas 4 primeiras letras, aí você filtra primeiro com base nessa regra de "Levenshtein distance >1" e depois com base nas 4 primeiras aquilo que sobrar.

Acho que vai ficar mais fácil.
O que acha?

[edit]
Até porque ao saber se tem substituto para alguma palavra, fica mais fácil de escolher qual eliminar ao aplicar a regra de Levenshtein
legendary
Activity: 2688
Merit: 2297
Porque assim como "abaixo" tem a distância 1 de "baixo", "baixo" também tem a distancia 1 de "baixo. Esta tudo duplicado.

Ahh, agora entendi o que é esta distância.. é basicamente o que eu estava fazendo ao escolher entre "argila" e "argola".. Porém manualmente não tinha como localizar todos os casos, parabéns @bitmover..

Minha sugestão é seguirmos com essa regra, tornando a lista em Português a lista mais restritiva e de maior qualidade entre as listas existentes. Não será fácil, mas já estamos acabando. Faltam em torno de 300 palavras.

Concordo, tem que focar na qualidade, já se passaram 10 anos sem a lista em PT, o que são uns dias a mais? Grin

Consegui um dicionário muito bom e adicionei 150 palavras novas só com o A (que iniciam com A).

Se quiser ajuda manda o dicionário pra mim que eu adiciono algumas palavras.. Ou é um dicionário físico? Roll Eyes
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Só peço que ao remover, verifique SEMPRE o histórico, pois estou deixando nas anotações várias palavras que podem eventualmente substituir alguma que foi excluída.

alegotardo

Voce prefere remover elas?

segue a lsita de palavras com distancia =1. Basta remover uma de cada par:

Code:
['abafar - abalar',
 'abalar - abafar',
 'abater - abster',
 'abster - abater',
 'abusivo - alusivo',
 'aceitar - ajeitar',
 'achado - machado',
 'acometer - cometer',
 'acumular - cumular',
 'adaga - adega',
 'adega - adaga',
 'adorar - adotar',
 'adotar - adorar',
 'afeito - efeito',
 'aferir - auferir',
 'afiador - aviador',
 'afinador - afiador',
 'aflito - afeito',
 'ainda - linda',
 'ajeitar - aceitar',
 'ajuntar - ajustar',
 'ajustar - ajuntar',
 'alocar - alojar',
 'alojar - alocar',
 'alusivo - abusivo',
 'antigo - artigo',
 'aonde - bonde',
 'aorta - horta',
 'apagador - aparador',
 'aparador - apagador',
 'aresta - fresta',
 'artigo - antigo',
 'auferir - aferir',
 'aumentar - ausentar',
 'ausentar - aumentar',
 'avaliar - avariar',
 'avariar - avaliar',
 'aviador - avivador',
 'avivador - aviador',
 'bainha - rainha',
 'baixa - caixa',
 'baralho - barulho',
 'barulho - baralho',
 'bisonho - risonho',
 'bode - bonde',
 'boiada - bolada',
 'bolada - boiada',
 'boldo - bolo',
 'bolo - boldo',
 'bonde - bode',
 'caixa - baixa',
 'calada - salada',
 'camada - calada',
 'capela - lapela',
 'caridade - cavidade',
 'carinho - marinho',
 'carreira - parreira',
 'carteira - carreira',
 'cavidade - caridade',
 'ceifa - coifa',
 'celeiro - veleiro',
 'censor - tensor',
 'cheque - chique',
 'chique - cheque',
 'chocar - chorar',
 'chorar - chocar',
 'ciente - crente',
 'cilada - calada',
 'cimento - ciumento',
 'ciumento - cimento',
 'coifa - ceifa',
 'cometer - acometer',
 'couro - ouro',
 'crente - frente',
 'cumular - acumular',
 'dente - pente',
 'docagem - dosagem',
 'dosagem - docagem',
 'efeito - afeito',
 'escola - esmola',
 'esmola - escola',
 'feto - teto',
 'fogo - jogo',
 'frente - crente',
 'fresta - aresta',
 'horta - aorta',
 'jato - nato',
 'jogo - fogo',
 'lapela - capela',
 'legado - levado',
 'levado - legado',
 'linda - ainda',
 'lombo - rombo',
 'machado - achado',
 'marinho - carinho',
 'meia - teia',
 'nabo - nato',
 'nato - nabo',
 'neta - reta',
 'noivo - novo',
 'novo - noivo',
 'ouro - couro',
 'parreira - carreira',
 'pecador - secador',
 'peito - perito',
 'pente - dente',
 'perito - peito',
 'pomar - somar',
 'pombo - rombo',
 'prato - prazo',
 'prazo - prato',
 'rainha - bainha',
 'raio - raro',
 'ralo - talo',
 'raro - ralo',
 'reator - redator',
 'recente - regente',
 'redator - reator',
 'regente - recente',
 'reta - neta',
 'rica - ripa',
 'ripa - rica',
 'risonho - bisonho',
 'rombo - pombo',
 'salada - calada',
 'sebo - selo',
 'secador - senador',
 'seio - selo',
 'selar - telar',
 'selo - seio',
 'senador - secador',
 'socar - somar',
 'somar - socar',
 'talo - ralo',
 'teia - meia',
 'telar - selar',
 'tensor - censor',
 'teto - feto',
 'turbo - turco',
 'turco - turbo',
 'vaga - viga',
 'vala - vaga',
 'veleiro - celeiro',
 'viagem - virgem',
 'viga - vigia',
 'vigia - viga',
 'virgem - viagem',
 'volante - votante',
 'votante - volante']
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
@bitmover

Consegui um dicionário muito bom e adicionei 150 palavras novas só com o A (que iniciam com A).
Todas tem entre 5 e 8 letras e acredito que poucas devam cair na regra do Levenshtein distance >1.

Só peço que ao remover, verifique SEMPRE o histórico, pois estou deixando nas anotações várias palavras que podem eventualmente substituir alguma que foi excluída.

[edit]
Parei na letra C, tem 2057 palavras.
Adiciono mais depois de dar uma nova filtrada.
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Pessoal, seguinte.

A única lista que segue a regra de remover palavras com apenas 1 letra diferente é a Francesa (Levenshtein distance >1).
Contudo, a lista francesa não segue a regra de evitar palavras duplicadas com o inglês(Não que faça muita diferença)....

Minha sugestão é seguirmos com essa regra, tornando a lista em Português a lista mais restritiva e de maior qualidade entre as listas existentes. Não será fácil, mas já estamos acabando. Faltam em torno de 300 palavras. Certamente isso irá ajudar e acelerar a aprovação final.
Iremos ter mais argumentos para mostrar. (referencia a discussòes no btalk, o resultado da Levenshtein distance,   etc). Bem diferente da lista do breno que faltava gente pra revisar, aqui temos uma grande equipe de pessoas revisando, dentro e fora do brasil.

Seremos aprovados rapidamente pessoal.


I just added the code to compute Levenshtein distance for all existing BIP-39 lists to Bitcoin.Net and the first thing I noticed is that the English list contains words such as "able", "cable", "table", "unable", "viable" with very short distances (1 for the first three and 2 for the other two).

This is a great find.
distance 2 certainly is ok because it would be too restrictive, but I didn't know a distance of 1 would be acceptable.

Looking carefully at the https://github.com/bitcoin/bips/blob/master/bip-0039/bip-0039-wordlists.md I found that only French is worried about  Levenshtein distance

Quote
French
10. No very similar words with 1 letter of difference.
https://github.com/bitcoin/bips/blob/master/bip-0039/bip-0039-wordlists.md#french

This is same as Levenshtein  distance > 1.




https://github.com/bitcoin/bips/pull/152#issuecomment-412618598


legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
Tirei 242 palavras. Coloquei 21.
Trampo.
kkkk

 Shocked Embarrassed

Detesto dizer isso, kkkkk.
Mas... excelente trabalho @bitmover

Estive off no feriadão mas agora voltando à ativa para concluirmos isso o quanto antes.


[EDIT]
Faltava um commit lá. Agora está Ok.
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Pessoal, até postei na aba gringa que eles me ajudaram com uma direcao basica no codigo.

Calculei a levenshtein distance de todas as nossas palavras até agora. Funciona assim, se a palavra tiver todos os caracteres da outra, distancia 0. Se tiver 1 diferente, distancia 1. E assim vai.
A distancia precisa ser no mínimo 2 para a nossa lista ser aceita.

Assim, fiz uma matriz 2005x2005 com comparando a distancia de todas nossas palavras:



Essa linha diagonal que podemos ver 0 0 0 0  é a comparação de uma palavra com ela mesma. Por exemplo, a palavra 1 é exatamente igual a palavra 1, por isso é 0. Comparei todas as palavras com todas as palavras (inclusive ela mesma). Daí então extrai todos os pares de palavras que tenham distancia de 1.

Code:
['abaixo - baixo',
 'abater - bater',
 'achar - rachar',
 'adiante - diante',
 'afetivo - efetivo',
 'aflito - afoito',
 'afoito - aflito',
 'agora - amora',
 'agulha - fagulha',
 'alho - olho',
 'altitude - atitude',
 'alvo - alho',
 'amora - agora',
 'anel - anil',
 'anexo - nexo',
 'anil - anel',
 'anta - santa',
 'arca - arma',
 'areia - aveia',
 'argila - argola',
 'argola - argila',
 'arma - arca',
 'assado - passado',
 'atitude - altitude',
 'ator - fator',
 'aveia - veia',
 'babado - barbado',
 'bagulho - barulho',
 'bainha - tainha',
 'baixo - abaixo',
 'bala - vala',
 'balsa - valsa',
 'barata - batata',
 'barbado - babado',
 'barulho - bagulho',
 'batata - barata',
 'bater - abater',
 'batido - latido',
 'beato - boato',
 'beco - bico',
 'beira - feira',
 'beliche - boliche',
 'belo - selo',
 'besta - festa',
 'bico - beco',
 'bloco - floco',
 'boato - beato',
 'bode - boxe',
 'boldo - bolso',
 'bolha - rolha',
 'boliche - beliche',
 'bolo - bolso',
 'bolso - bolo',
 'bonde - bode',
 'bossa - fossa',
 'botina - rotina',
 'boxe - bode',
 'briga - brita',
 'brincar - trincar',
 'brita - briga',
 'busto - custo',
 'cabelo - camelo',
 'cabo - nabo',
 'cabuloso - fabuloso',
 'cadeira - madeira',
 'caibro - saibro',
 'caixa - faixa',
 'cajado - calado',
 'calado - ralado',
 'caldeira - cadeira',
 'camelo - cabelo',
 'carinho - marinho',
 'carneiro - carteiro',
 'caro - raro',
 'carreira - parreira',
 'carteiro - certeiro',
 'casca - lasca',
 'causar - pausar',
 'ceia - veia',
 'cenoura - censura',
 'censura - cenoura',
 'cera - fera',
 'cereja - cerveja',
 'cerrado - errado',
 'certeiro - carteiro',
 'cerveja - cereja',
 'cidade - idade',
 'cisco - risco',
 'coceira - coleira',
 'coelho - joelho',
 'coice - foice',
 'coifa - coisa',
 'coisa - coifa',
 'coleira - moleira',
 'copeiro - coveiro',
 'copo - topo',
 'corja - coruja',
 'corno - morno',
 'coruja - corja',
 'corvo - corno',
 'couro - touro',
 'coveiro - copeiro',
 'cuia - ceia',
 'cunhado - punhado',
 'custo - busto',
 'data - gata',
 'dente - rente',
 'diante - adiante',
 'dica - rica',
 'dinheiro - pinheiro',
 'doador - voador',
 'dobrado - dourado',
 'doca - dona',
 'domador - doador',
 'dona - lona',
 'dotado - lotado',
 'dourado - dobrado',
 'dublado - nublado',
 'dueto - gueto',
 'efetivo - afetivo',
 'eixo - fixo',
 'enxame - exame',
 'ereto - reto',
 'errado - cerrado',
 'escola - esmola',
 'esmola - escola',
 'exame - vexame',
 'fabuloso - cabuloso',
 'fagulha - agulha',
 'faixa - caixa',
 'farpa - ferpa',
 'fator - ator',
 'favela - fivela',
 'febre - lebre',
 'feio - seio',
 'feira - fera',
 'feixe - peixe',
 'feno - feto',
 'fera - ferpa',
 'ferpa - fera',
 'festa - fresta',
 'feto - teto',
 'figa - viga',
 'fita - figa',
 'fivela - favela',
 'fixo - eixo',
 'floco - bloco',
 'fluxo - luxo',
 'fogo - logo',
 'foice - coice',
 'folia - polia',
 'fonte - monte',
 'forno - morno',
 'forrar - torrar',
 'forte - fonte',
 'fossa - bossa',
 'freio - frevo',
 'frente - rente',
 'fresta - festa',
 'frevo - trevo',
 'fronte - frente',
 'frota - rota',
 'fundo - fungo',
 'fungo - fundo',
 'funil - fuzil',
 'furado - jurado',
 'fuzil - funil',
 'galho - alho',
 'gama - lama',
 'garoupa - garupa',
 'garupa - garoupa',
 'gasto - vasto',
 'gata - gama',
 'geada - gemada',
 'gelo - selo',
 'gemada - geada',
 'gemido - temido',
 'goela - moela',
 'goleiro - poleiro',
 'gosto - rosto',
 'gralha - tralha',
 'grato - prato',
 'grelha - orelha',
 'gruta - truta',
 'gueto - dueto',
 'gula - lula',
 'horta - porta',
 'idade - cidade',
 'ilustre - lustre',
 'incolor - indolor',
 'indolor - incolor',
 'inferno - inverno',
 'inverno - inferno',
 'isolado - solado',
 'jaca - jeca',
 'janela - panela',
 'jato - pato',
 'jeca - jaca',
 'jeito - peito',
 'joelho - coelho',
 'jogo - logo',
 'joio - jogo',
 'julho - junho',
 'junho - julho',
 'jurado - furado',
 'juro - ouro',
 'ladeira - madeira',
 'lama - gama',
 'lareira - ladeira',
 'lasca - casca',
 'laser - lazer',
 'lastro - mastro',
 'latente - patente',
 'latido - batido',
 'lazer - laser',
 'lebre - febre',
 'legado - ligado',
 'leigo - meigo',
 'lenda - tenda',
 'lente - rente',
 'lesado - pesado',
 'leste - lente',
 'levado - lesado',
 'liberal - literal',
 'licitar - limitar',
 'ligado - legado',
 'ligeiro - lixeiro',
 'limitar - licitar',
 'limpo - olimpo',
 'linda - vinda',
 'lisa - lixa',
 'literal - litoral',
 'litoral - literal',
 'lixa - rixa',
 'lixeiro - ligeiro',
 'logo - jogo',
 'loja - soja',
 'lombo - tombo',
 'lona - loja',
 'longe - monge',
 'lotado - dotado',
 'luar - suar',
 'lula - luva',
 'lustre - ilustre',
 'luva - lula',
 'luxo - fluxo',
 'machado - malhado',
 'madeira - ladeira',
 'malhado - malvado',
 'malvado - malhado',
 'mangue - sangue',
 'marcador - mercador',
 'margem - vargem',
 'marinho - carinho',
 'mastro - lastro',
 'mato - pato',
 'meia - veia',
 'meigo - leigo',
 'mercador - marcador',
 'mesa - meia',
 'miado - mimado',
 'mimado - miado',
 'moedor - roedor',
 'moela - mola',
 'mola - moela',
 'moleira - coleira',
 'molho - olho',
 'monge - monte',
 'monte - monge',
 'morno - forno',
 'moto - mato',
 'mugido - rugido',
 'munido - mugido',
 'nabo - nato',
 'nato - pato',
 'navio - pavio',
 'nexo - anexo',
 'noivo - novo',
 'nosso - osso',
 'novo - noivo',
 'nublado - dublado',
 'olho - molho',
 'olimpo - limpo',
 'orelha - ovelha',
 'osso - nosso',
 'ouro - touro',
 'ovelha - orelha',
 'padeiro - pandeiro',
 'pampa - tampa',
 'pandeiro - padeiro',
 'panela - janela',
 'papo - pato',
 'parreira - carreira',
 'parto - perto',
 'passado - assado',
 'patente - potente',
 'pato - prato',
 'pausar - causar',
 'pavio - navio',
 'pegada - pelada',
 'peito - perto',
 'peixe - feixe',
 'pelada - pegada',
 'peludo - veludo',
 'penhor - senhor',
 'pente - rente',
 'perito - perto',
 'perto - perito',
 'pesado - pescado',
 'pescado - pesado',
 'pinheiro - dinheiro',
 'poeira - zoeira',
 'poleiro - goleiro',
 'polia - polpa',
 'polpa - polia',
 'pombo - tombo',
 'ponta - porta',
 'porco - pouco',
 'porta - ponta',
 'potente - patente',
 'pouco - rouco',
 'pouso - pouco',
 'prato - preto',
 'prazo - prato',
 'pregar - prezar',
 'preto - reto',
 'prezar - pregar',
 'profeta - proveta',
 'proveta - profeta',
 'pular - puxar',
 'punhado - cunhado',
 'puxar - pular',
 'rabada - rajada',
 'rachar - achar',
 'raiar - vaiar',
 'rainha - tainha',
 'raio - raso',
 'rajada - rabada',
 'ralado - calado',
 'ralo - talo',
 'raro - raso',
 'raso - raro',
 'reator - reitor',
 'recente - repente',
 'redator - redutor',
 'redutor - sedutor',
 'regente - repente',
 'reitor - reator',
 'renda - tenda',
 'rente - pente',
 'repente - regente',
 'reto - teto',
 'rica - rixa',
 'ripa - rixa',
 'risco - cisco',
 'rixa - ripa',
 'roedor - moedor',
 'rolante - volante',
 'rolha - bolha',
 'rombo - tombo',
 'rosto - gosto',
 'rota - frota',
 'rotina - botina',
 'rouco - pouco',
 'rugido - mugido',
 'sacada - salada',
 'sadio - vadio',
 'safira - safra',
 'safra - safira',
 'saibro - caibro',
 'salada - sacada',
 'sangue - mangue',
 'santa - anta',
 'sarda - sarna',
 'sarna - sarda',
 'sebo - selo',
 'secar - socar',
 'sedutor - redutor',
 'seio - selo',
 'selar - telar',
 'selo - silo',
 'senhor - penhor',
 'sentar - tentar',
 'setor - vetor',
 'silo - selo',
 'socar - secar',
 'sogro - soro',
 'soja - soma',
 'solado - sovado',
 'soma - soja',
 'sono - soro',
 'soro - sono',
 'sovado - solado',
 'suar - suor',
 'sujar - suar',
 'suor - suar',
 'tainha - rainha',
 'taipa - tampa',
 'tala - vala',
 'talo - tala',
 'tampa - taipa',
 'tear - telar',
 'tecer - temer',
 'tecido - temido',
 'teia - veia',
 'telar - tear',
 'temer - tecer',
 'temido - tecido',
 'tenda - renda',
 'tentar - sentar',
 'teto - reto',
 'toalha - tralha',
 'toco - troco',
 'tombo - rombo',
 'topo - toco',
 'tora - tosa',
 'torrar - forrar',
 'tosa - tora',
 'touro - ouro',
 'tralha - toalha',
 'treco - troco',
 'trevo - treco',
 'trincar - brincar',
 'troco - treco',
 'truta - gruta',
 'turbo - turvo',
 'turco - turvo',
 'turvo - turco',
 'vadio - vazio',
 'vaga - zaga',
 'vagem - viagem',
 'vaiar - vazar',
 'vaidade - validade',
 'vala - valsa',
 'validade - vaidade',
 'valsa - vala',
 'vargem - virgem',
 'vasto - visto',
 'vazar - vaiar',
 'vazio - vadio',
 'veia - teia',
 'veludo - peludo',
 'vencedor - vendedor',
 'vendedor - vencedor',
 'vetor - setor',
 'vexame - exame',
 'viagem - virgem',
 'videira - viseira',
 'vieira - viseira',
 'viga - vigia',
 'vigia - viga',
 'vinda - linda',
 'virgem - viagem',
 'viseira - vieira',
 'visto - vasto',
 'voador - doador',
 'voar - zoar',
 'volante - votante',
 'votante - volante',
 'vulgo - vulto',
 'vulto - vulgo',
 'zaga - vaga',
 'zoar - voar',
 'zoeira - poeira']

Aí está.

Vou apagar elas e atualizar a planilha.

Agora com o código pronto, vai ser dificil botar palavras novas kkk Mas quando essa bagaça ficar pronta, vai estar tão boa quanto a lista em inglês.

Podemos ver que temos muitas comparações duplicadas.  A lista não é tão ruim quanto parece.

Porque assim como "abaixo" tem a distância 1 de "baixo", "baixo" também tem a distancia 1 de "baixo. Esta tudo duplicado.
Vou apagar as palavras menores (menor chance de novas colisoes), a nao ser que a maior seja muito ofensiva


edit:
pessoal, miutas palavras como "gelo" e "degelo". Vamos procurar palavras grandes, evitar palavras muito pequenas (4) e palavras que com certeza terao choque como idade (cidade etc

Tirei 242 palavras. Coloquei 21.
Trampo.
kkkk
legendary
Activity: 2688
Merit: 2297
Sobre as words, dei uma olhada e me pergunto se há alguma condição específica de gênero. Questiono pois vejo o uso de ambos os casos, por exemplo: bonita | bruxo. Não seria melhor ter uma padronização de gêneros?

Pensei nisso porém já está difícil com as atuais regras, com mais essa ficaria impossível.. Tem umas que dão conflito com outro idioma e só o outro gênero está disponível..

e ajuda bastante ter opção dupla na regra das 4 primeiras letras.. ex: gato e gata..
hero member
Activity: 1498
Merit: 557
Ôôôô delícia, o tipo de trabalho que eu adoro fazer! Tá dando até uma tristeza de não poder dar as caras mais vezes por aqui :/ não vou distribuir merits agora para não ser injusto se alguém entrar no barco antes do approval, farei questão de guardar ao menos um para todos que derem uma mão nesta IMPORTANTÍSSIMA empreitada!

Sobre as words, dei uma olhada e me pergunto se há alguma condição específica de gênero. Questiono pois vejo o uso de ambos os casos, por exemplo: bonita | bruxo. Não seria melhor ter uma padronização de gêneros?

Se eu puder ajudar de alguma forma (com uma latência considerável, é claro hehe Sad ), me avisem, a gente dá uma mão como puder!
legendary
Activity: 2352
Merit: 6089
bitcoindata.science
Mesmo com os acentos, a unica palavra que saiu foi bonsai, que voces ja haviam retirado.
Achei mais uma palavra repetida, oferta.

QUero fazer daquela levenshtein distance que mencionaram na aba gringa. Achoq ue passando isso, seremos aprovados. Pelo q eu entendi vao checar isso.

Criei um script para tirar as palavras que tem os 4 primeiros caracteres iguais

O resultado foi esse:

Code:
307     capi
308     capi
325     cast
326     cast
327     cata
328     cata
419     comp
420     comp
503     desc
504     desc
606     enqu
607     enqu
619     enxa
620     enxa
638     esfr
639     esfr
646     espe
647     espe
1140    marc
1141    marc
1213    molh
1214    molh
1380    para
1381    para
1483    prec
1484    prec

Vou tirar as que eu achei piores e estou fazendo o pull request.

2005 palavras...
legendary
Activity: 2352
Merit: 1121
☢️ alegotardo™️
Olha o estrago que vocês fizeram Tongue

Vejo que o final de semanaferiadão será longo Cheesy
member
Activity: 135
Merit: 49
Eu ainda não entendi muito bem tudo. Mas procurei na lista em espanhol e português e não tem algumas palavras. Vou deixar aqui de sugestão

elucidar
emancipar
psiquiatria
delírio
nuclear
evocar
mutual
exceder
oceano

talvez ajude  Smiley




Pages:
Jump to: