Bautastein
Member
Norwegian - Norway
Olá
Eu estou a tentar limpar dados de frequências de uso de palavras portuguesas, para usar num programa de computador. Infelizmente, os dados crus incluem contrações coloquiais. Muitas palavras no conjunto de dados começam por um apóstrofo. Por exemplo:
'cola
'paço
'pécie
'tado
'tudo
Nestes casos, vejo que substituir o apóstrofo por "es", normalmente faz sentido:
'cola -> escola
'paço -> espaço
'pécie -> espécie
'tado -> estado
'tudo -> estudo
A maioria das vezes, a forma não contraída tem frequência superior à forma contraída, como:
'cola (frequência 10055) -> escola (frequência 66716)
Algumas vezes é o inverso, que me leva a perguntar se a minha transcrição pode ser errada:
Portanto, eu pergunto ao forum: Vendo as formas à esquerda, acham que as formas à direita são complementares? Em particular, eu pergunto-me se a forma 'tresse pode ser uma contração da palavra "interesse" em vez de "estresse". Neste nível baixo de frequência, é também possível que as formas sejam erros de ortografia. Infelizmente eu não tenho acesso aos fontes com contexto.
Eu estou a tentar limpar dados de frequências de uso de palavras portuguesas, para usar num programa de computador. Infelizmente, os dados crus incluem contrações coloquiais. Muitas palavras no conjunto de dados começam por um apóstrofo. Por exemplo:
'cola
'paço
'pécie
'tado
'tudo
Nestes casos, vejo que substituir o apóstrofo por "es", normalmente faz sentido:
'cola -> escola
'paço -> espaço
'pécie -> espécie
'tado -> estado
'tudo -> estudo
A maioria das vezes, a forma não contraída tem frequência superior à forma contraída, como:
'cola (frequência 10055) -> escola (frequência 66716)
Algumas vezes é o inverso, que me leva a perguntar se a minha transcrição pode ser errada:
'telionato (frequencia 260) | estelionato (frequência 219) |
'tresse (frequência 207) | estresse (frequência 147) |
'copeta (frequência 149) | escopeta (frequência 87) |
'tocagem (frequência 61) | estocagem (frequência 58) |
'tipulação (frequência 58) | estipulação (frequência 57) |
'paguete (frequência 42) | espaguete (frequência 24) |
'tadualização (frequência 33) | estadualização (frequência 9) |
'frega (frequência 22) | esfrega (frequência 23) |
Portanto, eu pergunto ao forum: Vendo as formas à esquerda, acham que as formas à direita são complementares? Em particular, eu pergunto-me se a forma 'tresse pode ser uma contração da palavra "interesse" em vez de "estresse". Neste nível baixo de frequência, é também possível que as formas sejam erros de ortografia. Infelizmente eu não tenho acesso aos fontes com contexto.
Last edited: