Skip to content

Dicionário bilíngue do português brasileiro para o okinawano implementado em um sistema de busca com informações de entonação, verbete e classe gramatical

Notifications You must be signed in to change notification settings

Lisanju/geoki-jiten

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GEOki Jiten (v1.1.2-beta)

Dicionário bilíngue do português brasileiro para o okinawano implementado em um sistema de busca com informações de entonação, verbete e classe gramatical.

Projeto associado ao Grupo de Estudos Okinawanos da Universidade de São Paulo (GEOki-USP), desenvolvido pela linguista Elisa Anju Lardapide.

Índice

  1. Sobre o database;
  2. Metodologia para o desenvolvimento do GEOki Jiten;
    2.1 Tratamento do database;
    2.2 Tradução e revisão;
    2.3 Implementação do site;
  3. Classes gramaticais;
  4. Pronúncia e entonação.

Sobre o database

O database utilizado pelo GEOki Jiten é de autoria do National Institute for Japanese Language and Linguistics (NINJAL) - 国立国語研究所資料集5 - 沖縄語辞典 (2001), disponibilizado publicamente através da licença Creative Commons 4.0, sendo possível acessá-lo no endereço: https://mmsrv.ninjal.ac.jp/okinawago/.

O database conta com 14549 entradas da variedade shuri da língua okinawana, que é uma importante variedade linguística representante do arquipélago ryukyuano, falada originalmente na antiga capital de Okinawa - atual cidade de Naha.

Não foram feitas alterações sobre a grafia do léxico, mantendo a transcrição fonológica realizada pelos autores.

Metodologia para o desenvolvimento do GEOki Jiten

O desenvolvimento do dicionário foi dividido em três etapas:

  • Tratamento do database;
  • Tradução e revisão;
  • Implementação do site.

Etapa 1 - Tratamento do database

O database utilizado foi o "(本文篇) 沖縄首里方言辞典 - 沖縄語辞典 (2001)", disponível gratuitamente no repositório de databases do NINJAL em formato Excel (extensão .xlsx).

O arquivo é dividido em 14450 linhas e 12 colunas. Com exceção da primeira linha (que contém os nomes das colunas), cada linha corresponde a uma entrada lexical e cada coluna corresponde a: 1. Página no livro do dicionário; 2. Entrada lexical; 3. Entonação; 4. Classe gramatical; 5. Tipo de linguagem (literária etc.); 6. Suplemento; 7. Verbete I; 8. Verbete II; 9. Verbete III; 10. Verbete IV; 11. Verbete V; 12. Observação.

Para o tratamento do database, primeiro foi criada uma cópia do arquivo original .xlsx, chamada "ok_data.xlsx". Em seguida, foram retiradas da cópia as colunas "1", "5" e "6" - ou seja, apenas foram mantidas as informações de entrada lexical, entonação, classe gramatical, verbete e observação.

Após a exclusão das colunas, iniciei o processo de conversão de extensão do arquivo "ok_data.xlsx" para "ok_data.json". Para isso, programei um algoritmo em Python, através das bibliotecas jsons e openpyxl, que permitiu a manipulação automatizada do arquivo Excel e a conversão de .xlsx para .json.

Cada linha da planilha Excel se tornou um conjunto de dados em JSON, assim como cada coluna em Excel se tornou uma chave em JSON. O valor de cada célula das colunas em Excel se tornaram dados em JSON, como no exemplo a seguir:

EXCEL

Palavra Entonação Classe Verbete 1 Verbete 2 Verbete 3 Verbete 4 Verbete 5 Observações
?aa Átona Interjeição Ah. O som feito ao experimentar algo profundamente

JSON

    {
        "Palavra": "?aa",
        "Entonação": "Átona",
        "Classe": "Interjeição",
        "Verbete1": "Ah. O som feito ao experimentar algo profundamente.",
        "Verbete2": null,
        "Verbete3": null,
        "Verbete4": null,
        "Verbete5": null,
        "Observações": null
    }

Após a conversão do arquivo inteiro para "ok_data.json", passei para a próxima etapa.

Etapa 2 - Tradução e revisão

Originalmente, as informações sobre o okinawano no database estavam em japonês. Porém, para os fins do projeto, seria necessário ter essas informações disponíveis em português brasileiro. O arquivo, no entanto, conta com mais de 10000 sentenças em japonês para serem traduzidas - o que seria um grande trabalho para este projeto independente, ainda mais quando se considera que não tenho fundos para contratar mais tradutores.

Por isso, optei por desenvolver um algoritmo em Python que, através da biblioteca translators, traduziu automaticamente todos os dados do japonês para o português. O motor de tradução automática utilizado foi o Baidu. As traduções, no entanto, contam com diversos problemas:

  • Misturam variedades do português brasileiro com o português europeu;
  • Apresentam erros derivados de um raciocínio estatístico que desconsidera regras gramaticais e de transformação em linguagem natural;
  • Dependeram de pouco ou nenhum conhecimento epistêmico, resultando em traduções literais e/ou descontextualizadas;
  • Ineficiência em processar caracteres especiais.

Por esses motivos, é mais do que essencial uma etapa manual de revisão e quality-check da tradução. Esse trabalho manual é realizado por mim, linguista por formação e com experiência em tradução do japonês para o português brasileiro. Para a realização do trabalho, então, utilizei o software de tradução memoQ, que permite um melhor gerenciamento do arquivo de tradução, quality-check automatizado e fácil customização do arquivo. O GEOki Jiten está na versão beta 1.1.2, é importante notar que o processo de revisão e quality-check ainda está em andamento - por se tratar de um trabalho não-financiado e manual realizado por apenas uma pessoa, para que se obtenha um resultado de qualidade será necessário bastante tempo. Não há previsão para a versão final do GEOki Jiten.

Etapa 3 - Implementação do site

Após o tratamento do database e da sua tradução, iniciei a etapa de implementação do site. A ideia é que o GEOki Jiten possa ser facilmente acessado em qualquer dispositivo que esteja conectado na Internet. Por isso, um website me pareceu ser a melhor escolha de implementação. Trata-se de um site simples, em que as tecnologias utilizadas foram: HTML, CSS, JavaScript, JSON, Bootstrap e GitHub Pages.

O site é composto por uma única página (index.html) de estrutura simples, que contém blocos para o logo do site, para a barra de pesquisa e para o rodapé. O arquivo do site, além da página "index.html", é subdividido em outras 4 pastas: data, styles, scripts e imgs:

  • A pasta data contém o database "ok_data.json" traduzido com os dados da língua okinawana;
  • A pasta styles contém as folhas de estilo "style.css" e "bootstrap.min.css", em que "style.css" modifica diretamente o design da página "index.html" e "bootstrap.min.css" retorna um modelo de licença Bootstrap;
  • A pasta scripts contém os scripts "script.js" e "bootstrap.bundle.min.js", em que "boostrap.bundle.min.js" retorna um modelo de script de licença Bootstrap e "script.js" possui a programação em JavaScript para interação do usuário com o site, gerenciamento da palavra digitada pelo usuário, busca pela palavra na base de dados "ok_data.json" e modificação da página "index.html" para a exibição das informações sobre a palavra pesquisada;
  • A pasta imgs contém todos os arquivos de imagens utilizados pelo site em formato .png.

Com a estruturação e programação do site finalizadas, hospedei o site através da plataforma GitHub Pages, que oferece um serviço de hosting gratuito e consideravelmente seguro quando em comparação com outros serviços. Ainda há alterações necessárias para serem feitas no site, como: modificar a exibição do rodapé, incluir uma seção de ajuda com informações linguísticas do okinawano, ajustar a interface do site no modo celular, estilizar as caixas de cada resultado de pesquisa.

Essa foi a metodologia utilizada para o desenvolvimento do GEOki Jiten. Note que o projeto ainda está em desenvolvimento. Aceito qualquer sugestão que puderem oferecer, mas peço que, por favor, enviem as sugestões pelo e-mail "[email protected]", escrevendo no título do e-mail "GEOki Jiten Sugestão". Evite utilizar os chats do Instagram, WhatsApp, Discord, Twitter ou qualquer outro serviço que não seja pelo e-mail. Trata-se de uma questão de conveniência e organização.

Classes gramaticais

As nomenclaturas utilizadas para se referir às classes, funções e expressões gramaticais das palavras do database são:

Substantivo Advérbio Afixo Prefixo Partícula auxiliar Sufixo
Adjunto adnominal Verbo transitivo Partícula gramatical Verbo Função de partícula Expressão
Interjeição Adjetivo Verbo intransitivo Conjunção Irregular Formulaico
Grupo de (CLASSE) Negação de (CLASSE) Função igual a (CLASSE)

Pronúncia e entonação

Para auxiliar no uso do dicionário GEOki Jiten, há a seguir uma apresentação dos sons que compõem o inventário fonológico do okinawano, bem como suas grafias.

Vogais i e a o u
Semivogais j w
  • Diferentemente do japonês-padrão, o som de "u" é pronunciado com os lábios arredondados (como no português brasileiro);
  • O som de "o" é pronunciado como no japonês-padrão ou um pouco mais longo;
  • Salvo exceções, "e" e "o" são sempre pronunciadas como vogais longas;
  • Os sons "e" e "o" são pronunciadas como vogais curtas quando aparecem antes de "N" e "Q", ou seja, "eN", "eQ", "oN" e "oQ";
  • A semivogal "j" aparece antes das vogais "a", "u" e "o" e antes das consoantes "h", "?", " ’ ", "p", "b", "m" e "n";
  • A semivogal "w" aparece antes das vogais "i" e "e" e antes das consoantes "h", "?", " ’ ", "k" e "g".

--

Consoantes h ? k g
p b m s c
z n r t d
  • As consoantes com grafia "ş", "ç" e "ᶎ" são equivalentes com "s", "c" e "z", mas denotam estilos utilizados por classes privilegiadas;
  • O som "?" é contrastante, ou seja, sua presença antes de uma vogal altera o significado da palavra (?utu - som / ’utu - marido);
  • As sílabas " ’i" e " ’u" podem ser escritas como "ji" e "wu" respectivamente;
  • A consoante "?" pode aparecer antes de "N" (?Nmi - ameixa).

--

Outros sons N Q
  • O sons "N" e "Q" são consideravelmente equivalentes ao "ン" e "ッ" do japonês-padrão respectivamente.

--

Sílabas hi hee ha hoo hu hja hjoo hju hwi hwee hwa
?i ?ee ?a ?oo ?u ?ja ?joo ?ju ?wi ?wee ?wa
’i ’ee ’oo ’u ’ja ’joo ’ju ’wi ’wee ’wa
ki kee ka ko ku kwi kwee kwa
gi gee ga goo gu gwi gwee gwa
pi pee pa poo pu pja pjoo pju
bi bee ba boo bu bja bjoo bju
mi mee ma moo mu mja mjoo mju
si see sa soo su sja sjoo sju
şi şee
ci cee ca coo cu
çi çee ça çoo çu
zi zee za zoo zu
ᶎi ᶎee ᶎa ᶎoo ᶎu
ni nee na noo nu nja njoo nju
ri ree ra roo ru rja rjoo rju
ti tee ta too tu
di dee da doo du

--

Em okinawano só há contraste fonológico em nível prosódico para dois tipos de entonação:

Entonação Palavra átona Palavra de tom decrescente
  • Palavras átonas começam com a primeira sílaba em tom médio ou baixo, mas terminam com um tom crescente nas últimas sílabas (?ami ↑ - chuva);
  • Palavras com tom decrescente começam com a primeira sílaba em tom alto, mas terminam com um tom decrescente a partir da segunda sílaba - caso a palavra tenha apenas duas sílabas, a primeira é pronunciada em tom alto e a segunda em tom baixo (nacigwii ↓ - choro).