Skip to content

Latest commit

 

History

History
1605 lines (1405 loc) · 203 KB

README.zh-hans.md

File metadata and controls

1605 lines (1405 loc) · 203 KB

awesome-japanese-nlp-resources

Awesome License: CC0-1.0 CC0

专用于 Python 库、预训练模型、词典和日语 NLP 语料库的精选资源列表

此列表包含 1524 个日语 NLP 存储库。 Hugging Face Spaces 上提供了用于搜索这些存储库的工具。 您可以在Huggingface 上找到的模型,请查看这里

English | 日本語 (Japanese) | 繁體中文 (Chinese) | 简体中文 (Chinese)

The latest additions 🎉

Hugging Face 🤗

Corpus

  • jmed-llm - JMED-LLM:用于大型语言模型的日本医学评估数据集
  • lawtext - 日本法律的纯文本格式 简体中文
  • pdmocrdataset-part2 - OCR处理程序研究开发项目中创建的OCR学习数据集

Python

Rust

  • kanaria - 这个库提供了平假名、片假名、半角和全角之间的相互转换和识别功能。
  • japanese-address-parser - 这是一个将日本地址分割为都道府县/市区町村/町名/其他部分的库。

Dictionary

Updated on Jul 17, 2024

Contents

Python library

Morphology analysis

  • sudachi.rs - SudachiPy 0.6及以上版本已经开发为Sudachi.rs。
  • Janome - 用纯Python编写的日语形态分析引擎
  • mecab-python3 - mecab-python。mecab-python。您可以在此处找到原始版本:http://taku910.github.io/mecab/。
  • mecab - 这个仓库用于构建Windows 64位MeCab二进制文件并改进MeCab Python绑定。
  • fugashi - 一个Cython MeCab包装器,用于快速、Pythonic的日语分词和形态分析。
  • nagisa - 基于循环神经网络的日语分词器
  • pyknp - 一个用于JUMAN++/KNP的Python模块
  • Mykytea-python - KyTea的Python封装程序
  • konoha - Konoha:日语分词器的简单封装
  • natto-py - natto-py将Python编程语言与MeCab(日语的词性和形态分析器)结合起来。
  • rakutenma-python - 乐天 MA(Python 版本)
  • python-vaporetto - Vaporetto是一种快速且轻量级的基于点预测的分词器。这是Vaporetto的Python封装。
  • dango - 一个易于使用的日语文本分词器,旨在为语言学习者和非语言学家提供帮助。
  • rhoknp - 又一个Python绑定Juman++/KNP
  • python-vibrato - 基于维特比算法的加速分词器(Python封装)
  • jagger-python - Python绑定Jagger(基于模式的日语形态分析器的C++实现)
Name downloads/week total downloads stars
SudachiPy Downloads Downloads GitHub Repo stars
Janome Downloads Downloads GitHub Repo stars
mecab-python3 Downloads Downloads GitHub Repo stars
mecab Downloads Downloads GitHub Repo stars
fugashi Downloads Downloads GitHub Repo stars
nagisa Downloads Downloads GitHub Repo stars
pyknp Downloads Downloads GitHub Repo stars
Mykytea-python Downloads Downloads GitHub Repo stars
konoha Downloads Downloads GitHub Repo stars
natto-py Downloads Downloads GitHub Repo stars
rakutenma-python Downloads Downloads GitHub Repo stars
python-vaporetto Downloads Downloads GitHub Repo stars
dango Downloads Downloads GitHub Repo stars
rhoknp Downloads Downloads GitHub Repo stars
python-vibrato Downloads Downloads GitHub Repo stars
jagger-python Downloads Downloads GitHub Repo stars

Parsing

  • ginza - 一个基于通用依存关系的spaCy框架的日语NLP库。
  • cabocha - 另一个日语依存结构分析器
  • UniDic2UD - 现代和当代日语的分词器、词性标注器、词形还原器和依存句法分析器
  • camphr - Camphr - 用于创建管道组件的NLP库
  • SuPar-UniDic - 使用BERT模型的现代和当代日语分词器、词性标注器、词形还原器和依存句法分析器。
  • depccg - 带有超级标签和依存因素模型的A* CCG解析器
  • bertknp - 基于BERT的日语依存句法分析器
  • esupar - 使用BERT/RoBERTa/DeBERTa模型的分词器POS-标注器和依存句法分析器,适用于日语和其他语言。
  • yomikata - 使用经过微调的BERT模型的异音词消歧库。
  • jdepp-python - Python绑定J.DepP(日语依存解析器的C++实现)
Name downloads/week total downloads stars
ginza Downloads Downloads GitHub Repo stars
cabocha Downloads Downloads GitHub Repo stars
UniDic2UD Downloads Downloads GitHub Repo stars
camphr Downloads Downloads GitHub Repo stars
SuPar-UniDic Downloads Downloads GitHub Repo stars
depccg Downloads Downloads GitHub Repo stars
bertknp - - GitHub Repo stars
esupar Downloads Downloads GitHub Repo stars
yomikata Downloads Downloads GitHub Repo stars
jdepp-python Downloads Downloads GitHub Repo stars

Converter

  • pykakasi - 将日语假名汉字句子转换为假名罗马字的轻量级转换器。
  • cutlet - Python中的日语转罗马字转换器
  • alphabet2kana - 将英文字母转换为片假名
  • Convert-Numbers-to-Japanese - 将阿拉伯数字或“西方”风格的数字转换为日本语境。
  • mozcpy - Python的Mozc:假名汉字转换器
  • jamorasep - 日语文本解析器,将平假名/片假名字符串分离成音节(拼音)。
  • text2phoneme - 将日语文本转换为音素序列的脚本
  • jntajis-python - 一个快速的字符转换和音译库,基于日本国税局的法人番号系统定义的方案。
  • wiredify - 将日语假名从ba-bi-bu-be-bo转换为va-vi-vu-ve-vo
  • mecab-text-cleaner - 使用MeCab获取日语读音(yomigana)和重音的简单Python包(CLI/Python API)。
  • pynormalizenumexp - 使用Python实现NormalizeNumexp,用于提取和规范化数量和时间表达式。
Name downloads/week total downloads stars
pykakasi Downloads Downloads GitHub Repo stars
cutlet Downloads Downloads GitHub Repo stars
alphabet2kana Downloads Downloads GitHub Repo stars
Convert-Numbers-to-Japanese - - GitHub Repo stars
mozcpy Downloads Downloads GitHub Repo stars
jamorasep Downloads Downloads GitHub Repo stars
text2phoneme - - GitHub Repo stars
jntajis-python Downloads Downloads GitHub Repo stars
wiredify Downloads Downloads GitHub Repo stars
mecab-text-cleaner Downloads Downloads GitHub Repo stars
pynormalizenumexp Downloads Downloads GitHub Repo stars

Preprocessor

  • neologdn - 针对mecab-neologd的日语文本规范化工具
  • jaconv - 纯Python日语字符互转器,支持平假名、片假名、半角和全角。
  • mojimoji - 一个快速转换日语半角和全角字符的转换器
  • text-cleaning - 一款强大的日语网页文本清理工具
  • HojiChar - 管理多个前处理的文本前处理工具
  • utsuho - Utsuho是一个Python模块,用于在日语中半角片假名和全角片假名之间进行双向转换的工具。
  • python-habachen - 另一个快速的日语字符串转换器
Name downloads/week total downloads stars
neologdn Downloads Downloads GitHub Repo stars
jaconv Downloads Downloads GitHub Repo stars
mojimoji Downloads Downloads GitHub Repo stars
text-cleaning - - GitHub Repo stars
HojiChar Downloads Downloads GitHub Repo stars
utsuho Downloads Downloads GitHub Repo stars
python-habachen Downloads Downloads GitHub Repo stars

Sentence spliter

  • Bunkai - 日语文本句子边界消歧工具
  • japanese-sentence-breaker - 日语句子分割器
  • sengiri - 又一个用于日语文本的句子级分词器
  • budoux - 独立的。小巧的。语言中立的。BudouX是机器学习驱动的断行组织工具Budou的继承者。
  • ja_sentence_segmenter - Python的日语句子分割库
  • hasami - 一个用于对日语文本进行句子分割的工具
  • kuzukiri - 用Rust编写的Python日语文本分段器
  • ja-senter-benchmark - 日语句子分割工具比较
Name downloads/week total downloads stars
bunkai Downloads Downloads GitHub Repo stars
japanese-sentence-breaker Downloads Downloads GitHub Repo stars
sengiri Downloads Downloads GitHub Repo stars
budoux Downloads Downloads GitHub Repo stars
ja_sentence_segmenter Downloads Downloads GitHub Repo stars
hasami Downloads Downloads GitHub Repo stars
kuzukiri Downloads Downloads GitHub Repo stars
ja-senter-benchmark - - GitHub Repo stars

Sentiment analysis

  • oseti - 基于词典的日语情感分析
  • negapoji - 日语文档的负面和正面分类判断。
  • pymlask - 日语文本情感分析器
  • asari - Python实现的日语情感分析器。
Name downloads/week total downloads stars
oseti Downloads Downloads GitHub Repo stars
negapoji - - GitHub Repo stars
pymlask Downloads Downloads GitHub Repo stars
asari Downloads Downloads GitHub Repo stars

Machine translation

  • jparacrawl-finetune - JParaCrawl预训练神经机器翻译(NMT)模型的示例用法。
  • JASS - JASS:面向日本特定序列到序列预训练的神经机器翻译(LREC2020)和基于语言驱动的多任务预训练的低资源神经机器翻译(ACM TALLIP)。
  • PheMT - 一份针对日英机器翻译鲁棒性的现象级评估数据集。该数据集基于MTNT数据集,额外注释了四种语言现象:专有名词、缩写名词、口语表达和变体。COLING 2020。
  • VISA - 一份用于视觉场景感知机器翻译的模糊字幕数据集
Name downloads/week total downloads stars
jparacrawl-finetune - - GitHub Repo stars
JASS - - GitHub Repo stars
PheMT - - GitHub Repo stars
VISA - - GitHub Repo stars

Named entity recognition

  • namaco - 基于字符的命名实体识别。
  • entitypedia - Entitypedia是来自维基百科的扩展命名实体词典。
  • noyaki - 将字符跨度标签信息转换为基于分词文本的标签信息。
  • bert-japanese-ner-finetuning - 用于BERT模型微调的代码。这是一个用于创建和使用用于命名实体识别任务的模型的示例。
  • joint-information-extraction-hs - 基于详细的注释标准的病例报告语料库,进行实体和关系抽取精度推理的代码。
  • pygeonlp - pygeonlp,一个用于对日语文本进行地理标记的Python模块。
  • bert-ner-japanese - 使用BERT进行日语命名实体抽取的微调程序
Name downloads/week total downloads stars
namaco - - GitHub Repo stars
entitypedia - - GitHub Repo stars
noyaki Downloads Downloads GitHub Repo stars
bert-japanese-ner-finetuning - - GitHub Repo stars
joint-information-extraction-hs - - GitHub Repo stars
pygeonlp Downloads Downloads GitHub Repo stars
bert-ner-japanese - - GitHub Repo stars

OCR

  • Manga OCR - 关于日文文本的光学字符识别,主要关注于日本漫画。
  • mokuro - 在浏览器中阅读日本漫画,可选择文本。
  • handwritten-japanese-ocr - 使用Intel OpenVINO工具包,通过触摸面板绘制输入文本的手写日语OCR演示。
  • OCR_Japanease - 日语OCR
  • ndlocr_cli - NDLOCR应用程序
  • donut - OCR-free文档理解变压器(Donut)和合成文档生成器(SynthDoG)的官方实现,ECCV 2022
  • JMTrans - 漫画翻译器 - 从网址获取日本漫画以翻译漫画图像
  • Kindai-OCR - 用于识别现代日本杂志的OCR系统
  • text_recognition - NDLOCR文本识别模块
  • Poricom - 漫画图像的光学字符识别。漫画OCR桌面应用程序。
Name downloads/week total downloads stars
manga-ocr Downloads Downloads GitHub Repo stars
mokuro Downloads Downloads GitHub Repo stars
handwritten-japanese-ocr - - GitHub Repo stars
OCR_Japanease - - GitHub Repo stars
ndlocr_cli - - GitHub Repo stars
donut Downloads Downloads GitHub Repo stars
JMTrans - - GitHub Repo stars
Kindai-OCR - - GitHub Repo stars
text_recognition - - GitHub Repo stars
Poricom - - GitHub Repo stars

Tool for pretrained models

Name downloads/week total downloads stars
JGLUE - - GitHub Repo stars
ginza-transformers Downloads Downloads GitHub Repo stars
t5_japanese_dialogue_generation - - GitHub Repo stars
japanese_text_classification - - GitHub Repo stars
Japanese-BERT-Sentiment-Analyzer - - GitHub Repo stars
jmlm_scoring - - GitHub Repo stars
allennlp-shiba-model Downloads Downloads GitHub Repo stars
evaluate_japanese_w2v - - GitHub Repo stars
gector-ja - - GitHub Repo stars
Japanese-BPEEncoder - - GitHub Repo stars
Japanese-BPEEncoder_V2 - - GitHub Repo stars
transformer-copy - - GitHub Repo stars
japanese-stable-diffusion - - GitHub Repo stars
nagisa_bert Downloads Downloads GitHub Repo stars
prefix-tuning-gpt - - GitHub Repo stars
JGLUE-benchmark - - GitHub Repo stars
jptranstokenizer Downloads Downloads GitHub Repo stars
jp-stable - - GitHub Repo stars
compare-ja-tokenizer - - GitHub Repo stars
lm-evaluation-harness-jp-stable - - GitHub Repo stars
llm-lora-classification - - GitHub Repo stars
jp-stable - - GitHub Repo stars
rinna_gpt-neox_ggml-lora - - GitHub Repo stars
japanese-llm-roleplay-benchmark - - GitHub Repo stars
japanese-llm-ranking - - GitHub Repo stars
llm-jp-eval - - GitHub Repo stars
llm-jp-sft - - GitHub Repo stars
llm-jp-tokenizer - - GitHub Repo stars
japanese-lm-fin-harness - - GitHub Repo stars
ja-vicuna-qa-benchmark - - GitHub Repo stars
swallow-evaluation - - GitHub Repo stars

Others

  • namedivider-python - 一个将日本全名分成姓和名的工具。
  • asa-python - 一个精选的资源列表,专门介绍用于日语自然语言处理的Python库。
  • python_asa - Python版日本语意义角色标注系统(ASA)
  • toiro - 日本分词工具比较工具
  • ja-timex - 基于规则的解析器,用于提取/规范自然语言中的时间信息表达。
  • JapaneseTokenizers - 从文本数据中选择特征的一组度量标准
  • daaja - 这个仓库包含了针对日语自然语言处理的数据增强实现。
  • accel-brain-code - 这个仓库的目的是在概念验证(PoC)和研究开发(R&D)的背景下制作原型作为案例研究,这些案例研究我已经在我的网站上写过。主要研究主题是与表示学习相关的自动编码器,基于能量模型的统计机器学习,对抗生成网络等。
  • kyoto-reader - 一个用于KyotoCorpus、KWDLC和AnnotatedFKCCorpus的处理器。
  • nlplot - 自然语言处理可视化模块
  • rake-ja - 用于日语的快速自动关键词提取算法
  • jel - 日本实体链接器。
  • MedNER-J - 最新版本的MedEX/J(日本疾病名称提取器)
  • zunda-python - Zunda:Python的日语增强模态分析器客户端。
  • AIO2_DPR_baseline - https://www.nlp.ecei.tohoku.ac.jp/projects/aio/

https://www.nlp.ecei.tohoku.ac.jp/projects/aio/

  • showcase - 一个PyTorch实现的日语谓词-论元结构(PAS)分析器,基于Matsubayashi&Inui(2018)的论文,并进行了一些改进。
  • darts-clone-python - 飞镖克隆 Python 绑定
  • jrte-corpus_example - 日本现实文本蕴含语料库的示例代码
  • desuwa - 基于KNP规则文件的特征注释器,可将单词和短语转换为形态素(纯Python实现)。
  • HotPepperGourmetDialogue - 通过日语对话的餐厅搜索系统。
  • nlp-recipes-ja - 日语自然语言处理的样本代码
  • Japanese_nlp_scripts - Python处理日语文本的小例子脚本
  • DNorm-J - DNorm的日语版本
  • pyknp-eventgraph - EventGraph是一个用于日语高级自然语言处理应用程序开发的平台。
  • ishi - 石:日语意愿分类器
  • python-npylm - 基于贝叶斯层次语言模型的无监督形态素分析。
  • python-npycrf - 通过条件付概率场和贝叶斯层次语言模型的整合实现半监督形态分析。
  • unsupervised-pos-tagging - 无教师词性标注推测
  • negima - Negima是一个Python包,可以通过使用您定义的基于词性的规则来提取日语文本中的短语。
  • YouyakuMan - 使用BertSum作为摘要模型的提取式摘要器
  • japanese-numbers-python - 一个自然语言中的日语数字(汉字、阿拉伯数字)解析器。
  • kantan - 按部首查找日语单词
  • make-meidai-dialogue - 获取日语对话语料库
  • japanese_summarizer - 日本文章摘要器。
  • chirptext - ChirpText是Python的文本处理工具集合。
  • yubin - 日本地址Munger
  • jawiki-cleaner - 日语维基百科清理工具
  • japanese2phoneme - 一个将日语转换为音素的Python库。
  • anlp_nlp2021_d3-1 - 这个代码库包含与“基于情感的文本分类的日语分词器的实验评估”相关的代码。
  • aozora_classification - 关于 This project aims to classify Japanese sentence to how well similar to some Japanese classical writers, such as Soseki Natsume, Ogai Mori, Ryunosuke Akutagawa and so on.
  • aozora-corpus-generator - 从青空文库生成纯文本或标记化文本文件。
  • JLM - 一个快速的LSTM语言模型,适用于日语和中文等大词汇语言。
  • NTM - 日本文章的神经主题建模测试
  • EN-JP-ML-Lexicon - 这是一个英日机器学习和深度学习术语词典。
  • text-generation - 易于使用的脚本,可通过您自己的文本对GPT-2-JA进行微调,生成句子并自动发布推文。
  • chainer_nic - 神经图像描述(NIC)在Chainer上的预训练模型,其英语和日语图像描述数据集的预训练模型。
  • unihan-lm - “UnihanLM: 基于Unihan数据库的中日语言模型预训练的官方代码库”,AACL-IJCNLP 2020
  • mbart-finetuning - 用于微调mBART模型的代码。
  • xvector_jtubespeech - 在jtubespeech上的xvector模型
  • TinySegmenterMaker - 用于创建TinySegmenter学习模型的工具。
  • Grongish - 日语和格龙基语的相互转换脚本
  • WordCloud-Japanese - 使用WordCloud生成的日语文章,无需使用Mecab(形态素解析引擎),即可实现形态素解析式的显示脚本。
  • snark - 使用日语WordNet的DB访问库
  • toEmoji - 将日语文本转换为仅包含表情符号的文本的工具
  • termextract - - 专业术语抽取算法的实现练习
  • JDT-with-KenLM-scoring - 对于Japanese-Dialog-Transformer的响应候选,使用KenLM的N-gram语言模型进行评分,进行过滤或重新排序。
  • mixture-of-unigram-model - Python中的混合Unigram模型和无限混合Unigram模型。
  • hidden-markov-model - Python中的隐马尔可夫模型(HMM)和无限隐马尔可夫模型(iHMM)。
  • Ngram-language-model - Python中的Ngram语言模型。
  • ASRDeepSpeech - 使用PyTorch中的deepspeech2模型和Zakuro AI的支持进行自动语音识别。
  • neural_ime - 神经输入法引擎:神经输入法引擎
  • neural_japanese_transliterator - 神经网络能正确地将罗马字转写成日语吗?
  • tinysegmenter - 为日语指定的分词器
  • AugLy-jp - AugLy上的日语文本数据增强
  • furigana4epub - 一个使用Mecab和Unidic为日语epub书籍添加振仮名的Python脚本。
  • PyKatsuyou - 日语动词/形容词变形工具
  • jageocoder - 纯Python日本地址地理编码器
  • pygeonlp - pygeonlp,一个用于对日语文本进行地理标记的Python模块。
  • nksnd - 新的假名汉字转换引擎
  • JaMIE - 一个日本医疗信息提取工具包
  • fasttext-vs-word2vec-on-twitter-data - 这是有关fasttext和word2vec的比较,以及执行脚本和学习脚本。
  • minimal-search-engine - 最小的搜索引擎/PageRank/tf-idf
  • 5ch-analysis - 通过网络爬虫获取5ch的历史记录,跟踪调查过去流行的词语(例如,香具师,orz)等。
  • tweet_extructor - 用于Twitter日语评价分析数据集的推文下载器
  • japanese-word-aggregation - 基于Juman++和ConceptNet5.5聚合日语单词。
  • jinf - 一个日语变形转换器
  • kwja - 一个用于日语的统一语言分析器
  • mlm-scoring-transformers - 基于掩码语言模型评分的复制包(ACL2020)。
  • ClipCap-for-Japanese - [PyTorch] 日语ClipCap
  • SAT-for-Japanese - [PyTorch] 展示、关注和讲述日语
  • cihai - Python CJK(中文、日文、韩文)语言字典库
  • marine - MARINE:基于多任务学习的日语口音估计
  • whisper-asr-finetune - 微调Whisper ASR模型
  • japanese_chatbot - 使用BERT和Transformer解码器的日语聊天机器人的PyTorch实现
  • radicalchar - 部首文字规范化库
  • akaza - 又一个适用于IBus/Linux的日语输入法
  • posuto - 日本邮政编码数据。
  • tacotron2-japanese - Tacotron2的日语实现
  • ibus-hiragana - IBus平假名输入法
  • furiganapad - 假名垫
  • chikkarpy - 日语同义词库
  • ja-tokenizer-docker-py - Mecab + NEologd + Docker + Python3 的输出
  • JapaneseEmbeddingEval - 日语嵌入评估
  • gptuber-by-langchain - GPT将成为YouTuber。
  • shuwa - 扩展GNOME屏幕键盘以支持输入法
  • japanese-nli-model - 这个代码库提供了日语NLI模型的代码,这是一个经过微调的掩码语言模型。
  • tra-fugu - 使用FuguMT进行日英翻译和英日翻译的工具
  • fugumt - 这是一个使用在Plofile Hub Connect上公开的机器翻译引擎的翻译环境。可以翻译输入到表格中的字符串和PDF文件。
  • JaSPICE - JaSPICE:使用谓词-论元结构自动评估图像字幕模型的评估指标
  • Retrieval-based-Voice-Conversion-WebUI-JP-localization - 日本本地化
  • pyopenjtalk - Python封装OpenJTalk
  • yomigana-ebook - 通过在电子书中为每个汉字添加读音,使学习日语更容易。
  • N46Whisper - 基于耳语的日文字幕生成器
  • japanese_llm_simple_webui - Rinna-3.6B、OpenCALM等是用于日语支持的大规模语言模型(LLM)的简易Web界面。
  • pdf-translator - pdf-translator将英文PDF文件翻译成日语,保留原始布局。
  • japanese_qa_demo_with_haystack_and_es - 使用Haystack + Elasticsearch + wikipedia(ja)构建的日语问答系统示例
  • mozc-devices - 自动从code.google.com/p/mozc-morse导出
  • natsume - 一个日文文本前端处理工具包
  • vits-japros-webui - 日本语TTS(VITS)的学习和音频合成的Gradio WebUI
  • ja-law-parser - 一个日本法律解析器
  • dictation-kit - 使用Julius的日语口述套件
  • julius4seg - 使用Julius的分割支援工具
  • voicevox_engine - 免费使用的中等质量的文本朗读软件,VOICEVOX的语音合成引擎
  • LLaVA-JP - LLaVA-JP是一种由LLaVA方法训练的日本VLM。
  • RAG-Japanese - 用于日本低资源环境中的开源RAG和Llama指数的LLM
  • bertjsc - 使用BERT(遮蔽语言模型)的日语拼写错误校正器。基于BERT的日语校正器。
  • llm-leaderboard - 日本任务的llm评估项目
  • jglue-evaluation-scripts - 关于JGLUE的培训和评估脚本,这是一个日语理解基准测试。 Training and evaluation scripts for JGLUE, a Japanese language understanding benchmark
  • BLIP2-Japanese - 使用在日本数据集上预训练的模型来修改LAVIS的BLIP2 Q-former。
  • wikipedia-passages-jawiki-embeddings-utils - wikipedia 日本语的文本转换为各种日本语嵌入和faiss索引的脚本等。
  • simple-simcse-ja - 探索日本SimCSE
  • wikipedia-japanese-open-rag - 基于Wikipedia日语文章的Gradio基础RAG示例,用于回答用户问题。
  • gpt4-autoeval - 使用GPT-4来自动评估语言模型的响应的脚本
  • t5-japanese - 日语T5模型
  • japanese_llm_eval - 用于评估日本语LLM的存储库
  • jmteb - JMTEB(日本大规模文本嵌入基准测试)的评估脚本
  • pydomino - 这是一个用于对日语语音进行音素标签对齐的工具。
  • easynovelassistant - 轻量且无限制和审查的日语本地LLM“LightChatAssistant-TypeB”提供简易小说生成助手。通过本地特权的永久生成功能,堆积中奖抽奖。支持朗读功能。
  • clip-japanese - 日语CLIP模型
  • rime-jaroomaji - Rime输入法的日语罗马字输入方案
  • deep-question-generation - 使用深度学习生成的自动化测验(日语T5模型)
  • magpie-nemotron - 使用Magpie技术和Nemotron-4-340B-Instruct创建合成对话数据集的代码
  • qlora_ja - 在日语数据集上进行qlora指令调整的学习示例代码
  • mozcdic-ut-jawiki - Mozc UT Jawiki词典是从日文维基百科为Mozc生成的词典。
Name downloads/week total downloads stars
namedivider-python Downloads Downloads GitHub Repo stars
asa-python Downloads Downloads GitHub Repo stars
python_asa - - GitHub Repo stars
toiro Downloads Downloads GitHub Repo stars
ja-timex Downloads Downloads GitHub Repo stars
JapaneseTokenizers - - GitHub Repo stars
daaja Downloads Downloads GitHub Repo stars
accel-brain-code Downloads Downloads GitHub Repo stars
JGLUE - - GitHub Repo stars
kyoto-reader Downloads Downloads GitHub Repo stars
nlplot Downloads Downloads GitHub Repo stars
rake-ja - - GitHub Repo stars
jel Downloads Downloads GitHub Repo stars
MedNER-J - - GitHub Repo stars
zunda-python Downloads Downloads GitHub Repo stars
AIO2_DPR_baseline - - GitHub Repo stars
showcase Downloads Downloads GitHub Repo stars
darts-clone-python Downloads Downloads GitHub Repo stars
jrte-corpus_example - - GitHub Repo stars
desuwa Downloads Downloads GitHub Repo stars
HotPepperGourmetDialogue - - GitHub Repo stars
nlp-recipes-ja - - GitHub Repo stars
Japanese_nlp_scripts - - GitHub Repo stars
DNorm-J - - GitHub Repo stars
pyknp-eventgraph Downloads Downloads GitHub Repo stars
ishi Downloads Downloads GitHub Repo stars
python-npylm - - GitHub Repo stars
python-npycrf - - GitHub Repo stars
unsupervised-pos-tagging - - GitHub Repo stars
negima Downloads Downloads GitHub Repo stars
YouyakuMan - - GitHub Repo stars
japanese-numbers-python Downloads Downloads GitHub Repo stars
kantan - - GitHub Repo stars
make-meidai-dialogue - - GitHub Repo stars
japanese_summarizer - - GitHub Repo stars
chirptext Downloads Downloads GitHub Repo stars
yubin Downloads Downloads GitHub Repo stars
jawiki-cleaner Downloads Downloads GitHub Repo stars
japanese2phoneme Downloads Downloads GitHub Repo stars
anlp_nlp2021_d3-1 - - GitHub Repo stars
aozora_classification - - GitHub Repo stars
aozora-corpus-generator - - GitHub Repo stars
JLM - - GitHub Repo stars
NTM - - GitHub Repo stars
EN-JP-ML-Lexicon - - GitHub Repo stars
text-generation - - GitHub Repo stars
chainer_nic - - GitHub Repo stars
unihan-lm - - GitHub Repo stars
mbart-finetuning - - GitHub Repo stars
xvector_jtubespeech - - GitHub Repo stars
TinySegmenterMaker - - GitHub Repo stars
Grongish - - GitHub Repo stars
WordCloud-Japanese - - GitHub Repo stars
snark - - GitHub Repo stars
toEmoji - - GitHub Repo stars
termextract - - GitHub Repo stars
JDT-with-KenLM-scoring - - GitHub Repo stars
mixture-of-unigram-model - - GitHub Repo stars
hidden-markov-model - - GitHub Repo stars
Ngram-language-model - - GitHub Repo stars
ASRDeepSpeech - - GitHub Repo stars
neural_ime - - GitHub Repo stars
neural_japanese_transliterator - - GitHub Repo stars
tinysegmenter Downloads Downloads GitHub Repo stars
AugLy-jp Downloads Downloads GitHub Repo stars
furigana4epub Downloads Downloads GitHub Repo stars
PyKatsuyou Downloads Downloads GitHub Repo stars
jageocoder Downloads Downloads GitHub Repo stars
pygeonlp Downloads Downloads GitHub Repo stars
nksnd - - GitHub Repo stars
JaMIE - - GitHub Repo stars
fasttext-vs-word2vec-on-twitter-data - - GitHub Repo stars
minimal-search-engine - - GitHub Repo stars
5ch-analysis - - GitHub Repo stars
tweet_extructor - - GitHub Repo stars
japanese-word-aggregation - - GitHub Repo stars
jinf Downloads Downloads GitHub Repo stars
kwja Downloads Downloads GitHub Repo stars
mlm-scoring-transformers - - GitHub Repo stars
ClipCap-for-Japanese - - GitHub Repo stars
SAT-for-Japanese - - GitHub Repo stars
cihai Downloads Downloads GitHub Repo stars
marine Downloads Downloads GitHub Repo stars
whisper-asr-finetune - - GitHub Repo stars
japanese_chatbot - - GitHub Repo stars
radicalchar - - GitHub Repo stars
akaza - - GitHub Repo stars
posuto Downloads Downloads GitHub Repo stars
tacotron2-japanese - - GitHub Repo stars
ibus-hiragana - - GitHub Repo stars
furiganapad - - GitHub Repo stars
chikkarpy Downloads Downloads GitHub Repo stars
ja-tokenizer-docker-py - - GitHub Repo stars
JapaneseEmbeddingEval - - GitHub Repo stars
gptuber-by-langchain - - GitHub Repo stars
shuwa - - GitHub Repo stars
japanese-nli-model - - GitHub Repo stars
tra-fugu - - GitHub Repo stars
fugumt - - GitHub Repo stars
JaSPICE Downloads Downloads GitHub Repo stars
Retrieval-based-Voice-Conversion-WebUI-JP-localization - - GitHub Repo stars
pyopenjtalk Downloads Downloads GitHub Repo stars
yomigana-ebook Downloads Downloads GitHub Repo stars
N46Whisper - - GitHub Repo stars
japanese_llm_simple_webui - - GitHub Repo stars
pdf-translator - - GitHub Repo stars
japanese_qa_demo_with_haystack_and_es - - GitHub Repo stars
mozc-devices - - GitHub Repo stars
natsume Downloads Downloads GitHub Repo stars
vits-japros-webui - - GitHub Repo stars
ja-law-parser - - GitHub Repo stars
dictation-kit - - GitHub Repo stars
julius4seg - - GitHub Repo stars
voicevox_engine - - GitHub Repo stars
LLaVA-JP - - GitHub Repo stars
RAG-Japanese - - GitHub Repo stars
bertjsc - - GitHub Repo stars
llm-leaderboard - - GitHub Repo stars
jglue-evaluation-scripts - - GitHub Repo stars
BLIP2-Japanese - - GitHub Repo stars
wikipedia-passages-jawiki-embeddings-utils - - GitHub Repo stars
simple-simcse-ja - - GitHub Repo stars
wikipedia-japanese-open-rag - - GitHub Repo stars
gpt4-autoeval - - GitHub Repo stars
t5-japanese - - GitHub Repo stars
japanese_llm_eval - - GitHub Repo stars
jmteb - - GitHub Repo stars
pydomino - - GitHub Repo stars
easynovelassistant - - GitHub Repo stars
clip-japanese - - GitHub Repo stars
rime-jaroomaji - - GitHub Repo stars
deep-question-generation - - GitHub Repo stars
magpie-nemotron - - GitHub Repo stars
qlora_ja - - GitHub Repo stars
mozcdic-ut-jawiki - - GitHub Repo stars

C++

Morphology analysis

  • mecab - 又一个日语形态分析器
  • jumanpp - Juman++(一个形态分析工具包)
  • kytea - 京都文本分析工具包,用于词语分割和发音估计等。
Name downloads/week total downloads stars
mecab - - GitHub Repo stars
jumanpp - - GitHub Repo stars
kytea - - GitHub Repo stars

Parsing

  • cabocha - 另一个日语依存结构分析器
  • knp - 一个日语解析器
Name downloads/week total downloads stars
cabocha - - GitHub Repo stars
knp - - GitHub Repo stars

Others

  • jsc - 联合源通道模型用于日语假名汉字转换、汉语拼音输入和CJE混合输入。
  • aquaskk - 没有形态分析的输入法。
  • mozc - Mozc - 一款为多平台设计的日语输入法编辑器
  • trimatch - Trimatch:一个(精确|前缀|近似)字符串匹配库
  • resembla - Resembla:基于单词的日语相似句子搜索库
  • corvusskk - ▽▼ 适用于Windows的类似SKK的日语输入法编辑器
Name downloads/week total downloads stars
jsc - - GitHub Repo stars
aquaskk - - GitHub Repo stars
mozc - - GitHub Repo stars
trimatch - - GitHub Repo stars
resembla - - GitHub Repo stars
corvusskk - - GitHub Repo stars

Rust crate

Morphology analysis

  • lindera - 一个形态分析库。
  • vaporetto - Vaporetto:基于点预测的加速分词器
  • goya - 用Rust编写的日语形态分析
  • vibrato - 颤音:基于维特比加速的分词器
  • yoin - 一个用纯Rust编写的日语形态分析器
  • mecab-rs - 安全的Rust绑定,用于mecab词性和形态分析库。
  • awabi - 一个使用mecab字典的形态分析器
Name downloads/week total downloads stars
lindera - Crates.io GitHub Repo stars
vaporetto - Crates.io GitHub Repo stars
goya - Crates.io GitHub Repo stars
vibrato - Crates.io GitHub Repo stars
yoin - Crates.io GitHub Repo stars
mecab-rs - Crates.io GitHub Repo stars
awabi - Crates.io GitHub Repo stars

Converter

  • wana_kana_rust - 用于检查和转换日语字符(平假名、片假名和罗马字)的实用程序库。
  • unicode-jp-rs - 一个 Rust 库,用于将日语半角假名和全角英数字转换为普通字符。
  • kana - 【镜像】用于将罗马字文本转换为平假名或片假名的CLI程序。
  • kanaria - 这个库提供了平假名、片假名、半角和全角之间的相互转换和识别功能。
  • japanese-address-parser - 这是一个将日本地址分割为都道府县/市区町村/町名/其他部分的库。
Name downloads/week total downloads stars
wana_kana_rust - Crates.io GitHub Repo stars
unicode-jp-rs - Crates.io GitHub Repo stars
kana - - GitHub Repo stars
kanaria - - GitHub Repo stars
japanese-address-parser - - GitHub Repo stars

Search engine library

Name downloads/week total downloads stars
lindera-tantivy - Crates.io GitHub Repo stars
tantivy-vibrato - Crates.io GitHub Repo stars

Others

  • daachorse - 使用Rust中的紧凑双数组数据结构快速实现Aho-Corasick算法。
  • find-simdoc - 高效地找到所有相似文档的配对
  • crawdad - 使用字符级双数组字典树的自然语言词典 Rust 库。
  • tokenizer-speed-bench - 各种分词器的比较代码
  • stringmatch-bench - 这里提供基准工具来比较字符串匹配数据结构的性能。
  • vime - 使用Vim作为X11应用程序的输入法
  • voicevox_core - VOICEVOX的核心是一款中等质量的免费文本朗读软件。
  • akaza - 又一个适用于IBus/Linux的日语输入法
  • Jotoba - 一个免费的在线、自托管、多语言的日语词典。
  • dvorakjp-romantable - 谷歌日语输入用DvorakJP罗马字表 / DvorakJP罗马字表适用于谷歌日语输入
  • niinii - 使用Ichiran辅助阅读文本的日语注释器
  • cskk - SKK(简单假名汉字转换)库
  • japanki - 通过在CLI上做测验来学习日语词汇🇯🇵!
  • jpreprocess - 用于文本转语音应用程序的日语文本预处理器(OpenJTalk在Rust语言中的重写) 用于文本转语音应用程序的日语文本预处理器(用Rust语言重写的OpenJTalk)
  • listup_precedent - 使用软件从法院网站(https://www.courts.go.jp/index.html) 爬取裁判例数据并生成数据列表。
Name downloads/week total downloads stars
daachorse - Crates.io GitHub Repo stars
find-simdoc - Crates.io GitHub Repo stars
crawdad - Crates.io GitHub Repo stars
tokenizer-speed-bench - - GitHub Repo stars
stringmatch-bench - - GitHub Repo stars
vime - - GitHub Repo stars
voicevox_core - - GitHub Repo stars
akaza - - GitHub Repo stars
Jotoba - - GitHub Repo stars
dvorakjp-romantable - - GitHub Repo stars
niinii - - GitHub Repo stars
cskk - - GitHub Repo stars
japanki - - GitHub Repo stars
jpreprocess - - GitHub Repo stars
listup_precedent - - GitHub Repo stars

JavaScript

Morphology analysis

  • kuromoji.js - 日语形态分析器的JavaScript实现
  • rakutenma - Rakuten MA - 用纯JavaScript编写的中文和日文形态分析器(词分割器+词性标注器)。 Resources
  • node-mecab-ya - 又一个用于nodejs的mecab包装器
  • juman-bin - 一个用户可扩展的日语形态学分析器。日本语形态学分析系统。
  • node-mecab-async - 使用MeCab的异步日语形态分析器。
Name downloads/week total downloads stars
kuromoji.js npm npm GitHub Repo stars
rakutenma npm npm GitHub Repo stars
node-mecab-ya npm npm GitHub Repo stars
juman-bin npm npm GitHub Repo stars
node-mecab-async npm npm GitHub Repo stars

Converter

  • kuroshiro - 日语语言库,可将日语句子转换为平假名、片假名或罗马字,并支持振假名和送假名模式。
  • kuroshiro-analyzer-kuromoji - Kuroshiro 的 Kuromoji 形态分析器。
  • hepburn - 使用Hepburn罗马化将日语平假名和片假名转换为罗马字的Node.js模块。
  • japanese-numerals-to-number - 将日语数字转换为阿拉伯数字
  • jslingua - 处理文本的Javascript库:阿拉伯语、日语等。
  • WanaKana - 用于检测和转换平假名<-->片假名<-->罗马字的Javascript库
  • node-romaji-name - 规范和修复基于罗马字的日本姓名中常见的问题。
  • kyujitai.js - 用于使日文文本老式化的实用集合
  • normalize-japanese-addresses - 开源地址规范化库。
Name downloads/week total downloads stars
kuroshiro npm npm GitHub Repo stars
kuroshiro-analyzer-kuromoji npm npm GitHub Repo stars
hepburn npm npm GitHub Repo stars
japanese-numerals-to-number npm npm GitHub Repo stars
jslingua npm npm GitHub Repo stars
WanaKana npm npm GitHub Repo stars
node-romaji-name npm npm GitHub Repo stars
kyujitai.js npm npm GitHub Repo stars
normalize-japanese-addresses - - GitHub Repo stars

Others

  • bangumi-data - 日本动漫的原始数据
  • yomichan - Chrome和Firefox的日语弹出式词典扩展。
  • proofreading-tool - GUI工具,用于文本校对。
  • kanjigrid - 一个网页应用程序,展示了《记忆汉字》第六版中教授的2200个汉字。
  • japanese-toolkit - 单一代码库用于汉字、假名、日语数据库等其他内容。
  • analyze-desumasu-dearu - 解析敬体(ですます语气)和常体(である语气)的JavaScript库。
  • hatsuon - 日语声调工具
  • sentiment_ja_js - 使用JavaScript进行日语情感分析,使用sentiment_ja。
  • mecab-ipadic-seed - mecab-ipadic 种子词典阅读器
  • Japanese-Word-Of-The-Day - 每天一个不同的日语单词。
  • oskim - 扩展GNOME屏幕键盘以支持输入法
  • tweetMapping - 这是一个带有地理标签的推文数字档案,记录了发生在东日本大地震后24小时内发布的推文。
  • pitch-accent - 预测日语的声调重音
  • kana2ipa - 将「ひらがな」或「カタカナ」转换为日语发音时的音标(IPA)的命令。
  • voicevox - 免费使用的中等质量的文本朗读软件,VOICEVOX的编辑器
Name downloads/week total downloads stars
bangumi-data npm npm GitHub Repo stars
yomichan - - GitHub Repo stars
proofreading-tool - - GitHub Repo stars
kanjigrid - - GitHub Repo stars
japanese-toolkit - - GitHub Repo stars
analyze-desumasu-dearu npm npm GitHub Repo stars
hatsuon npm npm GitHub Repo stars
sentiment_ja_js - - GitHub Repo stars
mecab-ipadic-seed npm npm GitHub Repo stars
Japanese-Word-Of-The-Day npm npm GitHub Repo stars
oskim - - GitHub Repo stars
tweetMapping - - GitHub Repo stars
pitch-accent npm npm GitHub Repo stars
kana2ipa - - GitHub Repo stars
voicevox - - GitHub Repo stars

Go

Morphology analysis

  • kagome - 用纯Go编写的自包含日语形态分析器
Name downloads/week total downloads stars
kagome - - GitHub Repo stars

Others

  • ojosama - 将文本转换为百万天原萨洛梅小姐风格的口吻。
  • nihongo - 日语词典
  • yomichan-import - Yomichan的外部词典导入器。
  • imas-ime-dic - 《偶像大师》日语输入法词典(由imas-db.jp提供)
  • go-kakasi - 汉字转换为平假名/片假名/罗马字母,在围棋游戏中
  • go-moji - 一个用于全角/半角转换的Go库
  • ojichat - 生成一个似乎是叔叔通过LINE或邮件发送的句子。
Name downloads/week total downloads stars
ojosama - - GitHub Repo stars
nihongo - - GitHub Repo stars
yomichan-import - - GitHub Repo stars
imas-ime-dic - - GitHub Repo stars
go-kakasi - - GitHub Repo stars
go-moji - - GitHub Repo stars
ojichat - - GitHub Repo stars

Java

Morphology analysis

  • kuromoji - Kuromoji是一个自包含且非常易于使用的日语形态分析器,专为搜索而设计。
  • Sudachi - A Japanese Tokenizer for Business
  • SudachiDict - 一个Sudachi词汇表
Name downloads/week total downloads stars
kuromoji - - GitHub Repo stars
Sudachi - - GitHub Repo stars
SudachiDict - - GitHub Repo stars

Others

  • kanjitomo-ocr - 用于从图像中识别日语字符的Java库
  • jakaroma - 将日语汉字转换为罗马字(拉丁字母)的Java库和命令行工具。
  • kakasi-java - Java中的汉字音译为平假名/片假名/罗马字。
  • Kamite - 一款桌面语言沉浸式伴侣,适用于学习日语的学习者。
  • react-native-japanese-tokenizer - React Native异步日语分词原生插件,适用于iOS和Android。
  • elasticsearch-analysis-japanese - 日本分析器使用ElasticSearch的kuromoji日本分词器。
  • moji4j - 一个Java库,用于在日语平假名、片假名和罗马字之间进行转换。
  • neologdn-java - 针对mecab-neologd的日语文本规范化工具
  • elasticsearch-sudachi - 日本的elasticsearch分析插件
Name downloads/week total downloads stars
kanjitomo-ocr - - GitHub Repo stars
jakaroma - - GitHub Repo stars
kakasi-java - - GitHub Repo stars
Kamite - - GitHub Repo stars
react-native-japanese-tokenizer - - GitHub Repo stars
elasticsearch-analysis-japanese - - GitHub Repo stars
moji4j - - GitHub Repo stars
neologdn-java - - GitHub Repo stars
elasticsearch-sudachi - - GitHub Repo stars

Pretrained model

Word2Vec

Name downloads/week total downloads stars
japanese-words-to-vectors - - GitHub Repo stars
chiVe - - GitHub Repo stars
elmo-japanese - - GitHub Repo stars
embedrank - - GitHub Repo stars
aovec Downloads Downloads GitHub Repo stars
dependency-based-japanese-word-embeddings - - GitHub Repo stars
jawikivec - - GitHub Repo stars
jawiki_word_vector_updater - - GitHub Repo stars

Transformer based models

  • bert-japanese - 用于日语文本的BERT模型。
  • japanese-pretrained-models - rinna有限公司提供的生成日语预训练模型的代码。
  • bert-japanese - 使用SentencePiece的BERT模型用于日语文本。
  • SudachiTra - 用于变形金刚的日语分词器
  • japanese-dialog-transformers - NTT有提供用于评估日语预训练模型的代码。
  • shiba - CANINE是一种高效的字符级转换器,提供了Pytorch实现和预训练的日语模型。
  • Dialog - 使用BERT和Transformer解码器的日语聊天机器人的PyTorch实现
  • language-pretraining - PyTorch实现的BERT和ELECTRA模型,适用于日语文本。
  • medbertjp - 在日本医疗领域中,对预训练BERT模型进行试验。
  • ILYS-aoba-chatbot - ILYS-傲霸聊天机器人
  • t5-japanese - 用于预训练日语T5模型的代码
  • pytorch_bert_japanese - 使用Pytorch利用BERT的日语预训练模型。
  • Laboro-BERT-Japanese - 劳动BERT日语:使用Web语料库预训练的日语BERT
  • RoBERTa-japanese - 日语BERT预训练模型
  • aMLP-japanese - 用于日语的aMLP Transformer模型
  • bert-japanese-aozora - 使用UniDic和SudachiPy进行预分词的日语BERT,训练数据来自青空文库和维基百科。
  • sbert-ja - 用于 Hugging Face 模型中心训练 Sentence BERT 日语模型的代码
  • BERT-Japan-vaccination - “日本推文情感分析与疫苗接种比较”的官方微调代码。
  • gpt2-japanese - 日本GPT2生成模型
  • text2text-japanese - 基于GPT-2的文本转换模型
  • gpt-ja - HuggingFace的转换器GPT-2日语模型
  • friendly_JA-Model - 使用友好的日语语料库训练的MT模型,尝试使用拉丁/英语衍生的片假名词汇表,而不是标准的汉日词汇表,使日语更易于/更容易接近西方人。
  • albert-japanese - 使用SentencePiece的BERT模型用于日语文本。
  • ja_text_bert - 用于在日语Wikipedia语料库上生成BERT预训练模型的存储库。
  • DistilBERT-base-jp - 一个在维基百科上训练的日本DistilBERT预训练模型。
  • bert - 该存储库提供了使用RoBERTa在日语语料库上预训练的代码片段。我们的数据集包括日语维基百科和网络滚动文章,总共25GB。发布的模型是基于HuggingFace的模型构建的。
  • Laboro-DistilBERT-Japanese - 劳罗DistilBERT日语
  • luke - LUKE -- 基于知识嵌入的语言理解
  • GPTSAN - 通用开关变压器基于日语模式
  • japanese-clip - 日本CLIP由rinna有限公司制造。
  • AcademicBART - 我们在学术数据库CiNii Articles的论文摘要上预训练了一个基于BART的日语掩码语言模型。
  • AcademicRoBERTa - 我们在学术数据库CiNii Articles的论文摘要上预训练了一个基于RoBERTa的日语掩码语言模型。
  • LINE-DistilBERT-Japanese - DistilBERT模型在131GB的日语网络文本上进行了预训练。教师模型是LINE内部构建的BERT-base模型。
  • Japanese-Alpaca-LoRA - 使用翻译成日语的Stanford Alpaca数据集对LLaMA进行微调,创建了Low-Rank Adapter,并提供了链接和生成示例代码。
  • albert-japanese-tinysegmenter - 提供预训练模型、代码和指南,以在日本维基百科资源上预训练官方ALBERT(https://github.com/google-research/albert)。
  • japanese-llama-experiment - 日本的LLaMa实验
  • easylightchatassistant - EasyLightChatAssistant是一个轻量级的、没有审查或限制的本地日语模型LightChatAssistant,在KoboldCpp中可以轻松尝试的环境。
Name downloads/week total downloads stars
bert-japanese - - GitHub Repo stars
japanese-pretrained-models - - GitHub Repo stars
bert-japanese - - GitHub Repo stars
SudachiTra Downloads Downloads GitHub Repo stars
japanese-dialog-transformers - - GitHub Repo stars
shiba Downloads Downloads GitHub Repo stars
Dialog - - GitHub Repo stars
language-pretraining - - GitHub Repo stars
medbertjp - - GitHub Repo stars
ILYS-aoba-chatbot - - GitHub Repo stars
t5-japanese - - GitHub Repo stars
pytorch_bert_japanese - - GitHub Repo stars
Laboro-BERT-Japanese - - GitHub Repo stars
RoBERTa-japanese - - GitHub Repo stars
aMLP-japanese - - GitHub Repo stars
bert-japanese-aozora - - GitHub Repo stars
sbert-ja - - GitHub Repo stars
BERT-Japan-vaccination - - GitHub Repo stars
gpt2-japanese - - GitHub Repo stars
text2text-japanese - - GitHub Repo stars
gpt-ja - - GitHub Repo stars
friendly_JA-Model - - GitHub Repo stars
albert-japanese - - GitHub Repo stars
ja_text_bert - - GitHub Repo stars
DistilBERT-base-jp - - GitHub Repo stars
bert - - GitHub Repo stars
Laboro-DistilBERT-Japanese - - GitHub Repo stars
luke - - GitHub Repo stars
GPTSAN - - GitHub Repo stars
japanese-clip - - GitHub Repo stars
AcademicBART - - GitHub Repo stars
AcademicRoBERTa - - GitHub Repo stars
LINE-DistilBERT-Japanese - - GitHub Repo stars
Japanese-Alpaca-LoRA - - GitHub Repo stars
albert-japanese-tinysegmenter - - GitHub Repo stars
japanese-llama-experiment - - GitHub Repo stars
easylightchatassistant - - GitHub Repo stars

ChatGPT

  • VRChatGPT - 使用ChatGPT程序,可以在VRChat上进行聊天。
  • AITuberDegikkoMirii - 我们正在开发AITuber的基础部分。
  • wanna - 带自然语言的Shell命令启动器
  • ChatdollKit - ChatdollKit 可以让你将你的3D模型制作成聊天机器人。
  • ChuanhuChatGPTJapanese - ChatGPT API的日语GUI
  • AISisterAIChan - 这是搭载了ChatGPT3.5的伺かGhost“AI妹妹爱酱”。使用需要另外获取ChatGPT的API密钥。
  • vrchatbot - 用于创建VRChat AI机器人的代码库
  • gptuber-by-langchain - GPT将成为YouTuber。
  • openai-chatfriend - 一个使用Nuxt 3构建的聊天框应用程序,由Open AI文本完成端点提供支持。您可以选择不同的AI朋友个性。默认情况下,它会用日语回复。您可以使用此应用程序练习您的日语技能!
  • chrome-ext-translate-to-hiragana-with-chatgpt - 这个Chrome扩展程序可以使用ChatGPT将选定的日语文本翻译成平假名。
  • azure-search-openai-demo - 在这个样例中,我们使用检索增强生成模式,展示了几种方法来创建类似于ChatGPT的体验,以适用于您自己的数据。
  • chatvrm - ChatVRM是一个可以在浏览器中轻松与3D角色交谈的演示应用程序。
  • sftly-replace - 一个Chrome扩展,可以轻松替换所选文本
  • summarize_arxv - 用图表总结arXiv论文
  • aiavatarkit - 快速构建基于人工智能的对话化头像
  • pva-aoai-integration-solution - 这个存储库是为了将在神户市政府试用ChatGPT的流程等转化为解决方案并公开而创建的。
  • jp-azureopenai-samples - 为了提供使用Azure OpenAI实现应用程序的参考,我们免费提供应用程序示例(参考架构、示例代码和部署步骤)。
  • character_chat - 这是一个使用OpenAI API的聊天脚本,可以与设定的角色用日语进行对话。
  • chatgpt-slackbot - 用于在Slack上使用OpenAI的ChatGPT API的Slackbot脚本(假设使用日语)
  • chatgpt-prompt-sample-japanese - 这是ChatGPT的提示示例。
  • kanji-flashcard-app-gpt4 - 一个使用Python和Langchain构建的日语汉字闪卡应用,结合了GPT-4的智能功能。
  • IgakuQA - 评估GPT-4和ChatGPT在日本医学执照考试中的表现
  • japagen - 使用LLM在日语任务中生成伪学习数据的研究
Name downloads/week total downloads stars
VRChatGPT - - GitHub Repo stars
AITuberDegikkoMirii - - GitHub Repo stars
wanna Downloads Downloads GitHub Repo stars
ChatdollKit - - GitHub Repo stars
ChuanhuChatGPTJapanese - - GitHub Repo stars
AISisterAIChan - - GitHub Repo stars
vrchatbot - - GitHub Repo stars
gptuber-by-langchain - - GitHub Repo stars
openai-chatfriend - - GitHub Repo stars
chrome-ext-translate-to-hiragana-with-chatgpt - - GitHub Repo stars
azure-search-openai-demo - - GitHub Repo stars
chatvrm - - GitHub Repo stars
sftly-replace - - GitHub Repo stars
summarize_arxv - - GitHub Repo stars
aiavatarkit - - GitHub Repo stars
pva-aoai-integration-solution - - GitHub Repo stars
jp-azureopenai-samples - - GitHub Repo stars
character_chat - - GitHub Repo stars
chatgpt-slackbot - - GitHub Repo stars
chatgpt-prompt-sample-japanese - - GitHub Repo stars
kanji-flashcard-app-gpt4 - - GitHub Repo stars
IgakuQA - - GitHub Repo stars
japagen - - GitHub Repo stars

Dictionary

  • mecab-ipadic-neologd - 基于网络语言资源的新词典,适用于mecab-ipadic。
  • tdmelodic - 一个日语口音词典生成器
  • jamdict - Python 3 库,用于操作 Jim Breen 的 JMdict、KanjiDic2、JMnedict 和汉字-部首映射。
  • unidic-py - 通过pip安装的Unidic包。
  • Japanese-Company-Lexicon - 日本公司词典(JCLdic)
  • manbyo-sudachi - Sudachi专用万病词典
  • jawiki-kana-kanji-dict - 从维基百科(日文版)生成SKK/MeCab词典
  • JIWC-Dictionary - 用于查找与文本相关的情感的字典
  • JumanDIC - 这个仓库包含源字典文件,用于构建 JUMAN 和 Juman++ 的字典。
  • ipadic-py - IPAdic打包为Python易用的形式。
  • unidic-lite - 一个小版本的UniDic,方便进行pip安装。
  • emoji-ime-dictionary - 用于在日语中输入表情符号的 IME 附加词典,如 Google 日语输入法等,可将日语转换为表情符号的 IME 扩展词典。
  • google-ime-dictionary - 用于日英转换和英语缩写展开的 IME 附加词典 orange_book,可在 Google 日本语输入或 ATOK 等中实现从日语到英语的和英转换和英语缩写展开的 IME 扩展词典。
  • dic-nico-intersection-pixiv - NicoNico大百科和Pixiv百科全书共同部分的IME词典。
  • google-ime-user-dictionary-ja-en - 这是GoogleIME用的日语片假名词典项目的存档,从片假名词(即日语外来词)翻译成英语。
  • emoticon - Google日本语输入的表情符号字典∩(,,Ò‿Ó,,)∩
  • mecab-mozcdic - 这是将开源mozc词典转换为MeCab词典格式的结果。
  • denonbu-ime-dic - 电音IME:用于Microsoft IME等的“电音部”相关术语词典。
  • nijisanji-ime-dic - 这是一个“虹三”相关术语词典,旨在供Microsoft IME等使用。
  • pokemon-ime-dic - 这是一个包含目前已知的所有宝可梦名称的术语词典,旨在供Microsoft IME等输入法使用。
  • EJDict - 英日词典数据(公共领域)EJDict-hand
  • Ayashiy-Nipongo-Dic - 通过使用贵样笔画,可以正规地使用日语。
  • genshin-dict - 这是一个可在Windows/macOS上使用的原神词典。
  • jmdict-simplified - JMdict和JMnedict的JSON格式
  • mozcdict-ext - 将外部词汇转换为Mozc系统词典
  • mh-dict-jp - 想要制作Monster Hunter的用户词典…
  • jitenbot - 将日语字典网站和应用程序中的数据转换为便携文件格式
  • mecab-unidic-neologd - 基于网络语言资源的mecab-unidic新词典
  • hololive-dictionary - 这是关于Hololive(Hololive Production)的词典文件。您可以使用./dictionary文件夹中的文本文件将单词添加到输入法中。详细信息请参阅README.md。
  • jmdict-yomitan - Yomitan / Yomichan的JMdict,JMnedict,KANJIDIC。
  • yomichan-jlpt-vocab - Yomichan中单词的JLPT级别标签
  • Jitendex - 一个免费且开放许可的日英词典,可与多个词典客户端兼容。
  • jiten - 基于jmdict/kanjidic的日本安卓/命令行/网络词典 — 日英词典、汉英字典、德英词典、荷英词典
  • pixiv-yomitan - Pixiv百科全书关于与那城的词典
  • uchinaaguchi_dict - 乌恩辞典(冲绳语辞典)
  • yomitan-dictionaries - 与读谷村的日语和中文词典。
  • mouse_over_dictionary - 将鼠标悬停在单词上自动读取的通用词典工具
Name downloads/week total downloads stars
mecab-ipadic-neologd - - GitHub Repo stars
tdmelodic - - GitHub Repo stars
jamdict Downloads Downloads GitHub Repo stars
unidic-py Downloads Downloads GitHub Repo stars
Japanese-Company-Lexicon - - GitHub Repo stars
manbyo-sudachi - - GitHub Repo stars
jawiki-kana-kanji-dict - - GitHub Repo stars
JIWC-Dictionary - - GitHub Repo stars
JumanDIC - - GitHub Repo stars
ipadic-py Downloads Downloads GitHub Repo stars
unidic-lite Downloads Downloads GitHub Repo stars
emoji-ime-dictionary - - GitHub Repo stars
google-ime-dictionary - - GitHub Repo stars
dic-nico-intersection-pixiv - - GitHub Repo stars
google-ime-user-dictionary-ja-en - - GitHub Repo stars
emoticon - - GitHub Repo stars
mecab-mozcdic - - GitHub Repo stars
denonbu-ime-dic - - GitHub Repo stars
nijisanji-ime-dic - - GitHub Repo stars
pokemon-ime-dic - - GitHub Repo stars
EJDict - - GitHub Repo stars
Ayashiy-Nipongo-Dic - - GitHub Repo stars
genshin-dict - - GitHub Repo stars
jmdict-simplified - - GitHub Repo stars
mozcdict-ext - - GitHub Repo stars
mh-dict-jp - - GitHub Repo stars
jitenbot - - GitHub Repo stars
mecab-unidic-neologd - - GitHub Repo stars
hololive-dictionary - - GitHub Repo stars
jmdict-yomitan - - GitHub Repo stars
yomichan-jlpt-vocab - - GitHub Repo stars
Jitendex - - GitHub Repo stars
jiten - - GitHub Repo stars
pixiv-yomitan - - GitHub Repo stars
uchinaaguchi_dict - - GitHub Repo stars
yomitan-dictionaries - - GitHub Repo stars
mouse_over_dictionary - - GitHub Repo stars

Corpus

Part-of-speech tagging / Named entity recognition

Name downloads/week total downloads stars
ner-wikipedia-dataset - - GitHub Repo stars
IOB2Corpus - - GitHub Repo stars
TwitterCorpus - - GitHub Repo stars
UD_Japanese-PUD - - GitHub Repo stars
UD_Japanese-GSD - - GitHub Repo stars
KWDLC - - GitHub Repo stars
AnnotatedFKCCorpus - - GitHub Repo stars

Parallel corpus

Name downloads/week total downloads stars
small_parallel_enja - - GitHub Repo stars
Web-Crawled-Corpus-for-Japanese-Chinese-NMT - - GitHub Repo stars
CourseraParallelCorpusMining - - GitHub Repo stars
JESC - - GitHub Repo stars
AMI-Meeting-Parallel-Corpus - - GitHub Repo stars
giant_ja-en_parallel_corpus - - GitHub Repo stars
jesc_small - - GitHub Repo stars
graded-enja-corpus - - GitHub Repo stars
cjk-compsci-terms - - GitHub Repo stars
Laboro-ParaCorpus - - GitHub Repo stars
google-vs-deepl-je - - GitHub Repo stars

Dialog corpus

  • JMRD - 日本电影推荐对话数据集
  • open2ch-dialogue-corpus - 使用爬虫程序从2ch论坛抓取并创建的对话语料库
  • BSD - 商业场景对话语料库
  • asdc - 住宿搜索对话语料库
  • japanese-corpus - 用于seq2seq等的日语对话数据
  • BPersona-chat - 这个仓库包含了日英双语聊天语料库BPersona-chat,该语料库已发表在AACL-IJCNLP 2022的Eval4NLP 2022研讨会上的论文《聊天翻译错误检测以协助跨语言交流》中。
  • japanese-daily-dialogue - 日本日常对话语料库,或日本语日常対話コーパス,是一个高质量的多轮对话数据集,包含五个主题的日常对话:日常生活,学校,旅行,健康和娱乐。
  • llm-japanese-dataset - LLM构建用的日语聊天数据集
Name downloads/week total downloads stars
JMRD - - GitHub Repo stars
open2ch-dialogue-corpus - - GitHub Repo stars
BSD - - GitHub Repo stars
asdc - - GitHub Repo stars
japanese-corpus - - GitHub Repo stars
BPersona-chat - - GitHub Repo stars
japanese-daily-dialogue - - GitHub Repo stars
llm-japanese-dataset - - GitHub Repo stars

Others

  • jrte-corpus - 日本现实文本蕴含语料库(NLP 2020,LREC 2020)
  • kanji-data - 一个带有更新的JLPT级别和WaniKani信息的JSON汉字数据集。
  • JapaneseWordSimilarityDataset - 日语词语相似度数据集
  • simple-jppdb - 一个用于日语文本简化的释义数据库
  • chABSA-dataset - 查基的基于方面的情感分析数据集
  • JaQuAD - JaQuAD:用于机器阅读理解的日语问答数据集(2022年,Skelter Labs)
  • JaNLI - 日本对抗自然语言推理数据集
  • ebe-dataset - 基于证据的解释数据集(AACL-IJCNLP 2020)
  • emoji-ja - UNICODE表情符号的日语读音/关键词/分类词典
  • nayose-wikipedia-ja - 由维基百科创建的日语姓名对齐数据集
  • ja.text8 - 用于词嵌入的日语文本8语料库。
  • ThreeLineSummaryDataset - 3行摘要数据集
  • japanese - 这个仓库包含了由利兹大学语料库确定的按频率排序的44,998个最常见的日语单词列表。
  • kanji-frequency - 从各种来源收集的汉字使用频率数据
  • TEDxJP-10K - TEDxJP-10K ASR 评估数据集
  • CoARiJ - 日本年度报告语料库
  • technological-book-corpus-ja - 收集了用日语编写的技术书籍的生语料库/工具
  • ita-corpus-chuwa - ITA语料库的分块词注释
  • wikipedia-utils - 用于自然语言处理前处理维基百科文本的实用脚本
  • inappropriate-words-ja - 收集日语中不适当的表达方式。可用于自然语言处理时的数据清理等。
  • house-of-councillors - 我们整理了参议院官方网站上的会派、议员、议案和质询意见书的数据。
  • house-of-representatives - 国会议案数据库:众议院
  • STAIR-captions - STAIR字幕:大规模日本图像字幕数据集
  • Winograd-Schema-Challenge-Ja - Winograd模式挑战的日语翻译
  • speechBSD - 一个带有音频和说话人属性信息的BSD语料库扩展
  • ita-corpus - ITA语料库的文章列表
  • rohan4600 - 摩拉平衡型日语语料库
  • anlp-jp-history - 语言处理学会年度大会演讲的完整列表和机器可读版本等。
  • keigo_transfer_task - 敬语转换任务的评估数据集
  • loanwords_gairaigo - 日语中的英语借词
  • jawikicorpus - 日语维基百科链接语料库
  • GeneralPolicySpeechOfPrimeMinisterOfJapan - 这是日本首相一般政策演讲的语料库。
  • wrime - WRIME:主观和客观情感分析数据集
  • jtubespeech - JTubeSpeech:从YouTube收集的日语语音语料库
  • WikipediaWordFrequencyList - 在日语维基百科中使用频繁的单词列表
  • kokkosho_data - 车辆不具合信息数据集
  • pdmocrdataset-part1 - 在数字化资料OCR文本化业务中创建的OCR学习用数据集
  • huriganacorpus-ndlbib - 从全国书志数据创建的假名数据集
  • jvs_hiho - JVS(日本通用语音)语料库的自制标签
  • hirakanadic - 允许Sudachi从任何复合词列表中将平假名标准化为片假名。
  • animedb - 约100年的动画作品列表数据库
  • security_words - 与网络安全相关的公共机构的日英对应
  • Data-on-Japanese-Diet-Members - 日本国会议员的数据
  • honkoku-data - 这是一个历史资料的市民参与型翻刻平台“大家一起翻刻”的文本数据存储处。在这里可以找到由日本历史文献众包翻译平台“大家一起翻刻”创建的转录文本。
  • wikihow_japanese - 维基百科数据集(日语版)
  • engineer-vocabulary-list - 日英工程师词汇表
  • JSICK - 日语组合知识句子(JSICK)数据集/JSICK压力测试集
  • phishurl-list - 来自JPCERT/CC的网络钓鱼URL数据集
  • jcms - 一个日语多个专业领域语料库(JCMS)
  • aozorabunko_text - www.aozora.gr.jp的纯文本档案
  • friendly_JA-Corpus - friendly_JA是一个平行的日语到日语语料库,旨在通过使用拉丁/英语衍生的片假名词汇表,而不是标准的汉日词汇表,使日语更容易理解。
  • topokanji - 拓扑排序的汉字列表,以实现有效学习。
  • isbn4groups - 与ISBN-13标准下的日语出版物(978-4-XXXXXXXXX)相关的数据等。
  • NMeCab - NMeCab:关于.NET上的日语形态分析器
  • ndlngramdata - 由数字化资料创建的OCR文本数据的ngram频率统计信息数据集
  • ndlngramviewer_v2 - 2023年1月更新的NDL Ngram Viewer源代码等套装
  • data_set - 法律·判例相关的数据集
  • huggingface-datasets_wrime - WRIME用于huggingface数据集。
  • ndl-minhon-ocrdataset - NDL古典籍OCR学习用数据集(大家一起翻刻加工数据)
  • PAX_SAPIENTICA - GIS和考古模拟器。正在开发中,预计2023年发布。
  • j-liwc2015 - LIWC2015的日语版本
  • huggingface-datasets_livedoor-news-corpus - 日本Livedoor新闻语料库,用于huggingface数据集。
  • huggingface-datasets_JGLUE - JGLUE:适用于huggingface数据集的日语通用语言理解评估
  • commonsense-moral-ja - JCommonsenseMorality是通过众包创建的数据集,反映了日本标注者的常识道德。
  • comet-atomic-ja - COMET-ATOMIC ja COMET-ATOMIC ja
  • dcsg-ja - 对话常识图(日语)
  • japanese-toxic-dataset - 《日本毒性模式的提案和评估》提供了一个日语毒性模式和数据集。
  • camera - CAMERA(CyberAgent多模态广告文本生成评估)是日本广告文本生成数据集。
  • Japanese-Fakenews-Dataset - 日语假新闻数据集
  • jpn_explainable_qa_dataset - jpn可解释问答数据集
  • copa-japanese - COPA数据集(日语)
  • WLSP-familiarity - “语义原则词汇表(WLSP)”中的单词熟悉度率
  • ProSub - 代词替代和称谓词的跨语言研究
  • commonsense-moral-ja - JCommonsenseMorality是通过众包创建的数据集,反映了日本标注者的常识道德。
  • ramendb - 从某种数据库(https://supleks.jp/)进行的网络爬虫工具和收集的数据。
  • huggingface-datasets_CAMERA - 针对huggingface数据集的CAMERA(CyberAgent多模态广告文本生成评估)
  • FactCheckSentenceNLI-FCSNLI- - 事实核查句子NLI数据集
  • databricks-dolly-15k-ja - 这是一个将 databricks/dolly-v2-12b 的训练数据中使用的 databricks-dolly-15k.jsonl 翻译成日语的数据集。
  • EaST-MELD - EaST-MELD是基于MELD的情感感知语音翻译的英日数据集。
  • meconaudio - Mecon Audio(医疗会议音频)是厚生劳动省主办的先进医疗会议记录的朗读数据集。
  • japanese-addresses - 全国镇街道级别(277,191条)的地址数据开放数据
  • aozorasearch - Groonga为青空文库提供的全文搜索系统。
  • llm-jp-corpus - 该存储库包含用于重现LLM-jp语料库的脚本。
  • alpaca_ja - 这是将alpaca数据集翻译成日语的内容。
  • instruction_ja - 日语指示数据
  • japanese-family-names - 前5000个日本姓氏,附带读音,按频率排序。
  • kanji-data-media - 来自Kanji alive的关于汉字、部首、媒体文件、字体和相关资源的日语语言数据
  • reazonspeech - 在家构建大规模的日语音频语料库
  • huriganacorpus-aozora - 青空文库和Sapie的点字数据创建的假名数据集
  • koniwa - 一个用日语语言注释的开放声音收集
  • JMMLU - 日本語大规模多任务语言理解基准测试
  • hurigana-speech-corpus-aozora - 青空文库振り仮名注释附带音频语料库数据集
  • jqara - JQaRA:具有检索增强功能的日语问答系统 - 用于检索增强(RAG)评估的日语问答数据集
  • jemhopqa - JEMHopQA(日本可解释的多跳问题回答)是一个日本多跳QA数据集,可以评估内部推理。
  • jacred - 日文文档级关系抽取数据集存储库(计划于三月发布)。
  • jades - JADES是一个用于日语文本简化的数据集,详细描述在《JADES: 面向非母语者的日语新文本简化数据集》(论文即将发布)。
  • do-not-answer-ja - 2023年8月,墨尔本大学发布了安全性评估数据集“Do-Not-Answer”,现在已经将其自动翻译成日语,以便用于评估日语LLM,并根据日本文化进行了修正的数据集。
  • oasst1-89k-ja - OpenAssistant的开源数据OASST1已被翻译成日语的数据集。
  • jacwir - JaCWIR:日本休闲网络信息检索 用于评估日语信息检索的小型休闲Web标题和摘要数据集
  • japanese-technical-dict - 适用于日语学习者的常用片假名和原始单词对照表在科学技术行业中。
  • j-unimorph - 日语UniMorph数据集
  • GazeVQA - LREC-COLING 2024 论文《一个注视引导的视觉问答数据集,用于澄清模糊的日语问题》的数据集
  • J-CRe3 - J-CRe3实验代码(上田等人,LREC-COLING,2024)
  • jmed-llm - JMED-LLM:用于大型语言模型的日本医学评估数据集
  • lawtext - 日本法律的纯文本格式 简体中文
  • pdmocrdataset-part2 - OCR处理程序研究开发项目中创建的OCR学习数据集
Name downloads/week total downloads stars
jrte-corpus - - GitHub Repo stars
kanji-data - - GitHub Repo stars
JapaneseWordSimilarityDataset - - GitHub Repo stars
simple-jppdb - - GitHub Repo stars
chABSA-dataset - - GitHub Repo stars
JaQuAD - - GitHub Repo stars
JaNLI - - GitHub Repo stars
ebe-dataset - - GitHub Repo stars
emoji-ja - - GitHub Repo stars
nayose-wikipedia-ja - - GitHub Repo stars
ja.text8 - - GitHub Repo stars
ThreeLineSummaryDataset - - GitHub Repo stars
japanese - - GitHub Repo stars
kanji-frequency - - GitHub Repo stars
TEDxJP-10K - - GitHub Repo stars
CoARiJ - - GitHub Repo stars
technological-book-corpus-ja - - GitHub Repo stars
ita-corpus-chuwa - - GitHub Repo stars
wikipedia-utils - - GitHub Repo stars
inappropriate-words-ja - - GitHub Repo stars
house-of-councillors - - GitHub Repo stars
house-of-representatives - - GitHub Repo stars
STAIR-captions - - GitHub Repo stars
Winograd-Schema-Challenge-Ja - - GitHub Repo stars
speechBSD - - GitHub Repo stars
ita-corpus - - GitHub Repo stars
rohan4600 - - GitHub Repo stars
anlp-jp-history - - GitHub Repo stars
keigo_transfer_task - - GitHub Repo stars
loanwords_gairaigo - - GitHub Repo stars
jawikicorpus - - GitHub Repo stars
GeneralPolicySpeechOfPrimeMinisterOfJapan - - GitHub Repo stars
wrime - - GitHub Repo stars
jtubespeech - - GitHub Repo stars
WikipediaWordFrequencyList - - GitHub Repo stars
kokkosho_data - - GitHub Repo stars
pdmocrdataset-part1 - - GitHub Repo stars
huriganacorpus-ndlbib - - GitHub Repo stars
jvs_hiho - - GitHub Repo stars
hirakanadic Downloads Downloads GitHub Repo stars
animedb - - GitHub Repo stars
security_words - - GitHub Repo stars
Data-on-Japanese-Diet-Members - - GitHub Repo stars
honkoku-data - - GitHub Repo stars
wikihow_japanese - - GitHub Repo stars
engineer-vocabulary-list - - GitHub Repo stars
JSICK - - GitHub Repo stars
phishurl-list - - GitHub Repo stars
jcms - - GitHub Repo stars
aozorabunko_text - - GitHub Repo stars
friendly_JA-Corpus - - GitHub Repo stars
topokanji - - GitHub Repo stars
isbn4groups - - GitHub Repo stars
NMeCab - - GitHub Repo stars
ndlngramdata - - GitHub Repo stars
ndlngramviewer_v2 - - GitHub Repo stars
data_set - - GitHub Repo stars
huggingface-datasets_wrime - - GitHub Repo stars
ndl-minhon-ocrdataset - - GitHub Repo stars
PAX_SAPIENTICA - - GitHub Repo stars
j-liwc2015 - - GitHub Repo stars
huggingface-datasets_livedoor-news-corpus - - GitHub Repo stars
huggingface-datasets_JGLUE - - GitHub Repo stars
commonsense-moral-ja - - GitHub Repo stars
comet-atomic-ja - - GitHub Repo stars
dcsg-ja - - GitHub Repo stars
japanese-toxic-dataset - - GitHub Repo stars
camera - - GitHub Repo stars
Japanese-Fakenews-Dataset - - GitHub Repo stars
jpn_explainable_qa_dataset - - GitHub Repo stars
copa-japanese - - GitHub Repo stars
WLSP-familiarity - - GitHub Repo stars
ProSub - - GitHub Repo stars
commonsense-moral-ja - - GitHub Repo stars
ramendb - - GitHub Repo stars
huggingface-datasets_CAMERA - - GitHub Repo stars
FactCheckSentenceNLI-FCSNLI- - - GitHub Repo stars
databricks-dolly-15k-ja - - GitHub Repo stars
EaST-MELD - - GitHub Repo stars
meconaudio - - GitHub Repo stars
japanese-addresses - - GitHub Repo stars
aozorasearch - - GitHub Repo stars
llm-jp-corpus - - GitHub Repo stars
alpaca_ja - - GitHub Repo stars
instruction_ja - - GitHub Repo stars
japanese-family-names - - GitHub Repo stars
kanji-data-media - - GitHub Repo stars
reazonspeech - - GitHub Repo stars
huriganacorpus-aozora - - GitHub Repo stars
koniwa - - GitHub Repo stars
JMMLU - - GitHub Repo stars
hurigana-speech-corpus-aozora - - GitHub Repo stars
jqara - - GitHub Repo stars
jemhopqa - - GitHub Repo stars
jacred - - GitHub Repo stars
jades - - GitHub Repo stars
do-not-answer-ja - - GitHub Repo stars
oasst1-89k-ja - - GitHub Repo stars
jacwir - - GitHub Repo stars
japanese-technical-dict - - GitHub Repo stars
j-unimorph - - GitHub Repo stars
GazeVQA - - GitHub Repo stars
J-CRe3 - - GitHub Repo stars
jmed-llm - - GitHub Repo stars
lawtext - - GitHub Repo stars
pdmocrdataset-part2 - - GitHub Repo stars

Tutorial

Name downloads/week total downloads stars
spacy_tutorial - - GitHub Repo stars
fastTextJapaneseTutorial - - GitHub Repo stars
allennlp-NER-ja - - GitHub Repo stars
chariot-PyTorch-Japanese-text-classification - - GitHub Repo stars
ginza-examples - - GitHub Repo stars
DocumentClassificationUsingBERT-Japanese - - GitHub Repo stars
BERT_Japanese_Google_Colaboratory - - GitHub Repo stars
bert-book - - GitHub Repo stars
janome-tutorial - - GitHub Repo stars
handson-language-models - - GitHub Repo stars
JapaneseNLI - - GitHub Repo stars
deep-learning-with-pytorch-ja - - GitHub Repo stars
bert-classification-tutorial - - GitHub Repo stars
python-nlp-book - - GitHub Repo stars
llm-book - - GitHub Repo stars
nlp2024-tutorial-3 - - GitHub Repo stars
japanese-ir-tutorial - - GitHub Repo stars
nlpbook - - GitHub Repo stars
kantan-regex-book - - GitHub Repo stars

Research summary

Name downloads/week total downloads stars
awesome-bert-japanese - - GitHub Repo stars
GEC-Info-ja - - GitHub Repo stars
dataset-list - - GitHub Repo stars
tuning_playbook_ja - - GitHub Repo stars
japanese-pitch-accent-resources - - GitHub Repo stars
awesome-japanese-llm - - GitHub Repo stars

Reference

Contributors