Skip to content

wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換するスクリプト等。

License

Notifications You must be signed in to change notification settings

hotchpotch/wikipedia-passages-jawiki-embeddings-utils

Repository files navigation

wikipedia-passages-jawiki-embeddings-utils

wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換するスクリプト等。

大元のデータ

生成したデータ

Web UI の実行例

cd streamlit_qa_app
pip install -r requirements.txt
streamlit run app.py --server.address 0.0.0.0

変換例

export WORKING_DIR=/home/hotchpotch/src/huggingface.co/datasets/hotchpotch/wikipedia-passages-jawiki-embeddings/
python datasets_to_embs.py -w $WORKING_DIR -n passages-c400-jawiki-20230403 -p 'query: ' -m "intfloat/multilingual-e5-large"
python embs_to_faiss.py -w $WORKING_DIR -t passages-c400-jawiki-20230403/multilingual-e5-large-passage -f "IVF2048,PQ256"

About

wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換するスクリプト等。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages