wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換するスクリプト等。
cd streamlit_qa_app
pip install -r requirements.txt
streamlit run app.py --server.address 0.0.0.0
export WORKING_DIR=/home/hotchpotch/src/huggingface.co/datasets/hotchpotch/wikipedia-passages-jawiki-embeddings/
python datasets_to_embs.py -w $WORKING_DIR -n passages-c400-jawiki-20230403 -p 'query: ' -m "intfloat/multilingual-e5-large"
python embs_to_faiss.py -w $WORKING_DIR -t passages-c400-jawiki-20230403/multilingual-e5-large-passage -f "IVF2048,PQ256"