Cách sử dụng tokenizer của thư viện Transformers để encode input #1

quancq · 2020-11-10T08:39:41Z

Khi chạy đoạn code bên dưới thì em nhận được list id của các từ đã bị bỏ dấu so với câu đầu vào. Em muốn hỏi cách để encode và sử dụng thư viện cho đúng ạ. Em mong muốn encoded_ids là [2, 9, 10, 11, 3]. Em cảm ơn mọi người đã giải đáp ạ.

import torch
from transformers import AutoTokenizer, AutoModel

if __name__ == "__main__":
    #model_name = "FPTAI/velectra-base-discriminator-cased"
    model_name = "FPTAI/vibert-base-cased"
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    vocab = tokenizer.get_vocab()
    id2token = {idx: token for token, idx in vocab.items()}

    word_ids = [9, 10, 11]
    sent = tokenizer.decode(word_ids)
    print(sent)       # có là và
    encoded_ids = tokenizer.encode(sent)
    for word_id in encoded_ids:
        print(word_id, id2token[word_id])
        # 2 [CLS]
        # 382 co
        # 523 la
        # 391 va
        # 3 [SEP]

The text was updated successfully, but these errors were encountered:

ngocnp · 2021-12-17T07:20:20Z

Mình dùng BertJapaneseTokenizer thì tokenize được token có dấu nhé

sinhvtr · 2021-12-31T08:20:24Z

Mình cũng cùng câu hỏi. Làm sao để lúc decode mình recover được đầy đủ dấu má vậy tác giả?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Cách sử dụng tokenizer của thư viện Transformers để encode input #1

Cách sử dụng tokenizer của thư viện Transformers để encode input #1

quancq commented Nov 10, 2020

ngocnp commented Dec 17, 2021 •

edited

Loading

sinhvtr commented Dec 31, 2021

Cách sử dụng tokenizer của thư viện Transformers để encode input #1

Cách sử dụng tokenizer của thư viện Transformers để encode input #1

Comments

quancq commented Nov 10, 2020

ngocnp commented Dec 17, 2021 • edited Loading

sinhvtr commented Dec 31, 2021

ngocnp commented Dec 17, 2021 •

edited

Loading