diff --git a/docs/source/cn/_toctree.yml b/docs/source/cn/_toctree.yml index 3c9a14a041..fc1f92a377 100644 --- a/docs/source/cn/_toctree.yml +++ b/docs/source/cn/_toctree.yml @@ -10,6 +10,8 @@ sections: - local: guides/repository title: 储存库 + - local: guides/search + title: 搜索 - title: "concepts" sections: - local: concepts/git_vs_http diff --git a/docs/source/cn/guides/search.md b/docs/source/cn/guides/search.md new file mode 100644 index 0000000000..65f3ed13b4 --- /dev/null +++ b/docs/source/cn/guides/search.md @@ -0,0 +1,58 @@ + + +# 搜索 Hub + +在本教程中,您将学习如何使用 `huggingface_hub` 在 Hub 上搜索模型、数据集和Spaces。 + +## 如何列出仓库? + +`huggingface_hub`库包括一个 HTTP 客户端 [`HfApi`],用于与 Hub 交互。 除此之外,它还可以列出存储在 Hub 上的模型、数据集和Spaces: + +```py +>>> from huggingface_hub import HfApi +>>> api = HfApi() +>>> models = api.list_models() +``` + +[`list_models`] 返回一个迭代器,包含存储在 Hub 上的模型。 + +同样,您可以使用 [`list_datasets`] 列出数据集,使用 [`list_spaces`] 列出 Spaces。 + +## 如何过滤仓库? + +列出仓库是一个好开始,但现在您可能希望对搜索结果进行过滤。 +列出时,可以使用多个属性来过滤结果,例如: +- `filter` +- `author` +- `search` +- ... + +让我们看一个示例,获取所有在 Hub 上进行图像分类的模型,这些模型已在 imagenet 数据集上训练,并使用 PyTorch 运行。 + +```py +models = hf_api.list_models( + task="image-classification", + library="pytorch", + trained_dataset="imagenet", +) +``` + +在过滤时,您还可以对模型进行排序,并仅获取前几个结果。例如,以下示例获取了 Hub 上下载量最多的前 5 个数据集: + +```py +>>> list(list_datasets(sort="downloads", direction=-1, limit=5)) +[DatasetInfo( + id='argilla/databricks-dolly-15k-curated-en', + author='argilla', + sha='4dcd1dedbe148307a833c931b21ca456a1fc4281', + last_modified=datetime.datetime(2023, 10, 2, 12, 32, 53, tzinfo=datetime.timezone.utc), + private=False, + downloads=8889377, + (...) +``` + + + +如果您想要在Hub上探索可用的过滤器, 请在浏览器中访问 [models](https://huggingface.co/models) 和 [datasets](https://huggingface.co/datasets) 页面 +,尝试不同的参数并查看URL中的值。