文档加载器
langchain_core.document_loaders ¶
文档加载器。
BaseLoader ¶
基类: ABC
文档加载器接口。
实现应使用生成器实现惰性加载方法,以避免一次性将所有文档加载到内存中。
load 方法仅为用户方便而提供,不应被覆盖。
| 方法 | 描述 |
|---|---|
load |
将数据加载到 `Document` 对象中。 |
aload |
将数据加载到 `Document` 对象中。 |
load_and_split |
加载 `Document` 并将其分割成块。块将作为 `Document` 返回。 |
lazy_load |
`Document` 的惰性加载器。 |
alazy_load |
`Document` 的惰性加载器。 |
load_and_split ¶
load_and_split(text_splitter: TextSplitter | None = None) -> list[Document]
加载 `Document` 并将其分割成块。块将作为 `Document` 返回。
危险
不要重写此方法。应将其视为已弃用!
| 参数 | 描述 |
|---|---|
text_splitter
|
用于分割文档的 `TextSplitter` 实例。默认为 `RecursiveCharacterTextSplitter`。
TYPE: |
| 引发 | 描述 |
|---|---|
ImportError
|
如果 `langchain-text-splitters` 未安装且未提供 `text_splitter`。 |
| 返回 | 描述 |
|---|---|
list[Document]
|
`Document` 列表。 |
alazy_load async ¶
alazy_load() -> AsyncIterator[Document]
`Document` 的惰性加载器。
| YIELDS | 描述 |
|---|---|
AsyncIterator[Document]
|
`Document` 对象。 |
BaseBlobParser ¶
基类: ABC
Blob 解析器的抽象接口。
Blob 解析器提供了一种将存储在 Blob 中的原始数据解析为一个或多个 Document 对象的方法。
解析器可以与 Blob 加载器组合使用,从而可以轻松地重用解析器,而无需关心 Blob 最初是如何加载的。
| 方法 | 描述 |
|---|---|
lazy_parse |
惰性解析接口。 |
parse |
立即将 Blob 解析为一个或多个 |
lazy_parse abstractmethod ¶
BlobLoader ¶
LangSmithLoader ¶
基类: BaseLoader
将 LangSmith 数据集示例加载为 Document 对象。
将示例输入加载为 Document 的页面内容,并将整个示例放入 Document 的元数据中。这使您能够轻松地从加载的文档中创建少样本示例检索器。
惰性加载示例
| 方法 | 描述 |
|---|---|
load |
将数据加载到 `Document` 对象中。 |
aload |
将数据加载到 `Document` 对象中。 |
load_and_split |
加载 `Document` 并将其分割成块。块将作为 `Document` 返回。 |
alazy_load |
`Document` 的惰性加载器。 |
__init__ |
创建一个 LangSmith 加载器。 |
lazy_load |
`Document` 的惰性加载器。 |
load_and_split ¶
load_and_split(text_splitter: TextSplitter | None = None) -> list[Document]
加载 `Document` 并将其分割成块。块将作为 `Document` 返回。
危险
不要重写此方法。应将其视为已弃用!
| 参数 | 描述 |
|---|---|
text_splitter
|
用于分割文档的 `TextSplitter` 实例。默认为 `RecursiveCharacterTextSplitter`。
TYPE: |
| 引发 | 描述 |
|---|---|
ImportError
|
如果 `langchain-text-splitters` 未安装且未提供 `text_splitter`。 |
| 返回 | 描述 |
|---|---|
list[Document]
|
`Document` 列表。 |
alazy_load async ¶
alazy_load() -> AsyncIterator[Document]
`Document` 的惰性加载器。
| YIELDS | 描述 |
|---|---|
AsyncIterator[Document]
|
`Document` 对象。 |
__init__ ¶
__init__(
*,
dataset_id: UUID | str | None = None,
dataset_name: str | None = None,
example_ids: Sequence[UUID | str] | None = None,
as_of: datetime | str | None = None,
splits: Sequence[str] | None = None,
inline_s3_urls: bool = True,
offset: int = 0,
limit: int | None = None,
metadata: dict | None = None,
filter: str | None = None,
content_key: str = "",
format_content: Callable[..., str] | None = None,
client: Client | None = None,
**client_kwargs: Any,
) -> None
创建一个 LangSmith 加载器。
| 参数 | 描述 |
|---|---|
dataset_id
|
用于筛选的数据集 ID。 |
dataset_name
|
用于筛选的数据集名称。
类型: |
content_key
|
要设置为 Document 页面内容的输入键。
类型: |
format_content
|
用于将从示例输入中提取的内容转换为字符串的函数。默认为对内容进行 JSON 编码。 |
example_ids
|
用于筛选的示例 ID。 |
as_of
|
用于检索示例的数据集版本标签或时间戳。响应示例将仅包含在标记(或时间戳)版本时存在的那些示例。 |
splits
|
数据集拆分的列表,例如 |
inline_s3_urls
|
是否内联 S3 URL。
类型: |
offset
|
起始偏移量。
类型: |
limit
|
要返回的最大示例数。
TYPE: |
metadata
|
用于筛选的元数据。
类型: |
filter
|
应用于示例的结构化筛选字符串。
类型: |
client
|
LangSmith 客户端。如果未提供,将从以下参数初始化。
类型: |
client_kwargs
|
传递给 LangSmith 客户端初始化的关键字参数。仅在未指定
类型: |
| 引发 | 描述 |
|---|---|
ValueError
|
如果同时提供了 |