我要投稿

Google重磅开源！用AI读懂你的“天书”，LangExtract让非结构化文本瞬间结构化！

发布日期：2026-02-02 12:06:09 浏览次数： 1781

作者：猫说AI

微信搜一搜，关注“猫说AI”

文本信息千千万，如何从中高效提取我们真正需要的数据？

这大概是许多数据科学家、开发者甚至普通业务人员都曾面临的难题。无论是堆积如山的报告、海量的网页文章，还是密密麻麻的医疗记录，它们都像一团团散乱的“天书”，让数据分析和应用举步维艰。

今天，谷歌为我们带来了答案。一款名为 LangExtract 的Python库，它能帮你轻松驯服这些“非结构化文本”，借助强大的大语言模型（LLMs），将杂乱无章的文字，精准、可靠地转化为结构化数据，而且还能清晰告诉你，这些数据都来自哪里。

LangExtract Logo

想象一下，你不再需要手动阅读、复制、粘贴，也不用费尽心思编写复杂的正则表达式。LangExtract就像一位超级聪明的“数据侦探”，不仅能理解你的意图，还能把找到的线索整理得井井有条，并附上“案发现场”的精确坐标。

下面，就让我们一起来看看LangExtract究竟有哪些“超能力”。

精准溯源，一目了然

LangExtract最强大的功能之一就是它的“溯源”能力。每一次提取，都能准确映射到原始文本中的具体位置。这意味着，你不仅得到了数据，还能直接看到它在原文中的出处，通过可视化高亮显示，让验证和追溯变得前所未有的简单。

告别模糊，拥抱结构化

通过你提供的少量高质量示例，LangExtract能利用LLM的受控生成能力（例如Google Gemini模型），严格遵循你定义的输出格式。无论是列表、字典还是更复杂的嵌套结构，它都能保证输出结果的可靠性和一致性，让你的数据处理工作事半功倍。

长文档不再是“拦路虎”

面对动辄数万字甚至几十万字的超长文档，传统方法常常束手无策，或者效率低下。LangExtract通过智能分块、并行处理和多轮提取策略，有效克服了“大海捞针”的挑战，大幅提升了长文档信息提取的召回率和效率。

交互式可视化，洞察先机

提取出的海量实体如何快速审阅？LangExtract能自动生成一个独立的交互式HTML文件。在这个文件中，你可以直观地浏览上千个提取出的实体，并在原文上下文中查看它们，让数据校验和分析变得更轻松有趣。

模型随心选，本地云端皆可

LangExtract对大语言模型的支持非常灵活。无论是Google的Gemini系列，OpenAI的模型，还是通过Ollama接口集成的本地开源模型，你都可以自由选择。甚至，它还提供了轻量级的插件系统，让你能轻松接入自定义的模型提供商，满足你所有的定制需求。

领域通用，无需微调

无需复杂的模型微调，只需通过清晰的提示词（Prompt）和少量的示例，LangExtract就能适应各种不同的领域和提取任务。无论是法律合同、新闻报道、科研论文，还是前面提到的医疗文本，它都能灵活应对。

实际应用场景：用AI读懂世界

LangExtract的强大功能，使其在多个领域都展现出巨大的潜力：

• 文学作品分析： 想从《罗密欧与朱丽叶》这样的经典名著中自动提取人物角色、情感状态和复杂关系？LangExtract可以做到。它能从洋洋洒洒的十几万字原文中，精准捕获每一个关键信息，甚至还能帮你分析词语背后的深层含义。
• 医疗报告结构化： 对于医疗行业而言，病历、放射报告等非结构化文本蕴藏着巨大的价值。LangExtract能从中提取出药物名称、剂量、用药途径等关键信息，甚至能建立起药物与疾病、症状之间的关系。这无疑为辅助诊断、临床研究提供了强大的工具。
（免责声明：此功能仅为演示目的，不作为诊断或治疗依据，不应用于医疗建议。）
你甚至可以体验一个基于LangExtract构建的、用于放射报告结构化的在线Demo：RadExtract。
• 商业智能与数据分析： 从客户反馈、市场调研报告、竞品分析文档中提取关键观点、实体、情感，帮助企业快速洞察市场，制定决策。
• 法律文书处理： 自动从合同、法律条文中提取关键条款、责任方、日期等信息，大幅提升法律工作效率。

如何开始你的“结构化”之旅？

作为Python库，LangExtract的安装和使用都非常简便，只需几行代码，你就可以立即开始你的文本结构化之旅。

pip install langextract

定义提取任务和示例：

import langextract as lx
import textwrap

# 1. 定义提示词和提取规则
prompt = textwrap.dedent("""\
    提取文本中出现的角色、情感和关系。
    提取时使用原文，不要转述或重复。
    为每个实体提供有意义的属性以增加上下文。""")

# 2. 提供高质量示例作为模型指导
examples = [
    lx.data.ExampleData(
        text="ROMEO. But soft! What light through yonder window breaks? It is the east, and Juliet is the sun.",
        extractions=[
            lx.data.Extraction(
                extraction_class="character",
                extraction_text="ROMEO",
                attributes={"emotional_state": "wonder"}
            ),
            lx.data.Extraction(
                extraction_class="emotion",
                extraction_text="But soft!",
                attributes={"feeling": "gentle awe"}
            ),
            lx.data.Extraction(
                extraction_class="relationship",
                extraction_text="Juliet is the sun",
                attributes={"type": "metaphor"}
            ),
        ]
    )
]

# 准备输入文本
input_text = "Lady Juliet gazed longingly at the stars, her heart aching for Romeo"

# 运行提取
result = lx.extract(
    text_or_documents=input_text,
    prompt_description=prompt,
    examples=examples,
    model_id="gemini-2.5-flash", # 可根据需求选择模型，也支持OpenAI和本地Ollama模型
)

# 结果可视化 (保存到jsonl文件后生成HTML)
# lx.io.save_annotated_documents([result], output_name="extraction_results.jsonl", output_dir=".")
# html_content = lx.visualize("extraction_results.jsonl")
# with open("visualization.html", "w") as f:
#     if hasattr(html_content, 'data'):
#         f.write(html_content.data)  # For Jupyter/Colab
#     else:
#         f.write(html_content)