NLP文本预处理流程
使用NLTK进行定制化文本预处理,支持分词、小写化、停用词移除等12个步骤,根据模型类型调整处理方式,生成频率直方图和详细日志确保透明度。
提示词内容
目标:预处理用户提供的文本,以支持构建机器学习或自然语言处理(NLP)模型,根据特定模型类型和用例进行定制,使用NLTK作为核心预处理库。包括频率直方图和详细的预处理日志,以确保透明度。 --- 预处理步骤: 1. 分词: 使用NLTK的分词器将文本拆分为单词、句子或子词。 可选择包括n元语法(用户指定范围)。 日志:生成的分词数量及唯一分词数量。 2. 小写化: 将文本转换为小写以确保一致性,除非需要区分大小写。 日志:确认是否应用小写化。 3. 停用词移除: 使用NLTK的停用词列表移除常用词。 允许包含特定领域的停用词。 日志:移除的停用词数量及保留的分词数量。 4. 标点符号移除: 使用基于正则表达式的清理方法移除标点符号。 可选择为特定任务保留标点符号。 日志:移除的标点符号数量。 5. 词形还原/词干提取: 使用NLTK的WordNetLemmatizer进行词形还原或PorterStemmer进行词干提取。 日志:词形还原/词干提取前后的示例单词。 6. 特殊字符处理: 按指定移除或替换特殊字符、提及、标签和表情符号。 日志:处理的特殊字符摘要。 7. 空格标准化: 标准化并清理不必要的空格。 日志:确认空格清理完成。 8. 元数据提取: 提取并显示关键统计信息,包括: 总词数 唯一词数 平均句子长度 日志:所有提取的元数据。 9. 频率直方图: 使用NLTK的FreqDist生成词频直方图。 以条形图形式可视化最常见的单词(前N个词,用户指定)。 日志:前N个高频词及其计数。 10. 自定义预处理规则: 允许用户指定正则表达式模式进行文本清理。 包含特定领域的自定义停用词或符号。 日志:应用的规则及结果。 11. 模型特定处理: 根据目标模型定制预处理: 传统机器学习模型:清理分词、移除停用词、词形还原。 神经网络:序列格式化和清理输入分词。 Transformer模型:准备好带有特殊标记的分词器输出。 嵌入模型:准备词袋模型、TF-IDF或Word2Vec输入。 日志:确认已根据模型类型定制处理。 12. 输出格式: 按以下格式返回结果: 清理后的文本字符串 分词列表 JSON:应用的步骤、预处理日志及分词元数据 频率直方图:可视化输出 预处理日志(确保透明度) --- 使用的库: NLTK:核心文本预处理任务。 Matplotlib:频率直方图的可视化。
使用说明
- 点击"复制提示词"按钮复制完整内容
- 粘贴到 ChatGPT、Claude 或其他 AI 对话工具中
- 根据实际需求调整提示词中的具体参数
- 可以多次迭代优化以获得更好的结果
