驯服烂代码_5个用于驯服文本的开源工具-白红宇

驯服烂代码_5个用于驯服文本的开源工具

阅读量：2527 次

发布时间：2019-05-11

本文共 1510 字，大约阅读时间需要 5 分钟。

驯服烂代码

文字：无处不在。它填补了我们的社交资源，使我们的收件箱杂乱无章，并引起了我们的关注。真是太熟悉了，但是作为程序员，真是太奇怪了。我们在很小的时候就学习了口语和书面语言的基础知识，在高中和大学时，它的语言也更为正式。但是，在处理应用程序中文本的方式时，我们大多数人都不会超越非常简单的处理规则。但是，从大多数情况来看，非结构化内容（几乎总是文本或至少具有文本成分）构成了我们遇到的绝大多数数据。您不认为现在该是您提高技能以更好地处理文本的时候了吗？

幸运的是，开放源代码中充斥着高质量的库，可以解决文本处理中的常见问题，例如情感分析，主题识别，内容自动标记等等。更重要的是，开源还提供了许多构建基块库，使您无需重新发明轮子即可轻松进行创新。如果所有这些内容都使您回想起高中语法课，请不必担心-我们在末尾提供了一些有用的资源来梳理您的知识并解释有关自然语言处理的一些关键概念（NLP））。要开始您的旅程，请查看以下项目：

一个GPL许可的工具框架，用于处理英语，中文和西班牙语。包括用于标记化（将文本拆分为单词），语音标记的一部分，语法分析（识别名词和动词短语之类的东西），命名实体识别等工具。一旦掌握了基础知识，一定要检查斯坦福大学同一小组的。

如果您选择的语言是Python，那么满足您的许多NLP需求就比NLTK更好。与斯坦福图书馆类似，它包含用于标记，解析和识别命名实体的功能以及许多其他功能。

尽管并不是专门针对解决NLP问题，但它们包含了许多用于处理文本的工具，从高级的字符串操作实用程序到功能强大且灵活的标记化库，再到快速的用于有限状态自动机的库。最重要的是，您可以免费获得搜索引擎！

使用与Stanford库不同的底层方法，是Apache许可的工具套件，用于完成诸如令牌化，语音标记，解析和命名实体识别之类的任务。尽管在其方法上不再是最先进的，但它仍然是易于安装和运行的可靠选择。

和随着处理能力的发展，您可能会发现自己正在构建复杂的NLP工作流程，该工作流程需要集成多个不同的处理步骤。在这些情况下，您可能希望使用GATE或UIMA之类的框架来标准化和抽象化用于构建复杂NLP应用程序的许多重复性工作。

如果所有关于解析，标记化和命名实体的讨论都让您不知道如何开始，请务必阅读以下书籍：

由Drew Farris，Tom Morton和您真正的人撰写，旨在针对NLP和Search入门的程序员。每章都解释了诸如搜索，命名实体识别，聚类和分类之类的功能背后的概念。每章还显示了使用著名的开源项目的工作示例。

Steven Bird，Ewan Klein和Edward Loper的是NLTK的权威指南，可指导用户完成分类，信息提取等任务。

如果您正在寻找严谨的学术条件，那么Christoph Manning和HinrichSchütz的就是一个很好的起点。它不仅解释了许多NLP技术背后的概念，而且提供了支持它的数学方法。

毕业于更高级的NLP任务后，您可能还希望检查来自UMass Amherst的（医学NLP ），和。如果您想尝试使用大数据分析和复杂机器学习的新方法，请务必查看项目。

稍加实践和创造力，再加上开放源代码和上述项目的力量，您的下一个应用程序可能就处在真正使语言处理像处理所有零和零一样自然的最前沿！

本文是Rikki Endsley协调的Apache Quill专栏的一部分。 通过给Opensource.com，在Apache Software Foundation的项目中共享您的成功故事和开源更新 。

翻译自:

驯服烂代码

转载地址：http://jspzd.baihongyu.com/

你可能感兴趣的文章