本文共 1510 字,大约阅读时间需要 5 分钟。
驯服烂代码
文字:无处不在。 它填补了我们的社交资源,使我们的收件箱杂乱无章,并引起了我们的关注。 真是太熟悉了,但是作为程序员,真是太奇怪了。 我们在很小的时候就学习了口语和书面语言的基础知识,在高中和大学时,它的语言也更为正式。但是,在处理应用程序中文本的方式时,我们大多数人都不会超越非常简单的处理规则。 但是,从大多数情况来看,非结构化内容(几乎总是文本或至少具有文本成分)构成了我们遇到的绝大多数数据。 您不认为现在该是您提高技能以更好地处理文本的时候了吗?
幸运的是,开放源代码中充斥着高质量的库,可以解决文本处理中的常见问题,例如情感分析,主题识别,内容自动标记等等。 更重要的是,开源还提供了许多构建基块库,使您无需重新发明轮子即可轻松进行创新。 如果所有这些内容都使您回想起高中语法课,请不必担心-我们在末尾提供了一些有用的资源来梳理您的知识并解释有关自然语言处理的一些关键概念(NLP) )。 要开始您的旅程,请查看以下项目:
如果所有关于解析,标记化和命名实体的讨论都让您不知道如何开始,请务必阅读以下书籍:
毕业于更高级的NLP任务后,您可能还希望检查来自UMass Amherst的 (医学NLP ), 和 。 如果您想尝试使用大数据分析和复杂机器学习的新方法,请务必查看项目。
稍加实践和创造力,再加上开放源代码和上述项目的力量,您的下一个应用程序可能就处在真正使语言处理像处理所有零和零一样自然的最前沿!
本文是Rikki Endsley协调的Apache Quill专栏的一部分。 通过给Opensource.com,在Apache Software Foundation的项目中共享您的成功故事和开源更新 。
翻译自:
驯服烂代码
转载地址:http://jspzd.baihongyu.com/