当前位置:编程学习 > 网站相关 >>

探索 Python、机器学习和 NLTK 库

简介: 机器学习取决于 IT、数学和自然语言的交集,在大数据应用程序中会通常用到机器学习。本文将讨论 Python 编程语言和它的 NLTK 库,然后将它们应用于一个机器学习项目。
 
挑战:使用机器学习对 RSS 提要进行分类
 
最近,我接到一项任务,要求为客户创建一个 RSS 提要分类子系统。目标是读取几十个甚至几百个 RSS 提要,将它们的许多文章自动分类到几十个预定义的主题领域当中。客户网站的内容、导航和搜索功能都将由这个每日自动提要检索和分类结果驱动。
 
客户建议使用机器学习,或许还会使用 Apache Mahout 和 Hadoop 来实现该任务,因为客户最近阅读了有关这些技术的文章。但是,客户的开发团队和我们的开发团队都更熟悉 Ruby,而不是 Java™ 技术。本文将介绍解决方案的技术之旅、学习过程和最终实现。
 
什么是机器学习?
 
我的第一个问题是,“究竟什么是机器学习?” 我听说过这个术语,并且隐约知道超级计算机 IBM® Watson 最近使用该技术在一场 Jeopardy 比赛中击败了人类竞争者。作为购物者和社交网络活动参与者,我也知道 Amazon.com 和 Facebook 根据其购物者数据在提供建议(如产品和人)方面表现良好。总之,机器学习取决于 IT、数学和自然语言的交集。它主要关注以下三个主题,但客户的解决方案最终仅涉及前两个主题:
 
分类。根据类似项目的一组训练数据,将相关的项分配到任意预定义的类别
建议。根据类似项目的观察来建议采用的项
集群。在一组数据内确定子组
Mahout 和 Ruby 的选择
 
理解了机器学习是什么之后,下一步是确定如何实现它。根据客户的建议,Mahout 是一个合适的起点。我从 Apache 下载了代码,并开始了学习使用 Mahout 及其兄弟 Hadoop 实现机器学习的过程。不幸的是,我发现即使对于有经验的 Java 开发人员而言,Mahout 的学习曲线也很陡峭,并且不存在可用的样例代码。同样不幸的是,机器学习缺乏基于 Ruby 的框架或 gem。
 
发现 Python 和 NLTK
 
我继续搜索解决方案,并且在结果集中一直遇到 "Python"。作为一名 Ruby 开发人员,虽然我还没有学过该语言,但我也知道 Python 是一个面向相似对象的、基于文本的、可理解和动态的编程语言。尽管两种语言之间存在一些相似之处,但我多年来都忽视了学习 Python,将它视为一项多余的技能集。Python 是我的 “盲点”,我怀疑许多 Ruby 开发人员同行都是这样认为的。
 
搜索机器学习的书籍,并更深入研究它们的目录,我发现,有相当高比例的此类系统在使用 Python 作为其实现语言,并使用了一个被称为 Natural Language Toolkit(NLTK,自然语言工具包)的库。通过进一步的搜索,我发现 Python 的应用比我意识到的还要广泛,如 Google App Engine、YouTube 和使用 Django 框架构建的网站。它甚至还预安装在我每天都使用的 Mac OS X 工作站上!此外,Python 为数学、科学和工程提供了有趣的标准库(例如,NumPy 和 SciPy)。
 
我决定推行一个 Python 解决方案,因为我找到了非常好的编码示例。例如,下面这一行代码就是通过 HTTP 读取 RSS 提要并打印其内容所需的所有代码:
 
1
print feedparser.parse("http://feeds.nytimes.com/nyt/rss/Technology")
快速掌握 Python
 
在学习一门新的编程语言时,最容易的部分往往是学习语言本身。较难的部分是了解它的生态系统:如何安装它、添加库、编写代码、构造代码文件、执行它、调试它并编写单元测试。本节将简要介绍这些主题;请务必参阅 参考资料,以获得有关详细信息的链接。
 
pip
 
Python Package Index (pip) 是 Python 的标准软件包管理器。您可以使用该程序将库添加到您的系统。它类似于 Ruby 库的 gem。为了将 NLTK 库添加到您的系统,您可以输入以下命令:
 
1
$ pip install nltk
为了显示在您的系统上已安装的 Python 库的列表,请运行以下命令:
 
1
$ pip freeze
运行程序
 
执行 Python 程序同样很简单。获得一个名称为 locomotive_main.py 的程序和三个参数,然后您就可以使用 Python 程序编译并执行它:
 
1
$ python locomotive_main.py arg1 arg2 arg3
Python 使用 清单 1 中的if __name__ == "__main__":语法来确定文件本身是从命令行执行的还是从其他代码导入的。为了让文件变得可以执行,需要添加"__main__"检测。
 
清单 1. Main 检测 
1
import sys
2
import time
3
import locomotive
4
 
5
if __name__ == "__main__":
6
    start_time = time.time()
7
    if len(sys.argv) > 1:
8
        app = locomotive.app.Application()
9
        ... additional logic ...
virtualenv
 
大多数 Ruby 开发人员熟悉系统范围的库或 gem 的问题。使用一组系统范围内的库的做法一般是不可取的,因为您的其中一个项目可能依赖于某个给定的库的版本 1.0.0,而另一个项目则依赖于版本 1.2.7。同样,Java 开发人员都知道系统范围的 CLASSPATH 存在同样的问题。就像 Ruby 社区使用其rvm工具,而 Python 社区使用virtualenv工具(请参阅 参考资料,以获得相关链接)来创建独立的执行环境,其中包含特定版本的 Python 和一组库。清单 2 中的命令显示了如何为您 p1 项目创建一个名为 p1_env 的虚拟环境,其中包含feedparser、numpy、scipy和nltk库。
 
清单 2. 使用 virualenv 创建一个虚拟环境的命令 
1
$ sudo pip install virtualenv $ cd ~ $ mkdir p1 $ cd p1 $ virtualenv p1_env --distribute $ source p1_env/bin/activate  (p1_env)[~/p1]$ pip install feedparser (p1_env)[~/p1]$ pip install numpy (p1_env)[~/p1]$ pip install scipy (p1_env)[~/p1]$ pip install nltk (p1_env)[~/p1]$ pip freeze
每次在一个 shell 窗口使用您的项目时,都需要 “获得” 您的虚拟环境激活脚本。请注意,在激活脚本被获得后,shell 提示符会改变。当在您的系统上创建和使用 shell 窗口,轻松地导航到您的项目目录,并启动其虚拟环境时,您可能想在您的 ~/.bash_profile 文件中添加以下条目:
 
1
$ alias p1="cd ~/p1 ; source p1_env/bin/activate"
代码库结构
 
在完成简单的单文件 “Hello World” 程序的编写之后,Python 开发人员需要理解如何正确地组织其代码库的目录和文件名。Java 和 Ruby 语言在这方面都有各自的要求,Python 也没有什么不同。简单来说,Python 使用包 的概念对相关的代码进行分组,并提供了明确的名称空间。出于演示目的,在本文中,代码存在于某个给定项目的根目录中,例如 ~/p1。在这个目录中,存在一个用于相同名称的 Python 包的 locomotive 目录。 清单 3 显示了这个目录结构。
 
清单 3. 示例目录结构 
01
locomotive_main.py
02
locomotive_tests.py
03
 
04
locomotive/
05
    __init__.py
06
    app.py
07
    capture.py
08
    category_associations.py
09
    classify.py
10
    news.py
11
    recommend.py
12
    rss.py
13
 
14
locomotive_tests/
15
    __init__.py
16
    app_test.py
17
    category_associations_test.py
18
    feed_item_test.pyc
19
    rss_item_test.py
请注意名称古怪的 __init__.py 文件。这些文件指示 Python 为您的包加载必要的库和特定的应用程序代码文件,它们都位于相同的目录中。 清单 4 显示了文件 locomotive/__init__.py 的内容。
 
清单 4. locomotive/__init__.py 
01
# system imports; loads installed packages
02
    import codecs
03
    import locale
04
    import sys
05
 
06
&
补充:Web开发 , Python ,
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,