- 资源介绍
- 授权方式:免费软件
- 界面语言:简体中文
- 文件大小:7.19 MB
- 更新时间:2018-08-14
- 资源类型:国产软件
- 推荐等级:★★★☆☆
- 平台环境:Win2003,WinXP,Win2000,Win9X
- 作者主页:点击查看
- 演示地址:点击查看
详细介绍 – [ Apache Nutch v1.15 ]
Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。
大数据这个术语最早的引用可追溯到Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。现在,大数据的含义已经被极大地发展了,业界将大数据的特性归纳为4个“V”。Volume数据体量巨大,Variety数据类型繁多,Value价值密度低,商业价值高,Velocity处理速度快。
Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?
Apache Nutch截图相关阅读
同类推荐:站长常用源码
猜你喜欢
-
漂亮的网址导航程序
2020-08-13 -
业一新闻系统 v3.3 修正版
2020-08-13 -
织梦dedecms节能环保光伏新能源企业网站模板(带手机移动端)
2018-07-29 -
QQ互刷系统 v2.0
2020-08-13 -
wap版谷歌PR查询系统 v1.0
2020-08-13 -
淮海市人民政府网站管理系统源码
2020-08-13 -
asp98简单留言板 v2.1
2020-08-13 -
吉林信息网V6
2020-08-13 -
心理测试源码
2020-08-13 -
功能模块 万能表单weui 8.1.16_源码下载
2020-08-05
-
PbootCMS开源企业网站管理系统 v3.0.2
2020-08-14 -
FC经典坦克大战源码 v1.0
2020-08-14 -
木木笑话小偷后台版 v2.0
2020-08-13 -
五八股票网址导航系统
2020-08-13 -
功能模块 疯狂拓客3.6.1 开源版_源码下载
2020-08-05 -
WebFTP(php文件管理) v3.5.1
2020-08-14 -
盾灵批量友情链接管理系统 v1.0
2020-08-14 -
高端整屏滚动首页V2.1.6首页diy首页版_源码下载
2020-08-05 -
IPB(Invision Power Board) v2.3.6 简繁语言包(ipbchina)
2020-08-14 -
PHP网址大全 生成htm版
2020-08-14
猜你在找
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
源码库 » Apache Nutch v1.15