自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Thinkgamer博客

《推荐系统开发实战》作者,「搜索与推荐Wiki」公号负责人,CyanScikit科技创始人...

原创 Python分词模块推荐:jieba中文分词

一、结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 二、结巴中文分词支持的分词模...

2015-08-29 18:09:54

阅读数 6099

评论数 0

原创 python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取csdn博客专家所有博客内容: 全部过程采取自动识别与抓取,抓取结果是将一个博主的所有 文章存放在以其名字命名的文件内,代码如下 #coding:utf-8 import urllib2 from bs4 import BeautifulSoup import o...

2015-08-27 21:18:41

阅读数 4678

评论数 0

原创 MapReduce 按照Value值进行排序输出

文件输入: A 1 B 5 C 4 E 1 D 3 W 9 P 7 Q 2 文件输出: W 9 P 7 B 5 C 4 D 3 Q 2 E 1 A 1 代码如下: package comparator; import java.io.IOException; import org...

2015-08-27 12:24:54

阅读数 7936

评论数 1

原创 eclipse 运行MapReduce程序错误异常汇总(解决Map not fount)

错误一: Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class wordCount.wordCount$Map not found at org.apache.hadoop.conf.Configur...

2015-08-24 12:47:21

阅读数 5623

评论数 1

原创 《机器学习实战》基于朴素贝叶斯分类算法构建文本分类器的Python实现

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实...

2015-08-22 17:05:39

阅读数 6185

评论数 1

原创 python 字典排序

引子 字典,形如 dic = {'a':1 , 'b':2 , 'c': 3},字典中的元素没有顺序,所以dic[0]是有语法错误的。并且不可以有重复的键值,所以dic.add['c'] = 4后,字典变成 {�...

2015-08-22 14:21:31

阅读数 2461

评论数 0

原创 浅谈zookeeper的在hbase集群中的作用

一,什么是zookeeper? ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive) 、 小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。Zoo...

2015-08-20 08:10:22

阅读数 4982

评论数 2

原创 Python随机数生成方法

如果你对在Python生成随机数与random模块中最常用的几个函数的关系与不懂之处,下面的文章就是对Python生成随机数与random模块中最常用的几个函数的关系,希望你会有所收获,以下就是这篇文章的介绍。 random.random()用于生成 用于生成一个指定范围内的随机符点数,两个参...

2015-08-19 20:35:34

阅读数 2332

评论数 0

原创 hive1.2伪分布mysql数据库配置详解

hadoop2.6伪分布配置:http://blog.csdn.net/gamer_gyt/article/details/46793731 hive1.2 derby元数据库配置:http://blog.csdn.net/gamer_gyt/article/details/47150621 ...

2015-08-19 10:30:29

阅读数 3312

评论数 1

原创 HBase的JAVA API操作详解

hbase 伪 分 布 安 装参考:http://blog.csdn.net/gamer_gyt/article/details/47126961 hbase shell操作命令参考:http://blog.csdn.net/gamer_gyt/article/details/47131857 ...

2015-08-18 12:04:12

阅读数 2750

评论数 0

原创 数据挖掘数据集下载资源

在网上看到很好的资源收集,分享给大家: 1、气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.fs.fed.us/fire/fuelman/ http://www.cs.toronto.edu/~ro...

2015-08-18 10:19:01

阅读数 4493

评论数 0

原创 《机器学习实战》决策树(ID3算法)的分析与实现

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实...

2015-08-15 09:13:03

阅读数 5078

评论数 0

原创 社区划分-PageRank算法MapReduce实现

PageRank算法的分析和Python实现参考:http://blog.csdn.net/gamer_gyt/article/details/47443877 举例来讲: 假设每个网页都有一个自己的默认PR值,相当于人为添加给它是一种属性,用来标识网页的等级或者重要性,从而依据此标识达到排名...

2015-08-12 21:01:16

阅读数 4387

评论数 0

原创 社区划分-PageRank算法的解析与Python实现

一、什么是pagerank PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重...

2015-08-12 14:28:29

阅读数 11461

评论数 4

原创 Python爬取CSDN博客专家系列——移动开发

注明:小编亲测,只要把第一部分里面的url修改,即可抓取博客专家里边所有的专家的博客内容和标题,后续小编还会对此代码改进,敬请期待 文章分为两部分:Python爬虫爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中 说明:本爬虫主要是采用Beautif...

2015-08-11 20:42:40

阅读数 2733

评论数 1

原创 《机器学习实战》k最近邻算法(K-Nearest Neighbor,Python实现)

============================================================================================ 《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实...

2015-08-11 12:35:47

阅读数 12669

评论数 2

原创 Python中的列表、元祖、字典

一、列表 一组有序项目的集合。可变的数据类型【可进行增删改查】 列表是以方括号“[]”包围的数据集合,不同成员以“,”分隔。 列表中可以包含任何数据类型,也可包含另一个列表 列表可通过序号访问其中成员 常用列表操作: list.append()追加成员,成员数据 list.pop...

2015-08-11 11:43:06

阅读数 2521

评论数 0

原创 MapReduce框架排序和分组

前言: Mapreduce框架就是map->reduce,其中Map中的<key,value>是偏移量和行值,在其之前会使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个...

2015-08-07 15:48:45

阅读数 2293

评论数 0

原创 MapReduce框架Partitioner分区方法

前言:对于二次排序相信大家也是似懂非懂,我也是一样,对其中的很多方法都不理解诶,所有只有暂时放在一边,当你接触到其他的函数,你知道的越多时你对二次排序的理解也就更深入了,同时建议大家对wordcount的流程好好分析一下,要真正的知道每一步都是干什么的。 1.Partitioner分区类的作用是...

2015-08-07 15:20:18

阅读数 8307

评论数 0

原创 MapReduce框架Mapper和Reducer类源码分析

一:Mapper类 在Hadoop的mapper类中,有4个主要的函数,分别是:setup,cleanup,map,run。代码如下: protected void setup(Context context) throws IOException, InterruptedExcepti...

2015-08-07 13:45:16

阅读数 2781

评论数 0

原创 MapReduce 二次排序详解

1 首先说一下工作原理: 在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat,他提供的RecordRe...

2015-08-06 13:31:29

阅读数 2727

评论数 0

原创 hadoop2.6伪分布+pig0.15+zookeeper3.4.6安装

一、hadoop2.6伪分布安装请参考:http://blog.csdn.net/gamer_gyt/article/details/46793731二、pig0.15安装Pig的介绍 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编...

2015-08-04 10:58:55

阅读数 2640

评论数 1

原创 Ubuntu系统下eclipse配置mapreduce插件常见错误和解决办法汇总

在上篇文章中eclipse已经能访问HDFS目录( blog.csdn.net/gamer_gyt/article/details/47209623),但并不能进行Mapreduce编程,在这里小编将常见错误和处理办法进行总结,希望对大家有所帮助 错误1:ERROR [main] util.Sh...

2015-08-03 15:34:40

阅读数 3144

评论数 0

原创 hive中的表、外部表、分区和桶的理解

一、概念介绍 Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据 Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个...

2015-08-02 20:19:09

阅读数 4882

评论数 0

原创 windows下使用Eclipse编译运行MapReduce程序 Hadoop2.6.0/Ubuntu

一、环境介绍 宿主机:windows8 虚拟机:Ubuntu14.04 hadoop2.6伪分布:搭建教程http://blog.csdn.net/gamer_gyt/article/details/46793731 Eclipse:eclipse-jee-luna-SR2-win32-x...

2015-08-02 19:07:06

阅读数 2874

评论数 0

转载 朴素贝叶斯分类算法(Naive Bayesian classification)

机器学习(分类算法) and 十大算法:朴素贝叶斯分类 0、写在前面的话       我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。       一直想写关于...

2015-08-02 11:04:46

阅读数 6281

评论数 0

原创 动态规划算法

一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划。 二、基本思想与策略 基本思想与分治法类似,也是将待求解的问题分解为若干个子问题(阶段),按顺序求解子阶段,前一子...

2015-08-02 09:45:57

阅读数 2582

评论数 3

原创 Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException

使用MapReduce编写的中文分词程序出现了Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图: 上网查了好多资料,才明白这是hadoop本身的问题,具体参考: ...

2015-08-01 11:51:44

阅读数 3189

评论数 0

原创 《图论》——最短路径 Dijkstra算法(戴克斯特拉算法)

十大算法之Dijkstra算法: 最短路径是图论算法中的经典问题。图分为有向图、无向图,路径权值有正值、负值,针对不同的情况需要分别选用不同的算法。在维基上面给出了各种不同的场景应用不同的算法的基本原则:最短路问题。 针对无向图,正权值路径,采取Dijkstra算法。 如上图,是求a...

2015-08-01 10:30:59

阅读数 15815

评论数 2

提示
确定要删除当前文章?
取消 删除