从零开始构造文章地域分类器(二)

Algorithm 参与评论

本文主要接着师兄的上一篇文章(从零开始构造文章地域分类器)进行展开。师兄在上一篇文章中已经很详细地阐述了我们要解决的问题背景和两种不同的问题解决方案,本文主要在两位师兄已有工作的基础上,进行一点微小的改动和调优,并对实验过程进行更详细的介绍。

为了保证行文的完整性,我将会对问题进行一遍重复描述,并回顾两位师兄之前的解决方案。已经阅读过从零开始构造文章地域分类器的伙伴们可以选择性跳过~

问题描述及背景

为了针对地域进行文章本地化推荐,我们需要从每天20w+的文章中发现并识别地域相关文章。我们需要解决的具体问题是,针对给定的若干重点城市,从每天完整的文章流中识别与这些城市相关的文章。所有20个重点城市的列表如下:

天津、沈阳、大连、哈尔滨、南京、苏州、杭州、温州、福州、厦门、济南、青岛、郑州、武汉、深圳、佛山、东莞、重庆、成都、西安

继续阅读

Ubuntu迁移MySQL数据目录

Linux 一条评论
, , ,

环境

  • Ubuntu 14.04 GNU/Linux 3.2.0-29-generic
  • MySQL Ver 14.14 Distrib 5.5.34

准备工作

  1. 结束一切依赖MySQL的进程
  2. 关闭MySQL

继续阅读

Ubuntu 14.04 黑屏问题解决

各种收集 参与评论
, , , ,

史上装Ubuntu最DT的一次= =

环境

硬件

  • 内存:8G
  • 显卡:NVIDIA GT430

软件

  • 目标系统:Ubuntu 14.04 LTS
  • 安装文件:ubuntu-gnome-14.04-desktop-amd64.iso

继续阅读

刷leetcode

Algorithm 7 条评论

算法方面太薄弱了,打算做点题,之前刷POJ没有坚持下去,又找了个题库小点的。

欢迎一起讨论,代码挂在Github上,地址:leetcode_java

Mac OSX下Hadoop 2.3.0安装及配置

Hadoop 11 条评论
, , , ,

最近大作业要用到Hadoop,折腾起来实在是不好玩。。遇到好些个神奇的问题。。简单记录如下。

运行环境

  • 操作系统:OS X 10.9.2
  • Hadoop版本:2.3.0

继续阅读

Windows下Eclipse中文字体太小问题解决

技巧 参与评论
, ,

在windows下用eclipse的时候,老感觉中文字体实在是小得不能忍。搜了一下发现是因为Windows下Eclipse默认字体是Consolas,显示中文的时候默认太小了。

所以直接改个字体就好了,操作步骤为“Windows”——点击“Preferences”——点击“Genneral”——点击“Appearance”——点击“Colors and Font”——在右侧框展开“Basic”文件夹–双击“Text Font”——在弹出窗选择相应字体。

但是一般选英文字体之后中文默认是宋体,特别丑,可以用Consolas和微软雅黑混合字体进行替代。

给一个下载地址,解压后文件名为YaHei.Consolas.1.12.ttfw,双击直接打开安装就好了。选择字体的时候选YaHei.Consolas

点我下载

POJ 1001 Exponentiation

POJ 2 条评论
, ,

http://poj.org/problem?id=1001

继续阅读

毕业前100天

走过路过 参与评论
, ,

校历:

7月17日上午本科生毕业典礼

到时候,各自滚蛋。

或许可以拿以后还是都在学校这种理由来搪塞自己,但是不在的人毕竟是居多了。七月份,氛围是多么矫情的惆怅难以想象。其实还远,但人已经或多或少地都开始不淡定了。或许会想着赶紧投入各自的以后,或许会想着尝试留住各自的以前。不知道若干年后,还有几个人可以想想。

毕业前100天,慢慢数吧。

继续阅读

叫你用iMessage给我发垃圾信息

各种吐槽 2 条评论
, ,

最近被iMessage广告弄得烦不胜烦,不知为何每天都能收到一些莫名其妙的应用推荐或者其它的。

不带这么发广告骚扰人的啊= =

虽然知道你们发个不要成本的“传单”也不容易,但是人发传单的起码还会尊重你的意见,你要是不接的话也不会强塞给你。这跟垃圾邮件一样的垃圾短信也太流氓了吧。

继续阅读

【转】八种常用排序算法稳定性分析

各种收集 参与评论
, , ,

首先,排序算法的稳定性大家应该都知道,通俗地讲就是能保证排序前2个相等的数其在序列的前后位置顺序和排序后它们两个的前后位置顺序相同。在简单形式化一下,如果Ai = Aj, Ai原来在位置前,排序后Ai还是要在Aj位置前。

其次,说一下稳定性的好处。排序算法如果是稳定的,那么从一个键上排序,然后再从另一个键上排序,第一个键排序的结果可以为第二个键排序所用。基数排序就是这样,先按低位排序,逐次按高位排序,低位相同的元素其顺序再高位也相同时是不会改变的。另外,如果排序算法稳定,对基于比较的排序算法而言,元素交换的次数可能会少一些(个人感觉,没有证实)。

回到主题,现在分析一下常见的排序算法的稳定性,每个都给出简单的理由。

继续阅读

输出N对括号所有可能匹配

Algorithm 参与评论
,

题目要求:给定一个整数n,输出这n对括号的所有有效(左右括号成对匹配)排列

比如:

  • n = 1, ();
  • n = 2, ()(), (());
  • n = 3, ()()(), ()(()), (())(), (()()), ((()));
  • ..

继续阅读

卡塔兰数

各种收集 参与评论
, ,

卡塔兰数是组合数学中一个常在各种计数问题中出现的数列。以比利时的数学家欧仁·查理·卡塔兰 (1814–1894)命名。

卡塔兰数的一般项公式为 C_n = \frac{1}{n+1}{2n \choose n} = \frac{(2n)!}{(n+1)!n!}

前几项为 (OEIS中的数列A000108): 1, 1, 2, 5, 14, 42, 132, 429, 1430, 4862, 16796, 58786, 208012, 742900, 2674440, 9694845, 35357670, 129644790, 477638700, 1767263190, 6564120420, 24466267020, 91482563640, 343059613650, 1289904147324, 4861946401452, 18367353072152, 69533550916004, 263747951750360, 1002242216651368, 3814986502092304, 14544636039226909, 55534064877048198, 212336130412243110, 812944042149730764, 3116285494907301262, 11959798385860453492, 45950804324621742364, …

继续阅读