小打小闹

在我的网站日志目录里先找到 Sogou spider 的 IP: # grep -h -F "Sogou web spider" * | awk '{print $1}' | sort | uniq -c | sort -nr | head -n 5 109766 220.181.94.231 26244 220.181.125.69 93 220.181.94.235 90 220.181.125.107 83 220.181.94.236 然后看看从访问最多的那个 IP 来的都是什么 user agent: # grep -h -F "220.181.94.231" * | grep -v -F "robots.txt" | awk '{ for (i=12; i<=NF; i++) printf("%s ", $i); printf("\n"); }' | sort | uniq -c | sort -nr 109497 "Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)" 187 "Sogou-Test-Spider/4.0 (compatible; MSIE 5.5; Windows 98)" 109 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Avant Browser; InfoPath.1; .NET CLR 2.0.50727; .NET CLR1.1.4322)" 70 "Tsinghua AI Lab Robot 2.0" 55 "Tsinghua AI Lab Robot" 35 "-" 21 "Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.7) Gecko/2009031915 Gentoo Firefox/3.0.7" 18 "Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)" 1 "Sogou Mobile Spider1.0 (http://wap.sogou.com)" 真有意思。 ...

February 26, 2012 · 1 min · qingbo

grep: writing output: Broken pipe in iTerm2

前天用 iTerm2,在执行一个 grep "xxx" filename | head (filename 这个文件应该相当大,grep 到的内容也应该有很多)这样的命令时,遇到大量如下错误输出: grep: writing output: Broken pipe 而在 Mac 自带的 Terminal.app 里面执行完全一样的命令,不会有任何错误。用 which 查看,使用的确实是同一个 grep 命令,同一个 head 命令。再仔细观察,发现其实 iTerm 里面,命令也输出了正确的结果,那后面的这些错误信息应该是输出到 stderr 的。把命令改成 grep "xxx" filename 2>errors | head 确实,错误信息都跑到 errors 文件里了。这时又发现,在 Terminal.app 里命令在输出10行之后立即结束执行,而在 iTerm 里则取决于这个文件有多大,grep 出来的内容有多少行,它就会执行相应长的时间。网上看到有人说这是 head 取得10行后立即退出,这个 pipe 的读端就没了,grep 继续往 pipe 写,于是 – broken pipe, 只要将错误定向到 /dev/null, 忽略即可。可是我经常用 grep 来在特别大的日志文件里找东西,进行下一步分析前,就先用 head 看看 grep 的正则表达式写的对不对。每次 grep 都不管 head 只读少数行这个现实,一直执行到读完整个文件,太浪费时间和资源了。 为什么在 Terminal 里,grep 会在 head 退出之后马上退出呢?当进程往一个 broken pipe 写东西的时候,会收到一个 SIGPIPE 信号,导致它退出。这时就觉得,肯定是 iTerm2 做了什么手脚,导致 SIGPIPE 这个信号没有被 grep 收到。 ...

January 3, 2012 · 2 min · qingbo

李笑来《把时间当作朋友》

把时间当作朋友:运用心智获得解放 – 李笑来. 国内很少有人像这样认真写好书了! 在2012来临前把这本书读完了,收获比我想象中大得多(这本书是我买一本数学书时顺便一起买下的),值得多看几遍。这本书大致是关于时间,心智,思考,学习,坚持的探讨和思考,也有关于成功的定义,以及介绍达到成功目的的一些必要途径,不过当然不是市面上流行的成功学书籍。 关于时间管理,David Allen 那本著名的 Getting Things Done 我也看了,看到一半就觉得好像作者在反复重复本来很简单的一些事,就好像当年学政治一样,看不下去了,也许是我不够有耐心吧。书中介绍的方法基本了解了,但是对我的工作学习似乎没有什么帮助,该拖延的事我还是拖延。我觉得方法这东西,每个人都应该有自己的一套,别人的好方法对自己并不一定有用。李笑来这本书虽然名字“把时间当作朋友”听起来就是一本时间管理的书,实际上它并不是教你时间管理的方法,而是在整个过程中告诉读者思考、反省、心智的重要性。 记得中学的时候成绩好,好多同学老问我学习方法。我比较烦这样的人,就说我也没有什么方法。其实这是实话,突然被问到,我却是总结不出自己有什么方法。我不怕泄露自己的方法“给竞争对手做培训”,而是即使我公开自己的方法对任何人都没有帮助,还是不要浪费口舌了。这些人的关键是他们没有意识到高考前剩余时间的流逝,没有意识到学好这些课程的重要性,没有下决心要精心学习。现在大家都上过大学了,回头看看——高中的那些东西有大学一个学期的多吗?需要什么奇技淫巧才能学会吗…… 我曾经在一段无聊的时间里,早上起来,在电脑上安装我喜欢的游戏,打到晚上。那时感觉到自己一天什么事情都没有做,太堕落了,把游戏删掉。第二天早上又下载这个游戏重新安装继续玩,如此重复,越来越懊恼却没法改变。我觉得我的心智就比较弱,也许应该仔细想想,我已经到了什么年龄,财富、知识却少得可怜,我还有多少时间可以学习以及积累财富。 不知道以后再有这样无聊的时候,由于读了这本书对我有没有帮助。不过在读它的过程里我就已经在思考很多以前没有想过的问题,看到很多让我感慨的地方,仔细记下了笔记。不过到最后才看到李敖读书的方法,其中一点是不要躺着读,不过这本书我就是躺着读的,只是遇到精彩的部分偶尔起来记一下。当然我不舍得像他那样把书分尸了。以后要坐着读书(尤其是纸质),这样有什么想法可以随时记下。我有个 Book Stand 帮忙。 思考有很多方向,《把时间当作朋友》基本是教你用一种积极向上的态度思考。我曾有几段时间也大量思考,但是很悲观,把自己想到死胡同里,甚至有自杀的念头,多亏我想到我还有父母兄弟。自杀的念头多半实现不了,所以我们还得在这个世界上生存,积极的态度会有帮助的。 最后摘录一些书中有意思的地方: 李笑来对某搜索引擎用低劣手段疯狂敛财很不满(105页括号中内容)。我相信百度因为钱去干扰 organic results 只是失败者的谣言而已,但是它的付费广告确实没有底线,或者说没有控制住底线。 关于马克思和他的幻想,请看130页。这么荒谬的幻想,竟然被人利用愚弄了这么多的人口,这个事实更荒谬!209页——“亚当斯密用一生奠定了现代经济学的理论基础,而另外一个哲学家终其一生写了无数著作,引发的却是人类史上最大规模的、最失败的社会实验”。 24页——“五笔输入法只不过是阶段性妥协的过渡产品,早晚会彻底消亡。”我最初就是学五笔打字的,我相信这一点,很庆幸自己比较早地回到拼音了。 160页,有些人希望借助他人的力量,他越是渺小,越是衬得他的欲望无比强烈,一个特征就是日程生活中他们经常有意无意地用亲密的方式体积大家仰望的人物。“李开复”叫“开复”,甚至“俞敏洪”叫“小俞”。 书中提到的其它一些书: Knowledge and Decision The Tipping Point Mean Genes 少有人走的路 女心理师 奇特的一生

December 31, 2011 · 1 min · qingbo

JVM 的 Client Mode 与 Server Mode

目前正在读“深入理解 Java 虚拟机 – JVM 高级特性与最佳实践”,这本书确实是国内少见的好书之一,虽然个人感觉也有一些不恰当的地方。例如第3章介绍 GC 策略时,一直没有简单解释一下”新生代 (Young generation)” 和”老年代 (Tenured generation)” 这两个概念。我也是在这书中才发现 HotSpot VM 有两个模式 – Server Mode 与 Client Mode,作者也没有介绍。也许是因为这些话题比较初级吧。 关于这两个模式的区别,这个 FAQ 里有介绍。简单地说,Client Mode 启动快,Server Mode 整体性能好。它们使用了不同的 JIT 编译器,Server VM 使用的那一个对代码做了更加多的优化。一般来说,像 Tomcat 这样的 Servlet container 需要长时间运行,启动速度相对来说不是那么的敏感,适合运行在 Server VM 里。而 GUI 程序对启动速度要求比较高,所以使用 Client VM 较好。 它还提到 “Some of the other differences include the compilation policy,heap defaults, and inlining policy.” 当然按“深入理解 Java 虚拟机” 书中65页的表格,它们使用的 GC 策略也不一样。 如何指定使用哪个 VM 呢?启动的时候指定 -client 或者 -server 参数即可。如果不写参数默认是哪个?官方说法是自动探测 “server class”. 该网页介绍,如果当前机器有两个或以上 CPU,并且有2GB以上内存,那么就认为这个机器是 server-class machine, 默认就会运行 Server VM. 说实话,这个 server class 的标准还挺低的,现在大多数个人笔记本电脑也都达到 server class 的要求了! ...

December 18, 2011 · 1 min · qingbo

让 Greasemonkey 脚本同时支持 Firefox 和 Chrome

Greasemonkey 最初只是 Firefox 的一个扩展,不过流行之后,很快被其它的浏览器以不同形式采纳。IE 我不喜欢,此文就不关心它了。剩下的市场份额较高的是 Chrome 和 Firefox, 本文就简单讨论一下如何写出同时支持这两种浏览器的 user script (所谓“跨浏览器”). 最早的时候也是热心用户给 Chrome 写了插件让它支持 user scripts, 但是现在 Chrome 不再另外需要插件就可以支持了。它的处理方式是每次安装 user script 的时候,自动把它转换成一个扩展!刚开始在 Chrome 上调试脚本的时候,我还尝试在磁盘上找到它存储脚本的目录——在 Firefox 里我都是直接编辑脚本,保存,刷新页面马上看到效果,简单粗暴。肯定有更简单的调试方式,只是我不知道。 看看 Chrome 的官方文档怎么介绍的: Chromium does not support @require, @resource, unsafeWindow, GM_registerMenuCommand, GM_setValue, or GM_getValue. GM_xmlhttpRequest is same-origin only. 这个显然有点过时。根据最近被完成的这个 issue,现在 GM_xmlhttpRequest 已经可以跨域请求了。 关键的一点,Chrome 不支持 @require 的写法,这可是个很方便的功能啊。我对 jQuery 相对熟悉一点,几乎每个脚本里都会用这个命令把 jQuery 引入。这里有个例子介绍怎么解决这个问题。再稍稍加工一下,就得到一个跨浏览器的引入多个外部 JavaScript 的方案: 跨浏览器 @require // ==UserScript== // @name ??? // @namespace http://your.tld/ // ==/UserScript== var scripts = [ '//cdnjs.cloudflare.com/ajax/libs/jquery/1.7/jquery.min.js', '//www.readability.com/embed.js' ]; var numScripts = scripts.length, loadedScripts = 0; GM_addStyle('CSS styles goes here'); function main() { jQuery.noConflict(); // if window.$ has been used by other libs // ... } var i, protocol = document.location.protocol; for (i = 0; i < numScripts; i++) { var script = document.createElement("script"); script.setAttribute("src", protocol + scripts[i]); script.addEventListener('load', function() { loadedScripts += 1; if (loadedScripts < numScripts) { return; } var script = document.createElement("script"); script.textContent = "(" + main.toString() + ")();"; document.body.appendChild(script); }, false); document.body.appendChild(script); console.log(script); } 在这个方案里,我把主要的逻辑都放在 main 函数里。需要搞清楚的是,main 不会在这个扩展脚本的 scope 里运行!它实际上是作为页面里内嵌的一段 JavaScript 代码被执行了,所以不要在里面引用任何所谓“全局变量”(不过可以引用你所确定知道的页面 window 对象的属性)。所以它不能调用 GM_addStyle, 于是我放在 main 外面。需要 Ajax 的话,也只能使用普通的 XMLHttpRequest 对象,也就不能进行跨域数据请求了,这在某些脚本里可能无法忍受。 ...

November 21, 2011 · 2 min · qingbo

Google Reader 与 Kindle

今天写了一个 Greasemonkey 脚本 – Google Reader Readability (点击安装). 该脚本同时支持 Firefox 和 Chrome. 效果如下,在每篇文章下面的工具栏添加一个新模块: Readability 是专注于阅读的一家网站,最近刚推出了一系列产品,覆盖主要的一些便携设备,当然针对阅读的话必须有 Kindle 了。它的 publisher tool 给我们这样写博客的或者那些新闻网站提供一个小的 widget,点击即可在 readability.com 阅读,还有一个很好的功能是发送到 Kindle. 而我的这个插件就是基于 publisher tool 的 JavaScript 代码 - 幸好他们没有压缩这个 JS,让我比较容易搞定了。其原理就是对网页作简单的处理之后,邮件发送给 @free.kindle.com,然后 Amazon 就会在你连接 wifi 的时候把这些文章推送过来,免费。另外,Readability 有浏览器插件和 bookmarklet 可以在阅读任何网页的时候把它发给 Kindle. 我现在 Kindle 里就有一个 Collection 叫 News & Articles,上网在 Google Reader 里看到比较长的好文章,就点一下这个按钮。定期 Turn on Wireless, 内容下载下来先放到这个 collection 里免得混乱,看完后直接删除 (最好是在选中文章的时候按右方向键,在那个界面里删除)。在 Kindle 里看书眼睛舒服,遇到英文生词的话查起来也方便。 其实把 Google Reader 与 Kindle 连接的产品不只这一个。比如: G:RSS-Web 仍然是个网页,不过相当于利用 Google Reader API 重新设计了,适合在 Kindle,Nook 上显示。 ...

November 19, 2011 · 1 min · qingbo

Dive Into * 作者 Mark Pilgrim 网上失踪 – 410 Gone

Mark Pilgrim 是 Dive Into … 系列编程书籍的作者,比较出名的是 Dive Into Python. 我最早接触他的作品是 Universal Feed Parser 中的 chardet library,后来还由于看见他网站的字体很特别,自己也尝试了一下。多产的人就是这样,有时候没有意识,突然有一天发现自己在用很多他做的东西。这只是他的贡献的一小部分,他把许多书都做成了网站让人免费阅读,比如 diveintopython.org, diveintopython3.org 等等。甚至他的 blog 名字也叫 Dive Into Mark. 下面是 Wikipedia 对他的简单介绍: Mark Pilgrim is a software developer, writer, and advocate of free software. He authors a popular blog, and has written several books including Dive into Python, a guide to the Python programming language published under the GNU Free Documentation License. Formerly an accessibility architect in the IBM Emerging Technologies Group, he started working at Google in March 2007. ...

November 5, 2011 · 2 min · qingbo

Ubuntu 11.04 安装 scim-googlepinyin

以前用 Mac 的时候,抱怨 Mac 没有好用的中文输入法,现在搜狗和腾讯竞争激烈,Mac 用户不愁输入法了。现在又用 Linux 了,一直希望腾讯或者搜狗能够为 Linux 开发一款输入法可是迟迟不见踪影。前面写了一片 Ubuntu 安装 ibus-cloud-pinyin 的,不过后来还是感觉体验不太好,用回默认的 ibus 拼音了。 今天写东西还是觉得中文输入很烦,于是试试安装这个 scim-googlepinyin 吧。发现过程也不是太难,关键是怎么让 scim 正常运作起来。 $ sudo apt-get install scim scim-pinyin 然后在 Language Support 里把 Keyboard input method system 选成 scim 重新登录就可以了。安装完成后 System Preferrences 里就会有 SCIM 的设置,把所有的都看一下大致知道怎么配置了。不过问题是在很多输入框里,候选词列表不跟随光标移动,比较难受。解决办法是修改 /etc/X11/xinit/xinput.d/scim,把 GTK_IM_MODULE 改成 scim. 我把 QT_IM_MODULE 也改了,不过好像没效果,QT 程序里还是不跟随光标。对我来说无所谓,我目前用到的唯一 QT 程序是 skype,并且它的输入框就那么小,不碍事。 我也不知道是什么影响一个输入法的体验的,这个是我感觉最好的。 安装了 scim 之后发现系统的中文字体很奇怪,包括某些网页,标点符号跑到了正中心,让人受不了。看了一下目录 /etc/fonts/conf.d/ 下面有几个更改日期为今天的配置文件,顺藤摸瓜,应该是安装 scim 的时候顺带安装了两个字体包。照下面的命令卸载掉即可,不会影响 scim 输入法使用: $ sudo apt-get remove ttf-arphic-uming ttf-arphic-ukai 我不知道 apt 系统的依赖原理,不明白为啥安装 scim 的时候给我安装上,我卸载的时候却不管。 ...

October 28, 2011 · 1 min · qingbo

Kindle 不适合阅读结构化书籍

Kindle 3 的软件在某次升级中,加入了 real page number 这么一个功能,似乎仅支持从 Amazon 购买的一部分书。我不知道这个功能到底有多大用处,Amazon 急于响应用户的要求。读书的过程中知道实际页码和知道百分比有什么区别吗?除非用这个功能是为了方便地在纸质书中找到对应的位置,去看一些在 Kindle 中排版错乱的文字、图表,或者 Kindle 中看不清的插图。 在 Kindle 上看了各种各样的书之后,感觉它确实很难告诉读者,当前正在读的是什么地方。百分比、页码是不够的,纸质书是怎么做的?现在大多纸质书都会在页眉处标出章节,一般翻开书的任何地方,右边页眉标着这是第几章,左边页眉标着是第几节。这样读者困惑的时候,一抬头就知道自己看到哪儿了。我觉得 Kindle 最缺的就是这个,有时候不知道自己在什么地方,只好往前翻页,够痛苦。 说到翻页,电子书的翻页也是够难受的。当然读书的过程中,大部分的操作都是一页一页往后翻。但是有时候比如你读小说,看到一个人的名字,明明刚十几页之前提到了却想不起来这是谁,翻页就比较痛苦。当然可以通过搜索定位,但是这样一般还得用书签记住当前位置,也挺麻烦的。 最近看那个 Getting Things Done,作者也够唠叨的,一个概念翻来覆去很多次重复讲,可能是我没有耐心吧,有了上政治课的感觉。他那个几万英尺的说法,开头讲了一次,后半部分里又拿出来讲,其实当时我是比较想翻到开头去看看到底有什么区别的,但是由于 Kindle 做这个太麻烦,就懒得看这本书了。另一方面,我看了一下原版的纸质书(很久前买的,100大洋啊),章节层次是比较分明的,除了在页眉标明章节,更下面的层次就用大小字体、粗体、斜体依次标识。而 Kindle 版本的就只有两种层次,一种是很大的粗体,另一种就是斜体了,所以有时候不集中精力的话,看得云里雾里。 目前来说,Kindle 最合适的还是看一些叙事性的小说。第一没有什么层次结构,第二不需要复杂的排版、插图、表格等。我老婆就在孜孜不倦地在这条路上实践。 看来电子书还有很长的路要走。

October 24, 2011 · 1 min · qingbo

Ubuntu 11.04 安装 ibus-cloud-pinyin

首先安装必要的软件包(valac 默认版本不是 0.10 所以安装时必须指定版本号。subversion 是为了 checkout ibus-cloud-pinyin 的代码准备的): sudo apt-get install liblua5.1-0-dev liblua5.1-socket2 libsqlite3-dev libibus-dev libnotify-dev lua5.1 libgee-dev valac-0.10 sqlite3 subversion 然后 check out ibus-cloud-pinyin 源代码,编译,安装: svn checkout http://ibus-cloud-pinyin.googlecode.com/svn/trunk/ ibus-cloud-pinyin cd ibus-cloud-pinyin/ make sudo make install 接下来重启 ibus. 通过命令: ps -ef | grep ibus-daemon 找到 ibus 的进程号 kill 掉,然后通过菜单 System-> Preferences->Keyboard Input Methods 启动。现在点击输入法图标,应该多了个 Chinese – Cloud Pinyin,选择即可使用。我也不太清楚它使用的是哪个云输入法,但是词库、词频比默认的输入法好太多了。 另外,想要开机启动 ibus,可以在 System->Preferences->Startup Applications 里添加 /usr/bin/ibus-daemon

October 17, 2011 · 1 min · qingbo