星期二, 十二月 27, 2005

内事不决问老妈,外事不决问google




引用




Google Print 不完全破解方法


Google
Print刚出的时候,曾经在上面为frogx找过Castells的书,书是找到了,可只能看前面几页,于是很失望。后来知道google为了这个东西在和出版商打官司,于是觉得这个产品的前途更加不乐观了。




结果今天看到这篇文章,试了试,竟然真的有效,尤其在firefox下,太方便了,虽然看全文的方法还是有点笨。好处大大的:从红楼梦到sigma
delta ADC到the rise of network
society都能看到全文,比清华图书馆那一堆西文电子数据库都爽,教育网内还不用代理。。。




发信人: pumchq (hq), 信区: NewSoftware


标� 题:
发现真有人研究google print.


发信站: 水木社区 (Mon Nov�
7 18:55:04 2005), 站内




google得到的文章(-_-b),试过,可以下载书的全文。发到google版怕被删,就转到这里,大家分享一下。



转自丁香园:
http://www.dxy.cn/bbs/post/view?bid=10&id=4596614&sty=1&tpg=2&age=

0




【推荐】Google
print相关技术以及下载方法




什么是google print



Google
最近增加了新的搜索引擎google print(http://print.google.com/),其中包
含相当数量的图书,据说是和多家大型图书馆合作,目标是在10年内建成世界上最大的网络图书馆。但是google的目的并不是给人下载,而是供读者简单检索以向出版商和书店购买该书,因此也没有任何收费项目。其图书目前采取的是图片的方式,大部分图书均包含所有页面。以下我收集整理了相关的技术以及下载方法。



Google print
URLs分析以及cookie




http://print.google.com/print?id=VvBRboW2icUC&pg=1&sig=hoLj_9Ot12vG6mSjZ
vK547vbP3E



这是典型的一页地址,Id是书籍号码,pg是页面编号,pg=1代表第一页。翻到下一页会看到:




http://print.google.com/print?id=VvBRboW2icUC&lpg=1&pg=2&sig=gBBbI6T0FzHxgVeJJQKQqmZ_MNk



除了sig值不同以外(图片编号),多出了lpg,lpg=1代表你是从pg=1开始看的,google
print允许前翻2页,后翻2页。但是并不能通过随便更改lpg值获得更多的浏览页。此外,增加zoom值可以放大图片倍数.(beep注:我试zoome为什么无效呢?)



另外,如果一本书你看了太多页,你将无法看更多页,其中涉及到goole的cookie,如果不更改cookie,你将只能等待24小时,以使得其失效。相关的google
cookie原理可参见



http://www.kuro5hin.org/story/2005/3/7/95844/59875




据该文作者说,他通过软件修
改cookie等方法可以下载google的整本书。可是没有给出相关软件。



如何看完整本书



一个相当笨却行之有效的方法是在所能达到的最后一页搜寻某单词检索,在结果中找到该页,打开可以继续向下看。亦即:



一开始打开第一页,于是可以达到第三页,在第三页搜寻某单词,检索后返回若干结果,找到第三页,打开,于是可以到达第五页,以此类推。



但是,我们知道,google
print可以向前和向后看2页,如果你的搜索足够好,那么你可
以这样看,打开3,8,13…………,但是这样的方法比较难以实现。



无论如何这样的方法都太费时费力,不利于批量下载。而且因为上文提到的cookie问题,你将需要若干天才能看完整本书。



保存图片



简单的方法可以到IE的Temporary
Internet Files文件夹察看,选择那些来自
print.google.com的图像,一般文件头为print?id=(书的ID),根据书ID很容易找到。



另一种方法可以使用火狐浏览器插件实现:



安装firefox;

用firefox打开网址

http://ftp.mozilla.org/pub/mozilla.org/extensions/greasemonkey/greasemonkey-0.3.3-fx.xpi

(beep注:

已更新为
ftp.mozilla.org/pub/mozilla.org/extensions/greasemonkey/greasemonkey-0.5.3-fx.xpi


选择信任站点,安装

重新打开浏览器firefox,打开地址

http://diveintomark.org/projects/butler/

右击链接Download version 0.3
of April 14, 2005,选择install user script


重新打开浏览器firefox,检索http://
print.google.com/


打开电子书。右击图片,可以选择保存了。



受限制页



不少书都有受限制页,据说一般是整本书的10%-15%,往往出现在后半部,阅读受限制页

需要输入gmail帐号。



移除高亮黄条



一般搜索的短语或者单词会在页面中以高亮黄条标出。实际上采用很简单的方式可以移除

,将URL中的q值删除,例如:



http://print.google.com/print?id=-aAwQO_-rXwC&pg=354&img=1&q=neural+pattern&sig=eqt38N2w5x6yqWat-G5r5_pzOpY



将q=neural+pattern删除。

(beep注:或者dq=blahblah删除)



或者使用软件去除,比如ImageMagick,如下操作:



convert -stroke white -fill white
-draw ' rectangle 555,300 575,600' -fx "y"
-despeckle



此法亦可类似移除'
Copyrighted Material' 字样。




btw:还有人专门研究这个,这是他的网页:

http://www.kuro5hin.org/story/2005/3/7/95844/59875



--



※ 来源:·水木社区
newsmth.net·[FROM: 168.160.62.*]

没有评论:

QUOTE