Archive for 二月, 2010
终于成功实现网页抓取
by liuqq on 二.22, 2010, under 未分类
终于得到了能查看的网页内容,查了很多资料,最终得到了想要的结果。从此以后“巧妇难为无米之炊”的时代终于结束了!
还是Java的用着比较舒服,既省力又好用。也是今天才发现,nutch是得不到网页源码的,因为,它已经把网页进行了索引放进了数据库中。利用jspider不仅得到了网页的源码还有网站的整体架构,分成了不同的文件夹。
这是利用jspider得到的淘宝首页解析:
2010/2/22
by liuqq on 二.22, 2010, under 心情
音乐的重低音拍打着耳膜,喝一杯氤氲的绿茶。在这寂静的深夜总能想到很多。这个世界唯一不变的就是变化,也不知是谁说的,如此哲理。能够把生活诗意化的人一定是幸福的,一花一世界,一树一菩提。拥有发现美的眼睛能够发现生活的色彩。不知道是生活使我们渐渐麻木,还是我们懒得去看,去聆听,去思考。
总结一下昨天看书学到的知识吧~《数据库系统实现》的第二章
第二章 数据存储
Question:计算机系统如何存储和管理非常大量的数据?
- 高速缓存能存放数据或机器指令。高速缓存中的数据(包括指令)是主存储器中特定位置的数据的副本。还要注意直写(write through)。
- 主存储器,不论是指令的执行还是数据的操纵,都是作用与驻留在主存的信息上。主存是随机访问的。
- 虚拟存储器。我们可以认为典型的虚拟存储器为4GB。摩尔定律:集成电路在以多种方式改进,其发展速度遵循着指数曲线,每18个月就要翻一番。遵循摩尔定律的一些参数1)处理器的速度,以及处理器的速度和价格之比2)主存的每个二进制位的价格可以置于一个芯片的二进制位数3)硬盘每个二进制位的价格和可以保存在一个硬盘的字节数。不遵循的如:主存中数据的访问速度,以及硬盘旋转的速度。由于虚拟存储器空间比通常的内存要大得多,一个完全被占用的虚拟存储器的大部分内容实际上是保存在硬盘上。
- 第二级存储器。磁盘I/O,通常情况下,读或写一个磁盘块所花的时间,决定了对这个磁盘块的内容进行无论什么样的操作所花费的总时间。应当尽可能地让我们需要访问的数据所在的磁盘块已经在主存缓冲区内。
- 第三级存储器,用以保存以太字节计数的数据容量。特点:与第二级存储器相比,其读、写时间要长得多,但是其容量比磁盘大得多,每个字节花费则比磁盘少。1)磁带存储器2)自动光盘机3)磁带仓
- 易失和非易失存储器。主存储器通常是易失的,所有第二级存储器和第三级存储器设备在本质上都是非易失的。
start
by liuqq on 二.05, 2010, under 心情
这几天的假期,天天都在琢磨着偷菜。我今天凌晨五点起床,揉着惺忪的睡眼,迷迷糊糊的收菜,然后又去睡了。嗯,决定种完现在的这些,就先暂时的放弃菜园了。
今天上午突然想起来有个比赛的报名还没有落实,这才想起来假期还是要充实的过下去呢!给伙伴们发了10多篇paper——这只是一部分的说。团队的力量是无穷的,thanks everyone.
对于未来我有着很多的迷惑,可是我觉得,只要坚信心中的选择,那就不会错。人是因为有了梦想才能前行,现在我又知道了人是因为心中有了责任,才能义无反顾。I see you.
就做一个踏踏实实的研究型女大学生吧,虽然偶尔脑子里会有些异想天开的想法。
2010/2/2
by liuqq on 二.02, 2010, under 心情
昨天突然想为自己建一个独立博客。Thanks to zxdhuge, 这些没费多少周折。现在会简单的用一下wordpress了,但是有些插件还不会用,慢慢学吧^_^。
这个博客主要想写有关于我学到的一些知识。这个假期要和伙伴们做好校级创新的中期部分,挑战杯复赛的稿子。自己还有几本想读的书,有谁还想和我一起读的,我们一起交流下感受吧。书名《数据库系统实现》、《数据库系统原理》。
