GC是什么
GC就是垃圾回收, 哎, 现在Java如日中天, JVM都有些了解吧. 其中的垃圾回收还经常在面试中问道(虽然我忘完了). 当然, 垃圾回收不只是JVM, Python等高级语言都用到了. 简单说, GC完成的任务就两件事:
- 找到内存中已经无用的垃圾
- 将垃圾回收, 以便于之后可以再次利用
之前用C语言的时候, 使用 malloc
申请堆上的内存, 是需要通过free
函数进行释放的. 否则大量内存空间得不到释放, 要出问题的.
而GC简单说就是帮你做了释放内存空间的操作, 使用者只需要创建, 而不需要关心释放.
GC算法的评价标准
GC有很多的算法来实现, 如何来评价一个GC算法的优劣呢? 总要有个判断的依据的吧.
1. 吞吐量
总听过过网络吞吐量吧, 就是每秒能够接受多少字节的数据. 换到GC上也差不多的道理, 就是每秒能处理多少字节的内存.
举个例子:
上面是一个程序的执行流程, 其中GC执行了两次, 总时间为(A+B). 假设对内存大小为S, 则平均吞吐量为: S/(A+B). 如果时间单位是秒, 堆大小为kb, 则吞吐量单位为 kb/s. 也就是平均每秒能处理的字节数. 可以将吞吐量理解为速度.
显而易见, 吞吐量越大, 单位时间处理的内存越多, GC执行的时间就越短.
2. 最大暂停时间
因为程序在CPU中是分片执行的, 当GC执行的时候, 程序就需要暂停等待. 最大暂停时间值得就是: 执行GC而暂停执行程序的最长时间.
最大暂停时间越小, 程序的中断时间越短.
3.堆的使用效率
使用了某GC算法后, 留给程序使用的堆大小占多大比例. 比如标记-复制算法, 讲堆一分为二, 每次只使用其中的一半, 另一半空闲着, 使用效率就只有50%, 造成了很大的浪费, 有点空间换时间的意思. 使用效率当然是越大越好.
4.访问的局部性
电脑中, CPU寄存器从高速缓存中获取数据, 高速缓存是内存的部分数据, 内存再从硬盘获取数据. 越往后速度越慢, 相应的空间越大, 读取数据时, 如果能够从最近的又最快的地方读取, 速度就会快很多.
应用到GC中, 也是差不多的道理, 有些对象是需要经常回收的, 而有些对象则会停留很长一段时间, 每次回收时若能够精准定位到需要回收的对象, 则速度会提升很多.同时, 将具有引用关系的相关对象放到内存中的临近位置, 访问时程序就无需多次读取访问内存.
JVM中的分代思想就有点这个意思.
也不能完全看这些标准, 有的算法是这个高, 那个低. 还是要有所取舍的.