生产中的Java G1垃圾收集

Java G1 garbage collection in production

由于Java 7将默认使用新的G1垃圾收集，Java是否能够处理一个数量级更大的堆而不会产生"破坏性"的GC暂停时间？有人在生产中实际实施了G1，你的经历是什么？

公平地说，我唯一一次看到非常长的GC暂停是非常大的堆，远远超过工作站。澄清我的问题; G1将打开数百GB的网关？TB？

我一直在用大量应用程序测试它：60-70GB分配给堆，随时使用20-50GB。有了这些应用，说你的里程可能会有所不同，这是轻描淡写的。我在Linux上运行JDK 1.6_22。次要版本很重要 - 在大约1.6_20之前，G1中存在导致随机NullPointerExceptions的错误。

我发现它非常擅长保持在你大部分时间都给它的暂停目标。默认似乎是100毫秒(0.1秒)暂停，我一直告诉它做一半(-XX：MaxGCPauseMillis = 50)。然而，一旦它的内存变得非常低，它就会发生恐慌并完成一个完整的世界垃圾收集。 65GB，需要30秒到2分钟。 (CPU的数量可能没有区别;它可能受到总线速度的限制。)

与CMS(不是默认的服务器GC，但它应该用于Web服务器和其他实时应用程序)相比，典型的暂停更加可预测，并且可以缩短得多。到目前为止，我已经有了更好的运气与CMS的巨大停顿，但这可能是随机的;我每24小时只看几次。我不确定哪一个在我的生产环境中更合适，但可能是G1。如果甲骨文不断调整它，我怀疑G1最终会成为明显的赢家。

如果您对现有的垃圾收集器没有问题，那么现在没有理由考虑G1。如果您正在运行低延迟应用程序(例如GUI应用程序)，则G1可能是正确的选择，MaxGCPauseMillis设置得非常低。如果您正在运行批处理模式应用程序，G1不会为您购买任何东西。

听起来G1的要点是具有较小的暂停时间，甚至可以指定最大暂停时间目标。

垃圾收集不仅仅是一个简单的"嘿，它已经完整，让我们一次性移动所有东西并重新开始"处理 - 它是非常复杂的，多层次的，后台线程系统。它可以在后台完成大部分维护而不会暂停，它还可以在运行时使用系统预期模式的知识来帮助 - 比如假设大多数对象在创建后就死了，等等。

我会说GC暂停时间将继续改善，而不是恶化，以及将来的版本。

编辑：

在重新阅读时，我发现我每天都使用Java - Eclipse，Azureus和我开发的应用程序，自从我看到暂停以来，它已经很长时间了。不是一个重要的停顿，但我的意思是任何停顿。

当我右键单击Windows资源管理器或(偶尔)我连接某些USB硬件时，我已经看到了暂停，但是使用Java ---根本没有。

GC仍然是任何人的问题吗？

相关讨论

同意 - 我唯一一次看到GC暂停是因为我故意或偶然地用大规模并行的垃圾创建代码激发它们......
是的，当您开始处理大堆(> 16GB)时，GC仍然是一个非常大的问题，特别是对于大量的终身产品。
@ the-alchemist哇，我已经看过你的评论几次，只是让我感到震惊，你说16 GB !!虽然我完全相信你是正确的，这可能导致巨大的延迟，但我想检查你是否禁用了所有交换。在大型内存系统上，任何交换java都会绝对会破坏你的系统(因为GC非常不符合交换)。我相信你已经做到了，但我只想提一下 - 因为它会产生如此巨大的变化。我从未见过有这么多公羊的电脑 - 你有多少钱？ 32克？
是的，GC对服务有问题，因为它们很难提高TP99.9(和更高)的限制。具体而言，"老一代"GC可以是死亡陷阱，除了冻结JVM(和服务)几秒钟之外;对于通常以一位数(或低两位数)毫秒计数请求的服务，这是有问题的。对于它的价值，这是亚马逊简单队列服务使用的后端存储的实际问题(不能像AWS内部那样涉及大量细节)。
令人烦恼的关于GC的事情是，Azul多年前发明了一种巧妙的GC算法(Azul C4)，通过非常巧妙地使用处理器内存硬件，可以轻松应对数百GB而没有任何明显的暂停时间。但是没有人知道这一点，它很快就不会在主要的Java版本中实现，因为它需要操作系统的一些支持。在人们了解算法并对操作系统供应商施加压力之前，操作系统供应商不会做任何事情。请参阅azulsystems.com/zing/pgc,managedruntime.org
有关垃圾收集和Azul C4的更多信息：youtube.com/watch？v = we_enrM7TSY
@HansHans-PeterSt?rr我假设你在谈论硬件虚拟内存。实际上，操作系统已经提供了用于管理它的接口(mmap和VirtualAlloc)，并且应用程序甚至可以使用虚拟化硬件(即嵌套页表)来直接管理它。但是为什么JVM开发人员甚至不想使用它是超出我的。也许专利？
@AleksandrDubinsky在这里唤醒一个旧线程。顺便说一下，现在我在一台64GB的机器上运行，其中包含总共大约32gb的应用程序组合(然后在Eclipse和其他一些应用程序之上)。我仍然看到停顿的唯一一次是当SYSTEM开始推动90％满时。
@AleksandrDubinsky至少在2010年，Azul C4需要额外的内核功能。他们想把它贡献给Linux内核，但放弃了。据称，Linux内核社区对Java(等)的反对是一个因素。至少Gil Tene(Azul首席技术官)说："在所有运行时，能够使GC更好地适应每个人的想法似乎让人感到不安和愤怒。对某些人来说，似乎GC只对帮助懒惰的人，如果没有它就太愚蠢，任何让它更好地运作的东西都不应该受到鼓励。"
@ddekany补丁公开吗？ (如果它被提议，它应该在邮件列表中。)我可以看到内核开发人员讨厌Java，但我也没有看到Azul开源他们的垃圾收集器。仅适用于某些专有软件的补丁通常由其供应商维护。像这样的补丁需要在社区中提供和孕育，并产生吸收。我希望补丁是公开的，所以我可以看到它的作用。
@AleksandrDubinsky是的，作为提案一部分的代码是公开的：github.com/GregBowyer/ManagedRuntimeInitiative。 C4不是开源的，但至少Azul方面的说法是新内核功能对其他垃圾收集器仍然有用。
@ddekany正如我所怀疑的，补丁涉及操纵虚拟内存。我想知道为什么不使用虚拟化功能在用户空间中做同样的事情。我对此进行了更多的研究，我认为这些页面表技巧只能优化压缩(并且只能对大对象进行优化)。它不会产生或打破暂停GC。无暂停GC围绕非常谨慎的并发编程(允许所有GC阶段与程序执行同时发生)。 Shenandoah是OpenJDK尝试制作这样一个GC的尝试。

虽然我没有在生产中测试G1，但我认为我会评论说，如果没有"大量"堆积的情况，GC已经存在问题。具体而言，只有2或4场演出的服务可能会受到GC的严重影响。年轻代GC通常没有问题，因为它们以一位数毫秒(或最多两位数)完成。但老一代的收藏品问题更多，因为他们需要花费多秒才能使用1 gig或更高的旧版本。

现在：理论上CMS在那里可以提供很多帮助，因为它可以同时运行大部分操作。然而，随着时间的推移，将会出现无法做到这一点并且不得不回归"停止世界"收集的情况。当发生这种情况时(比如1小时之后 - 不经常，但仍然经常发生)，好吧，坚持你的帽子。可能需要一分钟或更长时间。对于试图限制最大延迟的服务而言，这尤其成问题;而不是采用25毫秒来提供请求，现在需要10秒或更长时间。为了给侮辱客户增加伤害，通常会超时请求并重试，从而导致进一步的问题(又名"狗屎风暴")。

这是G1希望帮助很多的一个领域。我曾在一家大公司工作，为存储和消息调度提供云服务;我们不能使用CMS，因为虽然它大部分时间比并行品种更好，但它有这些崩溃。所以大约一个小时的事情很好;然后东西击中了风扇......并且因为服务是基于集群的，当一个节点遇到麻烦时，其他节点通常会跟随(因为GC引起的超时导致其他节点认为节点已经崩溃，导致重新路由)。

我不认为GC对于应用程序来说是个大问题，甚至非集群服务也可能不那么受影响。但是越来越多的系统被集群化(特别是感谢NoSQL数据存储)，并且堆大小正在增长。 OldGen GC与堆大小超线性相关(意味着，如果实时数据集的大小也增加一倍，则堆大小加倍会使GC时间增加一倍以上)。

Azul的首席技术官Gil Tene对与垃圾收集相关的问题进行了很好的概述，并对他的"了解Java垃圾收集"和"你能做些什么"介绍中的各种解决方案进行了回顾，本文还有其他细节：http：// www.infoq.com/articles/azul_gc_in_detail。

我们的Zing JVM中的Azul的C4垃圾收集器既是并行的又是并发的，并且对新旧两代使用相同的GC机制，在两种情况下同时工作和压缩。最重要的是，C4没有世界末日的回落。所有压缩都与正在运行的应用程序同时执行。我们的客户运行非常大(数百GB)，情况GC暂停时间<10毫秒，根据应用的不同，通常不到1-2毫秒。

CMS和G1的问题在于，在某些时候必须压缩Java堆内存，并且这两个垃圾收集器都会停止世界/ STW(即暂停应用程序)以执行压缩。因此，虽然CMS和G1可以推出STW暂停，但它们并没有消除它们。然而，Azul的C4确实完全消除了STW暂停，这就是为什么Zing即使对于巨大的堆大小也有如此低的GC暂停。

为了纠正先前回答中的陈述，Zing不需要对操作系统进行任何更改。它就像未经修改的Linux发行版上的任何其他JVM一样运行。

相关讨论

我们已经使用了近两年的G1GC。它在我们的关键任务事务处理系统中表现出色，并且它被证明是高吞吐量，低暂停，并发和优化的重内存管理的一个很好的支持。

我们正在使用以下JVM设置：

1	-server -Xms512m -Xmx3076m -XX:NewRatio=50 -XX:+HeapDumpOnOutOfMemoryError -XX:+UseG1GC -XX:+AggressiveOpts -XX:+UnlockExperimentalVMOptions -XX:MaxGCPauseMillis=400 -XX:GCPauseIntervalMillis=8000 -XX:+PrintGCTimeStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime

更新

-d64 -server -Xss4m -Xms1024m -Xmx4096m -XX:NewRatio=50 -XX:+UseG1GC -XX:+UnlockExperimentalVMOptions -XX:+HeapDumpOnOutOfMemoryError -XX:-DisableExplicitGC -XX:+AggressiveOpts -Xnoclassgc -XX:+UseNUMA -XX:+UseFastAccessorMethods -XX:ReservedCodeCacheSize=48m -XX:+UseStringCache -XX:+UseStringDeduplication -XX:MaxGCPauseMillis=400 -XX:GCPauseIntervalMillis=8000

相关讨论

G1收集器减少了完整收藏的影响。如果你有一个应用程序，你已经减少了对完整集合的需求，那么Concurrent map Sweep collector也同样好，根据我的经验，缩短了收集时间。

相关讨论

似乎G1启动JDK7u4终于得到官方支持，请参阅RN for JDK7u4
http://www.oracle.com/technetwork/java/javase/7u4-relnotes-1575007.html。

从我们对大型JVM的测试仍然可以调整CMS仍然比G1好，但我想它会变得更好。

即使您在不累积终身对象的情况下运行CMS，CMS也会导致性能缓慢下降。这是因为G1应该避免的内存碎片。

只有付费支持才能获得关于G1的神话只是一个神话。 Sun和现在Oracle已经在JDK页面上阐明了这一点。

G1 GC应该可以更好地工作。但如果设置-XX：MaxGCPauseMillis过于激进，垃圾收集速度会太慢。这就是David Leppik的例子中完整的GC触发的原因。

我刚刚在Terracotta Big Memory项目中实现了G1 Garbage Collector。在处理不同类型的收集器时，G1给出了最佳结果，响应时间不到600毫秒。

您可以在此处找到测试结果(共26个)

希望能帮助到你。