Memory Efficient Mapping of String to List<String>
我使用 hashmap 结构来存储父文档(键)和与该父文档关联的所有子文档(值)的列表之间的映射。这需要稍后迭代以处理映射。 List 中的键和每个值通常是 75-100 个字符长的文件名。这很好用,但有 50000 个父文档,每个文档都有 50-100 个子文档与之关联。所以这会在内存中产生巨大的对象负载。有没有更好的方法以内存有效的方式存储此映射?
1
| Map <String, List <String >> docmap =new HashMap <String,List <String >>(); |
- 您需要迭代填充的地图吗?或者你有空地图,你想填充它?
-
我需要知道除了 HashMap 是否有更好的方法来做这个映射
-
听起来 HashMap 不是问题,而是数据的大小。任何存储所有不同数据的数据结构都会占用大量空间,除非您有办法对其进行压缩。假设您无法压缩它,显而易见的解决方案是将其存储在数据库中。
-
如果事先知道每个文档的子文档的大小,您可以做的一件事是使用数组而不是列表(如果您不需要列表功能。这可以在一定程度上减少负载。但它是正如@rghome 所说,您的数据量很大。
-
要存储的名称可能存在冗余。因此可以对它们应用压缩。或类似前缀树(trie)的东西。或者将此数据结构委托给数据库(管理主内存中的内容和硬盘上的内容)。
-
Java 中的字符串复制它们使用的字节以确保它们是不可变的。您可能希望将 CharSequence 的子类存储在 HashMap 中,它只是字符串的视图,而不是副本。
你的结构不是低效的,寻找更好的东西是没有意义的。
我计算出仅您的字符串使用的空间可能在 650MB 左右,忽略哈希图和列表的开销。
我不知道 ArrayList 或 HashMap 的开销,但与子列表的大小相比,它不会那么多。甚至每个列表和哈希条目都花费您 20 个字节,这将只有 2MB - 沧海一粟。
所以你的问题不是哈希映射或列表——而是你的原始数据。
如果 650MB 太大而无法存储在内存中(现在已经不多了),那么您唯一的选择是将其存储在数据库中。
这应该更节省内存,因为它不会浪费内存用于存储桶管理:
1 2
| String [][] array = new String [50000][]; // parents
array [1] = new String[100]; // children for parent 1 |