随着数据集合越来越大,用户在数据分析中面临越来越多的瓶颈。更多的数据意味着在执行所需查询之前准备数据和将数据加载到数据库的时间更多。许多应用程序已经避免使用数据库系统,例如科学数据分析和社交网络,由于复杂性和增加data-to-query时间,即从获取数据到检索第一个有用结果之间的时间。对于许多应用程序来说,数据收集保持快速增长,甚至每天都在增长海量数据在未来,它只会增加,预计它拥有的数据将远远超过我们可以移动或存储的数据,更不用说分析了。
我们在这里介绍数据库系统中一个叫做NoDB的新范式的设计和路线图不需要加载数据,同时仍然维护现代数据库系统的整个功能集。特别是,我们将展示如何使原始数据文件成为一级公民,与查询引擎完全集成。通过我们的设计和在现代数据库管理系统(DBMS)上实现NoDB哲学的经验教训,我们讨论了这种研究路径所带来的基本限制以及强大的机会。我们确定了特定于原地处理的性能瓶颈,即重复解析和令牌化开销以及昂贵的数据类型转换。为了解决这些问题,我们引入了一种自适应索引机制,该机制维护位置信息,以提供对原始数据文件的高效访问,以及灵活的缓存结构。我们得出结论,NoDB系统在现代DBMS上设计和实现是可行的,在可用性和性能方面带来了前所未有的积极影响。
没有发现记录