想象一下,创建一个数据库的任务,所有高质量的特色cafés世界各地,这样你就不必满足于一个不完美的酿造。依赖Yelp等网站的评论是做不到的,因为对谁可以在上面发表评论没有限制。另一方面,你只对咖啡知识界评论过的cafés感兴趣。有一些在线资源,其中包含与您所设想的数据库相关的内容。Cafés可能刊载在颇受尊敬的咖啡出版物上,例如sprudge.com或baristamagazine.com你的社交媒体流中可能会从精通咖啡的朋友那里弹出更短暂的数据。
创建这样一个数据库的任务异常困难。首先要决定数据库应该对cafés的哪些属性建模。地址和开放时间等属性即使对新手来说也很明显,但你需要咨询咖啡专家,他会给你建议更精致的属性,如烘焙剖面和酿造方法。下一步是编写程序,从这些异构源中提取结构化数据,区分好的提取和坏的提取,并结合来自不同源的提取在数据库中创建元组。作为数据清理过程的一部分,您可能希望雇佣人群工作者来确认细节,比如从文本中提取的开放时间,或者文本中两次提到的cafés是否指的是现实世界中的同一个café。在极端情况下,您甚至可以派人到café亲自查看一些细节。创建数据库的过程是迭代的,因为您的提取技术将得到改进,而且café场景经常变化。
没有发现记录