我正在深入研究数据科学,我正在寻找一个完整的矿物数据库。我下载了csv文件http://rruff.info/ima/.它包含5516行数据,但没有图像或url。有没有人知道有一个矿物图片数据库?我想找到它来训练神经网络。
-
2\ begingroup美元 你想让神经网络进行图像识别,并根据图像在数据库中的外观尝试将未知图像与矿物匹配吗?这是行不通的。欢迎大家提出新的问题,我会解释为什么。 \ endgroup美元- - - - - -Gimelist2019年11月19日10:07
-
\ begingroup美元 如果这是你的目的,就像@Gimelist说的那样,这是不可能的。如果不是谷歌就会这么做。但如果能读读专家的解释就好了。我的朋友告诉我,“做一个能识别矿物的应用程序”。我的回答是,我怀疑这是可能的。但也许你可以说清楚你想做什么。也许有了人工智能,你可以做一些其他有趣的事情 \ endgroup美元- - - - - -user182612019年11月19日12:13
-
\ begingroup美元 Gimesist,是的,它是用于图像识别的。我很有信心,它将适用于具有独特视觉特征的常见矿物。我只需要一个好的数据集和多个角度的图片。 \ endgroup美元- - - - - -佩德罗•阿吉亚尔2019年11月19日22:40
-
\ begingroup美元 视觉形状和颜色是用于识别的矿物的两个最容易误导人的特性。这就是为什么我们禁止矿物质ID问题的原因之一——因为我们有一张照片,这基本上是无用的。事实上,某些矿物(有时)是如此独特,以至于这种方法可能奏效。但我能数出10种矿物,我只能通过观察它们(从数千种矿物中),而且只有当它们处于那种特定的形式时才能识别出来。 \ endgroup美元- - - - - -Gimelist2019年11月19日23:43
-
2\ begingroup美元 @PedroAguiar超过10年的矿物识别经验告诉我,很难相信视觉矿物识别。除非你的神经网络也考虑硬度、光泽、密度、化学成分、地质背景,否则它可能不会起作用。 \ endgroup美元- - - - - -Gimelist2019年11月19日23:45
2答案
首先,rrufff .info是一个化学家快速获取数据的优秀网站,你可以完全信任它的来源。
其次,在图片方面,列出的5000多个物种中,大多数都没有在自然界中展示过,你不可能拥有所有物种的图片。你只能在网上找到自然界常见矿物的图片。
第三,这取决于你的作品是否会被发布,因为如果是这样,你将需要许可或CC许可的图像。
图片和数据的版权数据库:
Mindat可以与你分享他们的数据他们很快就会开放CC格式的API,但他们拥有的图片属于每个作者,其中许多是受版权保护的(如果他们开放数据,你将需要单独请求每张图片的许可)。
CC许可图片:
我想知道如何从CC许可证上的常见矿物中获取图片,因为我正在写一个矿物应用程序,我的选择是拉文斯基博士收集从他的矿物商店上传到维基百科iRocks.com.
在他的网站上,他们有大量高质量、描述良好的常见矿物图片,你可以下载一个脚本,制作GET请愿书,你可以请求他们的许可,即使是那些没有上传到维基的图片。我在我的矿物指南中也这样做过,他们只是让我引用iRocks.com;他们是非常公正的人。显然他们很乐意分享如果你报价他的店。
在维基百科上,你可以找到CC许可>2000图片上传自mindat.org, >5000上传自iRocks.com
你有在维基共享资源上有完整的矿物列表和图片从哪里开始收集数据。我不知道你是否可以以某种方式提取所有的图像url使用GET请求与代码。我自己只拍了iRocks的照片,因为我的指南只涵盖了180种矿物,拉文斯基博士提供的描述是有价值的(例子),然后我只需要引用一位作者(最后我直接从iRocks上引用了他们,并将我的作品链接到他的商店里,他们对此非常高兴,他们回复我的邮件说“非常感谢”)。
-
\ begingroup美元 谢谢白细胞。我很高兴知道他们将开放数据库并创建一个API,我的项目也将是开源的。我不会发布任何图片,它们将被用来训练一个识别矿物的软件,然后它可以用于课堂上,学生们可以用智能手机找出矿物的名称和化学成分。关于数据量,列出最常见的矿物质就足够了。但要使其工作,计算机需要在不同角度和光照条件下对同一种矿物进行多张图片。真正的工作是数据库。 \ endgroup美元- - - - - -佩德罗•阿吉亚尔2019年11月19日20:39
-
\ begingroup美元 @Pedro Aguiar如果有帮助,在这里你可以下载我选择的180种矿物.我选择了我在地质学学位上见过的矿物。无论如何,作为Gimelist,我怀疑你能找到一种方法从图片中识别矿物质。一个物种可以有三种不同的习性。 \ endgroup美元- - - - - -user182612019年11月20日11:32
-
-
-
-
\ begingroup美元 他们不能。如果你读了我的评论链接,他们将开放数据并创建一个API,但每张照片都属于每个作者,并将保持版权,而不是在API中可用。海报只能使用在维基百科上以CC的形式分享的图片,但对于其他图片,他应该征求每位作者的同意。因此,在图片方面,最好带iRocks的。他们向维基百科上传了5000张照片(mindat上传了2000张照片,见我的答案链接),你只需要引用一位作者的话。对于数据,rrufff .info更适合,除非mindat有位置。 \ endgroup美元- - - - - -user182612019年11月19日10点11分
-
\ begingroup美元 @Gimelist不是为了图片,因为它们属于每个作者。对于数据,他们将开放数据,正如我在评论的链接中所说的那样。 \ endgroup美元- - - - - -user182612019年11月19日10:17