谷歌图片搜索识别捡漏！用谷歌图片搜索自制深度学习数据集

铜灵编译整理

量子位出品 | 公众号 QbitAI

就怕前脚刚立志搞个新研究，后脚就发现没有合适的数据集可用。AI工程师从入门到放弃，可能就是这么一会的功夫。

别找了，现在深度学习数据集也能自制了。

在这份教程中，来自fast.ai的小哥哥Francisco Ingham就想手把手教你，如何利用谷歌图片搜索，DIY一份自己的深度学习数据集出来，还不会违反谷歌服务条例。

‏

整装待发，这样的好事其实需要六步就够了。

Let’s Go

第1步：搜索图像

非常简单，就像平时在谷歌图片中查找图像一样，输入关键词，搜索你感兴趣的图像。

谷歌图像最多显示700张图像，所以一页到底再点击“显示更多”谷歌图片搜索识别，直到加载完毕。

小窍门：输入的关键词越精准，最后得到的数据集质量也越高。

第2步：下载图片

在浏览器中运行下面这段Javascript代码，创建数据集中所有图像的URL：

然后将这些URL保存到一个文件夹中，以备后用。

第3步：创建目录将URL传至服务器

上一步的成果，现在可以拿来用了。不过先得创建一个项目目录。作者将其命名为mkdir MyProject，不过“MyProject”可以替换成你喜欢的项目名字。

按下“Upload”键，将上传URL地址一键上传到这个目录中。

第4步：下载图像

上传到上面目录后，就能把它们从各自的URL下载下来，得到了初版数据集。

也不麻烦,，每个目录中都需要运行一次下面这段代码：

download_images(path/file, dest, max_pics=200)

只需要指定URL文件名和目标文件，就能自动下载保存，在本地就能打开图像了。

Tips：要下载图像的数量可以自己选择。

第5步：筛选图像

查看新鲜出炉的图像，可能会发现一些不需要的图像，此时就需要你手动去筛选和删除它们了。

如果一开始在谷歌搜索中的关键词没有设置好，那这一步可能得多费点时间喽。

第6步：准备训练目录

和数据集的众多兄弟姐妹一样，在开始使用它前，最好还是把里面的图片分成训练、验证和测试集。

过完这道坎，你就拥有了一个DIY的深度学习数据集了，此时有没有感觉赞赞的？

传送门

GitHub项目地址：

此外，Francisco Ingham还将教程搬到了fast.ai的课程仓库中，是用Jupyter Notebooks写成的。不过刚量子位看时还没有搬完。如果原地址找不到了，不妨来这里看看：

条条大路通教程，祝你学有所得~

— 完 —

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严谷歌图片搜索识别，敬请谅解）

活动策划招聘

量子位正在招聘活动策划，将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入，并希望你能有一些活动策划或运营的相关经验。相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

———END———
限时特惠：本站每日持续更新海量各大内部创业教程，一年会员只需128元，全站资源免费下载点击查看详情
站长微信：jiumai99

相关文章