这里拉取下来的是社区版本的Dremio镜像,如果需要商业版本的Dremio,则需要与Dremio官方联系。当然,作为个人开发使用,社区版本的Dremio已完全够用。
为了快速在本机搭建Dremio开发环境,我们在Docker Hub通过命令从镜像仓库中拉取镜像,如图13-2所示。
图13-2 Dremio镜像
拉取镜像的代码如下。
docker pull dremio/dremio-oss
单节点Dremio服务的部署,启动服务器端代码如下。
docker run --name dremio -p 9047:9047 -p 31010:31010 -p 45678:45678 dremio/dremio-oss
这样就完成了Docker下Dremio环境的搭建,利用以上命令可在Docker上启用一个单节点的Dremio服务,节点还包括以下服务:Embedded Zookeeper、Master Coordinator、Executor、注册账号。
Dremio服务启动成功后,在浏览器访问本地端口9047,将出现账号注册界面,如图13-3所示。
图13-3 账号注册页面
在账号注册完成后,会自动跳转到管理页面,如图13-4所示。
图13-4 管理页面
如果要创建一个内置简单数据源,单击页面左下角的“Add Data Lake”按钮,可以看到Dremio已支持的基于表的存储源及基于文件的存储源,在此将直接添加一个内置数据源,如图13-5所示。
图13-5 添加内置数据源
如果要添加外部的数据源,单击页面左下角的“External Source”按钮,弹出的页面如图13-6所示。
图13-6 外部数据源
此外,可以直接导入本地离线数据,单击页面右上角的“Upload File”按钮,如图13-7所示。
图13-7 “Upload File”按钮
在弹出的“Add File”对话框中,单击“browse”连接,如图13-8所示。
图13-8 “browse”连接
在弹出的对话框中,选择需要上传的数据文件,例如“customers.csv”(客户信息表),如图13-9所示。
图13-9 选择数据文件
此外,还需要对导入数据表的格式进行设置,包括数据格式、分隔符等,如图13-10所示。注意首行标题和行分隔符的设置。
图13-10 设置数据格式
在使用Apache Superset连接Dremio之前,需要安装对应的数据库驱动程序,代码如下。
pip install sqlalchemy_dremio
在Apache Superset数据源页面配置连接参数设置,单击“TEST CONNECTION”按钮验证是否配置成功,配置连接参数页面如图13-11所示。
图13-11 配置连接参数
可以通过命令的方式启动和重新启动Dremio数据仓库,代码如下。
docker start dremio
docker restart dremio
关闭Dremio数据仓库的代码如下。
docker stop dremio
由于编者水平所限,书中难免存在错误和不妥之处,请广大读者批评指正,作者微信公众号:Hanalyst。