presto的hive connector连接以及JDBC访问(包含kerberos方式)

参考资料:https://prestodb.io/docs/current/connector/hive.html

前言

presto支持hive connector,并支持连接多个hive connector,还支持kerberos相关

配置

普通配置

我们在etc目录下创建catalog目录,然后再下面创建hive.propertoes 文件,代表着我们创建了一个hive的catalog,hive.propertoes的配置如下

connector.name=hive-hadoop2
hive.metastore.uri=thrift://example.net:9083
hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

connector.name --- 这个是固定的,只要是hive的connector名字就为hive-hadoop2
然后再配置元数据服务的URL 和hadoop的core-site.xml 和 hdfs-site.xml到每一个presto节点

最后需要注意的是
由于没有kerberos认证,我们登陆hive用的用户名将会是启动presto进程的用户。如过我们想修改此,我们可以在jvm.config中添加

-DHADOOP_USER_NAME=hadoop

来将访问hive的用户改为hadoop用户

kerberos配置

kerberos相关的配置参考下面这篇文章
https://prestodb.io/docs/current/connector/hive-security.html

其实相当于多了几个配置,对于hive的配置有了解基本上看了配置就懂得了相关的含义。

  • 1、krb5.conf
    如果krb5.conf在/etc目录下面,那么这个可以不需要配置,如果不在,那么需要在jvm.config中显示的配置如下所示

-Djava.security.krb5.conf=/example/path/krb5.conf

  • 2、应对hive metatstore 相关的kerberos配置
1
2
3
4
hive.metastore.authentication.type=KERBEROS
hive.metastore.service.principal=ms/[email protected]
[email protected]
hive.metastore.client.keytab=/opt/beh/metadata/key/test001.ketab

hive.metastore.service.principal ---- 这个是在hive-site.xml中配置的hive服务端的priciple。这里好的是,presto支持_HOST这种形式,很方便

[email protected]
hive.metastore.client.keytab=/opt/beh/metadata/key/test001.keytab
这两个就是当前presto用户的kerberos 相关信息了

  • 3、hdfs相关的kerberos验证
1
2
3
4
hive.hdfs.authentication.type=KERBEROS
#hive.hdfs.impersonation.enabled=true
[email protected]
hive.hdfs.presto.keytab=/opt/beh/metadata/key/test001.keytab

hive.hdfs.impersonation.enabled=true ------------------这个配置我先注释了,具体还没有搞懂,因为我发现注释了他对于我后续测试和验证没有影响,这个后续再说吧。

[email protected]
hive.hdfs.presto.keytab=/opt/beh/metadata/key/test001.keytab
这两个就是当前presto用户的kerberos 相关信息了

最后说一句,keytab文件必须在每个节点分发,在相同的位置,而且有正确的权限。

最终我在hive.properties里面的配置如下

1
2
3
4
5
6
7
8
9
10
11
connector.name=hive-hadoop2
hive.metastore.uri=thrift://hadooptd3.novalocal:9083
hive.config.resources=/opt/beh/core/hadoop/etc/hadoop/hdfs-site.xml
hive.metastore.authentication.type=KERBEROS
hive.metastore.service.principal=ms/[email protected]
[email protected]
hive.metastore.client.keytab=/opt/beh/metadata/key/test001.ketab
hive.hdfs.authentication.type=KERBEROS
#hive.hdfs.impersonation.enabled=true
[email protected]
hive.hdfs.presto.keytab=/opt/beh/metadata/key/test001.ketab

JDBC访问

注意

不管是普通的presto的hive connector还是kerberos的hive connector,我们使用cli 和jdbc的方式是一样的,jdbc访问的URL方式也是一样的(推测应该是kerberos已经在配置文件里面配置了,所以无需在jdbc方式使用)

JDBC方式

pom配置

1
2
3
4
5
        <dependency>
            <groupId>com.facebook.presto</groupId>
            <artifactId>presto-jdbc</artifactId>
            <version>0.237</version>
        </dependency>

没啥好说的 直接上样例代码吧
参考文档:https://prestodb.io/docs/current/installation/jdbc.html

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
public class PrestoJdbc {

    private static String CONNECTION_URL = "jdbc:presto://****:16001/test001/test";

    public static void main(String[] args) throws SQLException{

        Connection connection = DriverManager.getConnection(CONNECTION_URL, "hadoop", "");

        ResultSet resultSet = connection.prepareStatement("select * from deoiuytdemo").executeQuery();

        while (resultSet.next()) {
            String str = resultSet.getString(1);
            System.out.println(str);
        }

        connection.close();
    }

}

多租户方案探究

看官网说可以连接多个hive源,那么这么来说肯定也可以以不同的租户连接同一个hive源了。
然后我在上述test001租户下,又创建了dev001.properties 相当于创建了一个dev001的catalog

1
2
3
4
5
6
7
8
9
10
11
connector.name=hive-hadoop2
hive.metastore.uri=thrift://hadooptd3.novalocal:9083
hive.config.resources=/opt/beh/core/hadoop/etc/hadoop/hdfs-site.xml
hive.metastore.authentication.type=KERBEROS
hive.metastore.service.principal=ms/[email protected]
[email protected]
hive.metastore.client.keytab=/opt/beh/metadata/key/dev001.ketab
hive.hdfs.authentication.type=KERBEROS
#hive.hdfs.impersonation.enabled=true
[email protected]
hive.hdfs.presto.keytab=/opt/beh/metadata/key/dev001.ketab

然后使用jdbc测试,也是没问题的,相当于用dev001 租户创建和访问表。
那么这种情景就在后续提供了一种多租户方案,相当于不同的租户可以访问不同的database下的表(一般多租户方案就是一个租户对应一个hive database),
相对来说就很方便了很多。