MAPREDUCE服务 MRS-Spark常用配置参数:Spark Streaming Kafka
Spark Streaming Kafka
Receiver是Spark Streaming一个重要的组成部分,它负责接收外部数据,并将数据封装为Block,提供给Streaming消费。最常见的数据源是Kafka,Spark Streaming对Kafka的集成也是最完善的,不仅有可靠性的保障,而且也支持从Kafka直接作为RDD输入。
参数 |
描述 |
取值示例 |
---|---|---|
spark.streaming.kafka.maxRatePerPartition |
使用Kafka direct stream API时,从每个Kafka分区读取数据的最大速率(每秒记录数量)。 |
- |
spark.streaming.blockInterval |
在被存入Spark之前Spark Streaming Receiver接收数据累积成数据块的间隔(毫秒)。推荐最小值为50毫秒。 |
200ms |
spark.streaming.receiver.maxRate |
每个Receiver接收数据的最大速率(每秒记录数量)。配置设置为0或者负值将不会对速率设限。 |
- |
spark.streaming.receiver.writeAheadLog.enable |
是否使用ReliableKafkaReceiver。该Receiver支持流式数据不丢失。 |
false |