干货 | Logstash自定义正则表达式ETL实战

小青春curry

发布于 2022-10-17 15:25

浏览

0收藏

0、题记

本文建立在干货 | Logstash Grok数据结构化ETL实战上，并专注于在Grok中使用自定义正则表达式。

有时Logstash没有我们需要的模式。幸运的是，我们有正则表达式库：Oniguruma。

Oniguruma是一个灵活的正则表达式库。它包含多种语言的不同正则表达式实现的特性。

Github地址：https://github.com/kkos/oniguruma

1、基础再认知

Logstash：一个服务器端数据处理管道，它同时从多个源中提取数据，对其进行转换，然后将其发送到Elasticsearch“存储”。
Grok：Logstash中的过滤器，用于将非结构化数据解析为结构化和可查询的数据。
正则表达式：定义搜索模式的字符序列。

如果已经运行了Logstash，则无需安装其他正则表达式库，因为“Grok位于正则表达式之上，因此任何正则表达式在grok中都有效” -

官方文档：https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html

2、正则匹配模式分类解读

2.1 Grok

grok语法如下：

%{SYNTAX:SEMANTIC}

Syntax: 默认的grok模式Semantic: 是关键词。这样写很枯燥，实践一把。

干货 | Logstash自定义正则表达式ETL实战-鸿蒙开发者社区

2.2 Oniguruma

oniguruma语法如下：

(?<field_name>the pattern here)

field_name：是关键词。pattern ：这里的模式是你放入正则表达式模式的地方。

2.3 Grok + Oniguruma

您可以将Grok和Oniguruma结合起来，如下所示：

%{SYNTAX:SEMANTIC} (?<field_name>the pattern here)

不好理解？不要担心，2.2和2.3的示例在下面的章节详细解读。

3、实践一把

3.1 样例数据

为了演示如何在Grok中使用Oniguruma，我们将使用下面的日志数据作为示例。

production GET /v2/blacklist/ 200 24ms 5ba9e948801d34906b96e0c20 Panya/1.6.3 (com.sn.panya.host; build:1; iOS 10.3.3) Alamofire/4.66.0 {\"user_id\":\"5bd4c2f4569f470016bd8d55\",\"reason\":\"SPAMMER\"}

3.2 结构化日志数据

production == environment
GET == method
/v2/blacklist == url
200 == response_status
24ms == response_time
5bc6e716b5d6cb35fc9687c0 == user_id
Panya/1.6.3 (com.sn.panya.host; build:1; iOS 10.3.3) Alamofire/4.66.0 == user_agent
{"user_id":"5bd4c2f4569f470016bd8d55","reason":"SPAMMER"} == req.body

3.3 非结构化转化为结构化目标

目标是找到一种模式来构建和解析非结构化日志数据。

为此，我们将使用Grok Debugger和RegExr。

Grok Debugger ：https://grokdebug.herokuapp.com/
RegExr：https://regexr.com/

上面的模式产生了结果：

{
  "environment": [
    [
      "production"
    ]
  ],
  "method": [
    [
      "GET"
    ]
  ],
  "url": [
    [
      "/v2/blacklist/"
    ]
  ],
  "response_status": [
    [
      "200"
    ]
  ],
  "BASE10NUM": [
    [
      "200"
    ]
  ],
  "response_time": [
    [
      "24ms"
    ]
  ],
  "user_id": [
    [
      "5ba9e948801d34906b96e0c20"
    ]
  ]
}

这并不完整。 user_agent和req.body没有映射。要提取user_agent和req.body，我们需要仔细检查它的结构。

干货 | Logstash自定义正则表达式ETL实战-鸿蒙开发者社区

3.4 空白分隔符

 GET /v2/blacklist/ 200 24ms 5ba9e948801d34906b96e0c20

由空格分隔，这很容易使用。

但是，对于user_agent，根据发送请求的硬件类型，可能存在动态数量的空格。

Panya/1.6.3 (com.sn.panya.host; build:1; iOS 10.3.3) Alamofire/4.66.0

我们如何解释这种不断变化？

提示：看一下req.body的结构。

{\”user_id\”:\”5bd4c2f4569f470016bd8d55\”,\”reason\”:\”SPAMMER\”}

我们可以看到req.body由大括号{}组成。

利用这些知识，我们可以构建一个自定义正则表达式模式，以查找第一个左括号内的所有内容，然后再抓取所有内容。

如下正则的含义是：匹配从开头到“{”的所有字符。

干货 | Logstash自定义正则表达式ETL实战-鸿蒙开发者社区

谷歌搜索“regex match everything until character” 找到解决问题的正则思路：https://stackoverflow.com/questions/2013124/regex-matching-up-to-the-first-occurrence-of-a-character/2013150#2013150

后半部分组合后的正则如下：

(?<user_agent>[^{]*) %{GREEDYDATA:body}

user_agent和req.body将被提取出来。

3.5 全部放在一起

将此应用于grok调试器中的自定义正则表达式模式，得到了我们想要的结果：

干货 | Logstash自定义正则表达式ETL实战-鸿蒙开发者社区

4、更新Logstash.conf验证

在您安装ELK堆栈的服务器上，导航到Logstash配置。

sudo vi /etc/logstash/conf.d/logstash.conf

贴上正则部分内容：

input { 
  file {
    path => "/your_logs/*.log"
  }
}
filter{
  grok {
    match => { "message" => "%{WORD:environment} %{WORD:method} %{URIPATH:url} %{NUMBER:response_status} %{WORD:response_time} %{USERNAME:user_id} (?<user_agent>[^{]*) %{GREEDYDATA:body}"}
  }
}
output {
  elasticsearch {
    hosts => [ "localhost:9200" ]
  }
}

保存更改后，重新启动Logstash并检查其状态以确保它仍然有效。

sudo service logstash restart
sudo service logstash status

最后，为了确保更改生效，请务必刷新Kibana中Logstash的Elasticsearch索引！

干货 | Logstash自定义正则表达式ETL实战-鸿蒙开发者社区

5、小结

Oniguruma + Grok 组合实现自定义解析规则。Logstash文本模式的灵活性和可定制性使其成为构建非结构化日志的理想选择（只要数据结构具有可预测性）。
尝试在Logstash中结合Oniguruma实现自定义解析，提升解析的细化粒度。

文章转载自公众号：铭毅天下Elasticsearch

分类

数据库

标签

Elasticsearch

已于2022-10-17 15:25:18修改

相关推荐

Java8 lambda表达式使用局部变量final问题

jkfox • 8.1w浏览 • 0回复
关于Lambda表达式的推导与简单使用~

棉花糖 • 1.0w浏览 • 0回复
java 安全编码指南之: 表达式规则

hushuo • 6617浏览 • 0回复
HarmonyOS自定义Component（类似Android的自定义View）实现方式

blueice • 2.2w浏览 • 0回复
Linux学习笔记——文件内容操作命令+正则表达式+重定向和

deanyuancn • 1.5w浏览 • 0回复
鸿蒙自定义ListDialog

没用的喵叔 • 1.3w浏览 • 7回复
大佬把他总结的正则表达式使用给我了！

hushuo • 1.3w浏览 • 0回复
JAVA自定义布局

cqyin • 1.1w浏览 • 0回复
#夏日挑战赛#OHOS构建自定义服务实战

深开鸿 • 1.5w浏览 • 5回复
Flutter 中使用条件表达式的奇技淫巧

xbkong • 7278浏览 • 0回复
#夏日挑战赛# 一文了解cron表达式

今天写文章了吧 • 6209浏览 • 5回复
快速上手正则表达式

xjjFeRookie • 6988浏览 • 0回复
源码元宇宙-lambda表达式底层执行解析

ywz888 • 4101浏览 • 0回复
OceanBase的表达式编译执行

ywz888 • 4738浏览 • 0回复
聊聊工作中常用的Lambda表达式

Bald_eagle • 3432浏览 • 0回复
【FFH】OpenHarmony——ArkTs应用开发+正则表达式

FFH物联黄同学 • 5903浏览 • 0回复
MVEL表达式引擎使用教程

d_hero • 4602浏览 • 0回复
C#实战积累:常用的lambda表达式整理

icegoblin • 1660浏览 • 0回复
这款轻量级 Java 表达式引擎，真不错！

laomugua • 1825浏览 • 0回复

小青春curry

这个用户很懒，还没有个人简介

帖子

视频

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

干货 | Logstash自定义正则表达式ETL实战

0、题记

1、基础再认知

2、正则匹配模式分类解读

2.1 Grok

2.2 Oniguruma

2.3 Grok + Oniguruma

3、实践一把

3.1 样例数据

3.2 结构化日志数据

3.3 非结构化转化为结构化目标

3.4 空白分隔符

3.5 全部放在一起

4、更新Logstash.conf验证

5、小结

目录

订阅鸿蒙技术特刊，精选内容抢先看