Linkerd2.10(StepbyStep)—混沌工程之注入故障

Linkerd 2.10 中文手册持续修正更新中:

  • https://linkerd.hacker-linner.com

使用 Service Mesh Interface 的 Traffic Split API 很容易将故障注入应用程序。TrafficSplit 允许您将一定比例的流量重定向到特定后端。这个后端是完全灵活的,可以返回任何你想要的响应——500 秒、超时甚至疯狂的有效载荷。

books demo 是展示这种行为的好方法。整体拓扑如下:

在本指南中,您将把一些请求从 webapp 拆分到 books。大多数请求最终会到达正确的 books 目的地,但其中一些将被重定向到有问题的后端。此后端将为每个请求返回 500 秒并将错误注入 webapp 服务。不需要更改代码,并且由于此方法是配置驱动(configuration driven)的, 因此可以将其添加到集成测试和 CI 管道中。如果你真的过着混沌工程(chaos engineering)的 lifestyle,甚至可以在生产中使用故障注入。

先决条件

要使用本指南,您需要在集群上安装 Linkerd 及其 Viz 扩展。

设置服务

首先,将 books 示例应用程序添加到您的集群:

 
 
 
 
  1. kubectl create ns booksapp && \ 
  2.   linkerd inject https://run.linkerd.io/booksapp.yml | \ 
  3.   kubectl -n booksapp apply -f - 

由于此清单在其他地方用作 demo,因此已配置错误率(error rate)。为了展示故障注入的工作原理,需要去除错误率,以便有一个可靠的基线(reliable baseline)。要将 bookapp 的成功率提高到 100%,请运行:

 
 
 
 
  1. kubectl -n booksapp patch deploy authors \ 
  2.   --type='json' \ 
  3.   -p='[{"op":"remove", "path":"/spec/template/spec/containers/0/env/2"}]' 

过了一会儿,统计数据会显示 100% 的成功率。您可以通过运行以下命令来验证这一点:

 
 
 
 
  1. linkerd viz -n booksapp stat deploy 

输出最终看起来有点像:

 
 
 
 
  1. NAME      MESHED   SUCCESS      RPS   LATENCY_P50   LATENCY_P95   LATENCY_P99   TCP_CONN 
  2. authors      1/1   100.00%   7.1rps           4ms          26ms          33ms          6 
  3. books        1/1   100.00%   8.6rps           6ms          73ms          95ms          6 
  4. traffic      1/1         -        -             -             -             -          - 
  5. webapp       3/3   100.00%   7.9rps          20ms          76ms          95ms          9 

创建有问题的后端

将错误注入到 booksapp 中需要一个配置为返回错误的服务。为此,您可以启动 NGINX 并通过运行将其配置为返回 500s:

 
 
 
 
  1. cat <
  2. apiVersion: v1 
  3. kind: ConfigMap 
  4. metadata: 
  5.   name: error-injector 
  6.   namespace: booksapp 
  7. data: 
  8.  nginx.conf: |- 
  9.     events {} 
  10.     http { 
  11.         server { 
  12.           listen 8080; 
  13.             location / { 
  14.                 return 500; 
  15.             } 
  16.         } 
  17.     } 
  18. --- 
  19. apiVersion: apps/v1 
  20. kind: Deployment 
  21. metadata: 
  22.   name: error-injector 
  23.   namespace: booksapp 
  24.   labels: 
  25.     app: error-injector 
  26. spec: 
  27.   selector: 
  28.     matchLabels: 
  29.       app: error-injector 
  30.   replicas: 1 
  31.   template: 
  32.     metadata: 
  33.       labels: 
  34.         app: error-injector 
  35.     spec: 
  36.       containers: 
  37.         - name: nginx 
  38.           image: nginx:alpine 
  39.           volumeMounts: 
  40.             - name: nginx-config 
  41.               mountPath: /etc/nginx/nginx.conf 
  42.               subPath: nginx.conf 
  43.       volumes: 
  44.         - name: nginx-config 
  45.           configMap: 
  46.             name: error-injector 
  47. --- 
  48. apiVersion: v1 
  49. kind: Service 
  50. metadata: 
  51.   name: error-injector 
  52.   namespace: booksapp 
  53. spec: 
  54.   ports: 
  55.   - name: service 
  56.     port: 8080 
  57.   selector: 
  58.     app: error-injector 
  59. EOF 

注入故障

随着 booksapp 和 NGINX 的运行,现在是时候在现有的后端(backend)、books 和 新创建的 error-injector 之间部分地分割流量了。这是通过向集群添加 TrafficSplit 配置来实现的:

 
 
 
 
  1. cat <
  2. apiVersion: split.smi-spec.io/v1alpha1 
  3. kind: TrafficSplit 
  4. metadata: 
  5.   name: error-split 
  6.   namespace: booksapp 
  7. spec: 
  8.   service: books 
  9.   backends: 
  10.   - service: books 
  11.     weight: 900m 
  12.   - service: error-injector 
  13.     weight: 100m 
  14. EOF 

当 Linkerd 看到流向 Books 服务的流量时, 它会向原始服务发送 9⁄10 个请求,向错误注入器(error injector)发送 1⁄10 个请求。您可以通过运行 stat 并显式过滤来自 webapp 的请求来查看它的样子:

 
 
 
 
  1. linkerd viz -n booksapp routes deploy/webapp --to service/books 

与之前的 stat 命令只查看服务器收到的请求不同, 这个 routes 命令过滤到所有由 webapp 发出的 发往 books 服务本身的请求。输出应显示 90% 的成功率:

 
 
 
 
  1. ROUTE       SERVICE   SUCCESS      RPS   LATENCY_P50   LATENCY_P95   LATENCY_P99 
  2. [DEFAULT]     books    90.08%   2.0rps           5ms          69ms          94ms 

在这种情况下,您正在查看 service 而不是 deployment。如果你运行这个命令并查看 deploy/books,成功率仍然是 100%。这样做的原因是 error-injector 是一个完全独立的 deployment, 并且流量正在服务级别(service level)转移。请求永远不会到达 books pod,而是重新路由到错误注入器的 pod。

清理

要从集群中删除本指南中的所有内容,请运行:

 
 
 
 
  1. kubectl delete ns booksapp 

 【编辑推荐】

  1. 中国程序员开发的远程桌面火了!Mac可用,仅9MB,支持自建中继器
  2. 3分钟带你彻底搞懂 Kafka
  3. 抖音服务器带宽有多大,才能供上亿人同时刷?
  4. 火爆Github!这个号称后现代编辑能超越Vim么?
  5. 2021年最危险的七大攻击技术

分享名称:Linkerd2.10(StepbyStep)—混沌工程之注入故障
本文网址:http://www.mswzjz.cn/qtweb/news32/436032.html

攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能