Java全栈技术体系复习提纲（AI扩展版）

一、Java核心基础
二、Spring全家桶
三、数据库相关
四、消息中间件
五、缓存中间件
六、RPC框架
七、搜索引擎
八、日志收集与监控
九、云原生与云服务
十、分布式系统与架构
十一、微服务架构
十二、大数据生态系统
十三、开发框架与工具
十四、代码设计与模式
十五、安全
十六、性能优化
十七、软技能与工程实践
十八、编程语言与新技术
十九、新兴技术趋势
二十、人工智能与大模型
二十一、AI应用开发框架
二十二、检索增强生成（RAG）
二十三、智能体（Agent）
二十四、技能（Skill）
二十五、函数调用（Function Calling）
二十六、提示工程（Prompt Engineering）
二十七、Spring AI
二十八、模型微调（Fine-tuning）
二十九、模型部署与服务化
三十、MLOps与LLMOps
三十一、AI安全与伦理
三十二、多模态AI
三十三、低代码AI平台
三十四、行业AI应用

一、Java核心基础

1.1 Java语言特性

Java 8-17新特性（Lambda、Stream、Optional、Module等）
泛型、枚举、注解、反射
异常处理体系
集合框架（List/Set/Map、Concurrent集合）
多线程与并发（Thread、Executor、Fork/Join、并发工具类）
JVM内存模型、垃圾回收机制
类加载机制
Java SPI、动态代理
序列化与反序列化

1.2 JUC并发包

ConcurrentHashMap、CopyOnWriteArrayList
CountDownLatch、CyclicBarrier、Semaphore
ReentrantLock、ReadWriteLock、StampedLock
ConcurrentLinkedQueue、BlockingQueue
ThreadLocal、Atomic类
线程池（ThreadPoolExecutor、ScheduledThreadPoolExecutor）
并发工具（Fork/Join框架、Phaser）

1.3 JVM底层

运行时数据区（堆、栈、方法区、程序计数器）
垃圾收集器（Serial、Parallel、CMS、G1、ZGC、Shenandoah）
垃圾回收算法（标记-清除、复制、标记-整理、分代）
内存溢出与内存泄漏
类加载器双亲委派模型
JVM调优参数（-Xms、-Xmx、-XX等）
字节码执行引擎
HotSpot虚拟机架构

二、Spring全家桶

2.1 Spring Framework

IoC容器（BeanFactory、ApplicationContext）
Bean生命周期、作用域
三级缓存协同工作流程（以 A ↔ B 循环依赖为例）
- 1、创建 Bean A，完成实例化（调用构造函数）后，Spring 会创建一个 ObjectFactory 放入三级缓存，此时 A 尚未填充属性。
  2、A 进行属性注入时发现依赖 B，转而创建 B。
  3、B 实例化后，属性注入发现依赖 A。此时 Spring 按顺序查找：
  一级缓存 ❌（A 未完成）
  二级缓存 ❌（尚未提前曝光）
  三级缓存 ✅ 找到 A 的 ObjectFactory
  4、调用 factory.getObject() 获取 A 的早期引用，移入二级缓存，并清除三级缓存中的该 Factory。
  5、B 拿到 A 的早期引用后，继续完成自己的初始化，最终放入一级缓存。
  6、A 继续完成属性填充（此时 B 已完整），执行初始化方法，从二级缓存移除，最终放入一级缓存。
Spring EL表达式
AOP原理（JDK动态代理、CGLIB）
事务管理（@Transactional、传播机制、隔离级别）
Spring MVC核心流程（DispatcherServlet、HandlerMapping等）
消息队列（JmsTemplate、JmsListener）
任务调度（@Scheduled、TaskExecutor、Quartz整合）
测试支持（Spring Test、MockBean）
国际化、类型转换、格式化
数据访问（JdbcTemplate、TransactionTemplate）
Spring Boot自动装配原理
Spring Boot Starters
Spring Boot Actuator
Spring Boot DevTools
Spring Boot Admin
Spring Boot Configuration Processor

2.2 Spring Data

Spring Data JPA（Hibernate整合、Repository、Specification）
Spring Data MongoDB
Spring Data Redis
Spring Data Elasticsearch
Spring Data Cassandra
分页与排序、QueryDSL

2.3 Spring Security

认证与授权（Authentication、Authorization）
过滤器链（SecurityFilterChain）
OAuth2、JWT、SAML
Method Security（@PreAuthorize、@PostAuthorize）
Session管理、CSRF防护
Remember-Me、LDAP集成
自定义UserDetailsService、AuthenticationProvider

2.4 Spring Cloud（微服务）

2.4.1 微服务概念理解

概念：每个服务都在自己的进程中运行，并使用轻量级机制（通常是 HTTP RESTful API）RPC进行通信。
核心特征：
- 单一职责：每个服务专注于一个特定的业务功能（如用户服务、订单服务、支付服务）
- 独立部署：服务可以独立开发、测试、部署和扩展，互不影响。
- 去中心化治理：不同服务可以根据需求选择不同的技术栈、数据库和编程语言。
- 数据分散管理：每个服务拥有独立的数据库，避免共享数据库导致的耦合。
- 故障隔离：单个服务的故障不会导致整个系统崩溃（需配合容错机制）。
核心组件：
- 服务注册与发现：管理服务实例地址，让服务之间能够互通调用
  - Nacos：集服务注册发现和配置管理于一体。支持 AP/CP 模式切换，性能高，界面友好。
  - Consul：基于 Go 语言，支持多数据中心，强一致性（CP）。
- 配置中心：集中管理所有微服务的配置文件，支持动态刷新（修改配置无需重启服务）。
  - Nacos config：与注册中心共用一套集群，运维成本低，支持配置版本管理和监听。
  - Spring cloud config：原生组件，通常需配合 Git/SVN 存储配置，刷新机制相对复杂（需总线 Bus）
  - Apollo：适用于微服务配置管理场景。它不仅能管理配置，还能实现配置的实时推送、版本管理、灰度发布、权限管理和**审计日志。
- 服务调用与负载均衡：
  - dubbo ：使用 TCP 长连接和序列化协议，性能优于 HTTP。
  - OpenFeign ：声明式的 HTTP 客户端，通过接口和注解即可调用远程服务，代码简洁
  - Spring Cloud LoadBalancer：提供客户端负载均衡能力，支持多种策略（轮询、随机、权重等）。
- 熔断降级与限流
  - Sentinel：支持流量控制、熔断降级、系统自适应保护，并提供实时监控控制台。
- 网关
  - Spring Cloud Gateway：基于 Spring Boot 2.x + WebFlux (Reactor 模式)，性能强劲，异步非阻塞，是目前的标准选择。
- 链路追踪
  - SkyWalking：国产开源，对 Java 应用无侵入（Agent 探针方式），功能丰富，国内使用极广。
- 消息中心
- 任务调度
  - Spring Cloud Task
  - xxl-job

Spring Cloud Netflix（Eureka、Ribbon、Feign、Hystrix、Zuul）
Spring Cloud Gateway
Spring Cloud Config（配置中心）
Spring Cloud Bus（消息总线）
Spring Cloud Sleuth、Zipkin（分布式追踪）

2.4.2 Spring Cloud Alibaba

Nacos（注册中心、配置中心）
Sentinel（流量控制、熔断降级）
- 功能：面向分布式服务架构的轻量级流量控制组件，主要以流量为切入点，从流量控制、熔断降级、系统负载保护等多个维度来维护系统的稳定性。
- 核心概念：资源（Resource）
  - 定义：资源可以是任何需要保护的代码块，如一个 HTTP 接口、一个 RPC 调用、一段业务逻辑、甚至是一个 SQL 查询。
  - 抽象：开发者通过 SphU.entry(resourceName) 或注解 @SentinelResource 将代码标记为资源。
  - 意义：将业务逻辑与保护逻辑解耦，Sentinel 只关心“资源是否被允许执行”，不关心具体业务。
- 核心机制：插槽链（Slot Chain）
  这是 Sentinel 最精妙的架构设计。Sentinel 内部维护了一个责任链模式（Chain of Responsibility），由一系列 ProcessorSlot 组成。
  流程：当请求进入资源时，会依次经过链上的每个 Slot。
  功能分离：每个 Slot 负责单一职责，例如：
  NodeSelectorSlot：收集资源的调用链路拓扑。
  ClusterBuilderSlot：构建集群维度的统计数据。
  FlowSlot：根据限流规则检查流量。
  DegradeSlot：根据熔断降级规则检查状态。
  SystemSlot：根据系统负载（Load/CPU/RT）进行整体保护。
  扩展性：架构师可以通过自定义 Slot 轻松扩展新的检查逻辑（如自定义黑名单、灰度逻辑），而无需修改核心代码。
  架构师视角：这种设计体现了开闭原则（OCP）。核心框架稳定，业务规则可动态插拔。相比于硬编码的限流逻辑，Slot Chain 提供了极高的灵活性和可观测性基础。
- 流量控制（Flow Control）
  Sentinel 支持多种限流模式，其底层基于滑动时间窗口算法统计实时流量。
  统计结构：
  LeapArray：核心数据结构，基于内存的环形数组。
  Bucket：时间片（默认500ms），存储该时间片内的通过数、阻断数、RT等指标。
  滑动窗口：通过移动窗口指针，实时计算最近 N 秒的总和，避免全量扫描，保证 O(1) 复杂度。
  限流模式：
  直接拒绝（Quick Fail）：超过阈值直接抛出 FlowException。
  Warm Up（预热）：令牌桶算法变种，缓慢增加阈值，防止冷启动瞬间压垮系统。
  排队等待（Uniform Rate）：漏桶算法，让请求以恒定速率通过，处理突发流量削峰填谷。
  关联限流：当关联资源（如支付接口）繁忙时，限流当前资源（如下单接口）。
  限流维度：
  QPS：每秒请求数。
  线程数：并发线程数，适合保护慢调用（如数据库连接池耗尽场景）。
- 熔断降级（Circuit Breaking）
  当依赖的服务出现不稳定（RT过高、异常比例高）时，自动切断调用，防止雪崩。
  策略：
  - 慢调用比例：RT 超过设定阈值的请求比例达到阈值即熔断。
  - 异常比例：业务异常占比达到阈值即熔断。
  - 异常数：单位时间内异常数量达到阈值即熔断。
  状态机：
  - Closed（关闭）：正常状态，请求通过，持续统计指标。
  - Open（打开）：熔断状态，直接拒绝所有请求。
  - Half-Open（半开）：熔断一段时间后，放行少量请求探测。若成功则恢复 Closed，若失败则重新 Open。
  架构师视角：Sentinel 的熔断是应用内（Client-side）的，不同于 Hystrix 的线程池隔离（虽然 Sentinel 也支持线程数限流来模拟隔离）。它更轻量，没有线程上下文切换开销，但要求业务线程本身不能阻塞太久，否则会影响整个 Tomcat/Jetty 线程池。
- 系统自适应保护（System Protection）
  这是 Sentinel 区别于其他限流组件的特色功能。
  原理：不针对单个资源，而是监控整个系统的 Load（仅Linux）、CPU Usage、平均 RT、入口 QPS、线程数。
  Bbr 算法借鉴：参考 TCP BBR 拥塞控制算法，当系统指标超过阈值（如 Load > CPU 核数），自动限制入口流量，确保系统在最大容量下运行而不崩溃。
- 架构部署与数据流转
  Sentinel 采用轻量级核心库 + 控制台（Dashboard）的架构。
  . 组件交互
  Client（应用端）：引入 sentinel-core 依赖。
  嵌入在应用中，无外部依赖。
  负责采集数据、执行规则、上报监控。
  Dashboard（控制台）：独立部署的 Web 应用。
  提供可视化界面配置规则。
  接收客户端心跳和监控数据。
  注意：Dashboard 本身不拦截流量，规则推送到客户端后，由客户端内存执行。
- 规则推送模式（关键）
  架构师需根据场景选择规则持久化方案：
  原始模式（内存态）：规则存在 Dashboard，重启丢失。仅适合测试。
  - Pull 模式：客户端主动从配置中心（Nacos/ZK/Apollo）拉取规则。
  优点：简单，客户端自主控制。
  缺点：实时性稍差（取决于拉取间隔）。
  - Push 模式（推荐）：Dashboard 将规则推送到配置中心，客户端监听配置中心变化。
  优点：实时生效，运维操作直观。
  实现：需改造 Dashboard 的数据源写入逻辑，并引入 sentinel-datasource-nacos 等依赖。
- 集群限流（Cluster Flow Limit）
  单机限流无法应对多实例均匀分布的场景（如总阈值 1000，10 个实例，单机设 100 可能不准）。
  架构：引入 Token Server（令牌服务器）。
  模式：
  - Embedded（嵌入式）：某个应用节点兼任 Token Server（适合小规模）。
  - Standalone（独立）：独立部署 Token Server 集群（适合大规模）。
  流程：客户端请求 Token Server 获取令牌，拿到令牌才执行业务。
  代价：增加了网络 RT，需权衡一致性与性能
Seata（分布式事务）
- 它的核心目标是解决微服务架构下，跨数据库、跨服务的“数据一致性”难题，同时力求在性能和易用性之间找到最佳平衡点。
- 四种事务模式
  - AT模式
  - TCC模式
  - Saga模式
  - XA模式
RocketMQ（消息队列）

OpenFeign声明式服务调用
Resilience4j熔断器
Spring Cloud Gateway路由配置
Spring Cloud Stream
- 消息驱动用于屏蔽底层消息中间件差异（如 Kafka, RabbitMQ, RocketMQ），提供统一的编程模型。
Spring Cloud Task
Spring Cloud Kubernetes

2.5 Spring Batch

Job、Step设计
ItemReader、ItemProcessor、ItemWriter
任务调度与并行处理
事务管理、重试机制
分区与远程分块

2.6 Spring Integration

消息通道、消息端点
企业集成模式（EIP）
适配器（JMS、MQ、HTTP、WebSocket等）
路由器、过滤器、转换器

2.7 Spring WebFlux

Reactor编程模型（Flux、Mono）
响应式编程、非阻塞IO
WebFlux vs Spring MVC对比
响应式数据访问（R2DBC、Reactive Redis）
函数式编程模型（RouterFunction、HandlerFunction）

2.8 常见问题

2.8.1springBoot启动慢怎么优化？

Bean 扫描优化：缩小 @ComponentScan 范围，避免扫描无关包。
懒加载：开启 spring.main.lazy-initialization=true，将 Bean 创建压力分散到运行时。
外部依赖：检查是否有慢的网络请求（如连接远程配置中心、数据库）发生在启动阶段。
新技术：如果是云原生场景，可以考虑 Spring Boot 3 + GraalVM Native Image 提升启动速度。

2.8.2 Spring Boot 自动装配原理？

核心是@EnableAutoConfiguration注解

注解通过@import导入选择器
利用SPI机制加载META-INF/spring.factories 或者 imports文件中的配置类
配合@conditional系列注解（如ConditionalOnClass），按需加载Bean
自定义Starter也是这个原理。

2.8.3 @Transactional 声明失效的场景？

本质是AOP代理失效，常见有3类

自调用问题：同类中方法A调用方法B，A没事务，B有事务，因为this.B() 绕过了代理对象。解决方案是注入自身或者AspectJ。
异常被吃掉：方法内部的try-catch异常，事务管理器感知不到。
数据库/配置问题：比如Mysql的MylSAM引擎不支持事务，或者传播行为配置错误
代理方法不是public

2.8.3 Sping如何解决循环依赖

通过三级缓存解决单例Bean的setter注循环依赖

核心逻辑：A依赖B，B依赖A。A实例化后，在属性填充前，把自己早期的引用暴露到缓存中。B拿到A的早期引用完成初始化，然后A再继续完成初始化。
为什么需要三级缓存：主要是为了兼容AOP。如果A需要代理早期暴露的引用必须是代理对象，三级缓存通过ObjectFactory延迟创建代理
构造器的注入的循环依赖，解决不了。因为实例化之前就卡住了，以及原型Bean的循环依赖。时间开发中尽量避免循环依赖。
三级缓存，每一级缓存的对象是什么？
1. 一级是完整实例化的单实例Bean对象（已实例化+属性填充+初始化方法执行）
2. 二级是提前曝光的早期bean的引用，已实例化未完成属性填充和初始化，用于打破循环依赖，让其他Bean拿到引用。
3. 三级是ObjectFactory的工厂对象。不直接存 Bean，而是存一个能动态生成早期引用的工厂。在需要时才调用 getObject()，并可在此处决定是否返回 AOP 代理对象。

三、数据库相关

3.1 MySQL

存储引擎（InnoDB、MyISAM）特性对比
索引结构（B+Tree、哈希、全文索引）
索引优化（联合索引、覆盖索引、最左前缀）
事务隔离级别、MVCC机制
锁机制（行锁、表锁、意向锁、间隙锁、临键锁）
分库分表方案（ShardingSphere、MyCat）
主从复制、读写分离
SQL优化（EXPLAIN分析、慢查询优化）
数据备份与恢复
字符集与排序规则
日志系统（redo log、undo log、binlog、slow log）
参数调优（innodb_buffer_pool_size等）

3.2 PostgreSQL

与MySQL对比特性
高级索引（GIN、GiST、SP-GiST、BRIN）
分区表、继承
全文搜索、JSON支持
窗口函数、CTE（公用表表达式）
并行查询
复制机制（流复制、逻辑复制）
扩展插件（PostGIS、pg_partman）

3.3 NoSQL数据库

Redis（单机、集群、哨兵、主从）
- 数据结构（String、Hash、List、Set、SortedSet、HyperLogLog、Bitmap、GEO）
- 持久化（RDB、AOF）
- 主从复制、哨兵模式、集群模式
- 缓存穿透、缓存击穿、缓存雪崩
- 缓存一致性、分布式锁（Redisson）
- Lua脚本、Pipeline、事务
- 内存淘汰策略
MongoDB
- 文档模型、BSON格式
- 副本集、分片集群
- 聚合管道、MapReduce
- 索引类型（单字段、复合、多键、哈希、文本、地理空间）
- 读写 Concern、写关注
Cassandra
- 列族存储、分布式架构
- Partition Key、Clustering Key
- 一致性级别（QUORUM、ONE、ALL等）
- Gossip协议、Hinted Handoff
- Compaction策略
HBase
- HDFS存储、Region架构
- RowKey设计、过滤器
- 数据模型、版本控制
- Coprocessor
Elasticsearch
- 倒排索引、分片与副本
- 映射（Mapping）、分析器（Analyzer）
- 查询DSL、聚合（Aggregation）
- 集群发现、脑裂问题
- 索引生命周期管理（ILM）
Neo4j（图数据库）
InfluxDB（时序数据库）

3.4 连接池

HikariCP（高性能）
Druid（阿里巴巴，监控功能）
C3P0、DBCP2
连接池配置参数（maxActive、maxIdle、minIdle、maxWait等）
连接泄露检测、SQL监控

3.5 ORM框架

MyBatis
- 动态SQL、插件机制
- 一级缓存、二级缓存
- 执行原理（SqlSession、Executor）
- 注解开发、XML开发
- 分页插件原理（PageHelper）
MyBatis-Plus
- ActiveRecord、Lambda表达式
- 分页插件、性能分析插件
- 多租户、分库分表插件
JPA（Hibernate、EclipseLink）
- 实体关系映射（OneToMany、ManyToMany）
- 脏检查、懒加载、N+1问题
- HQL、Criteria查询
- 二级缓存、查询缓存
- 乐观锁、悲观锁
- 批量操作、StatelessSession

四、消息中间件

4.1 Kafka

架构设计（Broker、Producer、Consumer、Controller、ZooKeeper）
主题与分区、副本机制
生产者（Producer）参数调优（acks、retries、batch.size、linger.ms）
消费者（Consumer）组、分区分配策略（Range、RoundRobin、Sticky）
消费模型（At-least-once、At-most-once、Exactly-once）
偏移量管理（__consumer_offsets）
ISR、HW、LEO
消息保留策略（时间、大小）
重平衡（Rebalance）机制
连接器（Kafka Connect）、流处理（Kafka Streams）
Kafka集群监控、运维工具（kafka-topics、kafka-consumer-groups）
MirrorMaker跨数据中心复制
Kafka与Spring Boot整合（spring-kafka）

4.2 RabbitMQ

AMQP协议、Exchange类型（Direct、Topic、Fanout、Headers）
队列、绑定、路由键
消息持久化、确认机制（Publisher Confirm、Consumer Ack）
优先级队列、延时队列（TTL、死信队列）
消费者预取数量（Prefetch Count）
集群架构（普通集群、镜像集群）
高可用性（Mirrored Queues）
Federation、Shovel
管理插件、监控（RabbitMQ Management Plugin）
性能调优
Spring AMQP使用

4.3 RocketMQ

架构（NameServer、Broker、Producer、Consumer）
消息模型（集群、广播）
顺序消息、乱序消息
延时消息（18个等级）
事务消息（半事务、本地事务、发送结果确认）
消息过滤（Tag、SQL92）
消息轨迹、监控
刷盘策略（同步、异步）
高可用与集群部署（DLedger、主从架构）
与Kafka对比
RocketMQ-Console
Spring Cloud Alibaba RocketMQ

4.4 ActiveMQ

支持协议（OpenWire、STOMP、AMQP、MQTT）
持久化（KahaDB、JDBC、LevelDB）
网络连接器（Network of Brokers）
虚拟主题、组合目的地
高可用（Master-Slave、Shared File System Master/Slave、JDBC Master/Slave）
监控管理（JMX、Web Console）

4.5 Pulsar

分层架构（Broker、BookKeeper、Apache Zookeeper）
主题分区、多租户
持久化（BookKeeper）
消费模型（Exclusive、Failover、Shared、Key Shared）
延迟队列、重试队列
跨地域复制（Geo-Replication）
Pulsar IO connectors
Pulsar Functions（轻量级计算）
与Kafka对比

4.6 消息中间件对比选型

吞吐量、可靠性、功能特性对比
适用场景（日志处理、业务解耦、削峰填谷、实时计算等）

五、缓存中间件

5.1 Redis详细

数据结构详细解析
- String（SETNX、INCR、INCRBY、SETEX、PSETEX）
- List（LPUSH、RPUSH、BLPOP、BRPOP、LINDEX、LRANGE）
- Hash（HSET、HGET、HMSET、HMGET、HGETALL、HINCRBY、HINCRBYFLOAT）
- Set（SADD、SREM、SMEMBERS、SINTER、SUNION、SDIFF）
- Sorted Set（ZADD、ZREM、ZRANGE、ZREVRANGE、ZRANGEBYSCORE、ZREVRANGEBYSCORE）
- Bitmaps（BITCOUNT、BITOP、SETBIT、GETBIT）
- HyperLogLog（PFADD、PFCOUNT、PFMERGE）
- Geospatial（GEOADD、GEORADIUS、GEORADIUSBYMEMBER、GEOHASH）
- Stream（XADD、XREAD、XREADGROUP、XACK、XGROUP）
持久化（RDB快照、AOF追加、混合持久化）
主从复制、哨兵模式、集群模式详细
缓存模式（Cache Aside、Read/Write Through、Write Behind）
缓存一致性解决方案
分布式锁实现（SETNX、RedLock、Redisson）
Lua脚本复杂原子操作
慢查询分析、bigkeys检查
内存碎片整理、内存淘汰策略
Pipeline批量操作
事务（MULTI、EXEC、WATCH、DISCARD）
发布订阅（PUBLISH、SUBSCRIBE）
客户端连接管理
密码认证、重命名危险命令
在线数据迁移、无感知扩容

六、RPC框架

6.1 Dubbo

核心架构（Container、Registry、Protocol、Monitor、Config、Proxy、Invoker）
服务暴露与引用流程
SPI扩展机制
协议支持（Dubbo、RMI、HTTP、WebService、Hessian、Thrift、gRPC）
集群容错（Failover、Failsafe、Failfast、Forking、Broadcast）
负载均衡（Random、RoundRobin、LeastActive、ConsistentHash）
过滤器链机制
动态配置、动态注册
注册中心（ZooKeeper、Redis、Nacos、Etcd、Consul）
监控中心（Dubbo Admin、Dubbo Monitor）
服务降级、服务限流
异步调用、泛化调用
隐式参数、附件传递
分布式事务（Seata整合）
与Spring Boot整合
新版本Dubbo3（Triple协议、服务网格集成）

6.2 Spring Cloud OpenFeign

声明式服务调用
负载均衡（Ribbon、Spring Cloud LoadBalancer）
熔断降级（Hystrix、Resilience4j、Sentinel）
请求压缩与响应压缩
日志记录、错误处理
与Ribbon、Feign整合

6.3 gRPC

Protocol Buffers序列化
四种服务方法（Unary RPC、Server streaming、Client streaming、Bidirectional streaming）
流式传输、多路复用
拦截器、认证、TLS加密
客户端负载均衡
与Spring Boot整合（grpc-spring-boot-starter）
性能对比（gRPC vs HTTP/JSON vs Dubbo）

6.4 Apache Thrift

IDL定义、多语言支持
传输协议、传输层
服务端与客户端实现
异步与非阻塞调用
与Dubbo对比

6.5 Hession

二进制序列化协议
HTTP传输
轻量级、易用性

七、搜索引擎

7.1 Elasticsearch详细

倒排索引、分词器（IK、Smart Chinese、Standard、Edge NGram）
文档模型、映射类型（Mapping）
分析器（Analyzer）、字符过滤器、分词器、Token过滤器
查询DSL（Query、Filter、Bool、Must、Should、Must Not、Match、Term、Range、Exists、Prefix、Wildcard、Regexp、Fuzzy、Geo）
聚合（Metric、Bucket、Pipeline）
高亮显示（Highlight）
Suggest（Term、Phrase、Completion）
多索引搜索、跨集群搜索（CCS）
索引生命周期管理（ILM）
数据架构设计（分片数、副本数、路由）
写入优化（bulk、refresh_interval、translog）
搜索优化（filter context、doc values、fielddata）
集群健康状态（ green/yellow/red）
脑裂问题（votes、discovery.zen.minimum_master_nodes）
快照与恢复（Snapshot/Restore）
安全（X-Pack、OpenDistro Security）
监控（Kibana、Prometheus exporter）
中文分词优化、同义词、停用词
向量搜索（k-NN）

7.2 Solr

基于Lucene、Schema设计
客户端（SolrJ）
查询解析器（lucene、edismax、dismax）
分词器配置
索引优化、缓存（filterCache、queryResultCache、documentCache）
集群架构（SolrCloud、ZooKeeper）
分片与副本、路由策略
数据导入（DataImportHandler）
实时获取、近实时搜索
监控（Metrics API）

7.3 Lucene

倒排索引结构
分词器接口（Analyzer）
查询解析器（QueryParser）
索引创建、更新、删除
评分机制（TF、IDF、BM25）
字段类型（String、Text、Numeric、Date）
多字段查询、多条件查询
高亮显示、相似度算法

八、日志收集与监控

8.1 ELK/EFK Stack

Elasticsearch（存储、搜索）
Logstash（采集、处理、过滤）
Filebeat（轻量级日志采集）
Fluentd（日志收集器）
Kibana（可视化分析）
日志管道搭建（Filebeat → Logstash → Elasticsearch → Kibana）
Grooming、索引生命周期管理
性能调优（批量写入、索引滚动）

8.2 分布式追踪

Zipkin（数据采集、存储、查询、UI）
Sleuth（Spring Cloud整合）
Brave（OpenTracing实现）
SkyWalking（APM）
Jaeger（CNCF毕业项目）
链路追踪原理（Trace、Span、Annotation）
跨服务调用追踪

8.3 监控系统

Prometheus（监控指标收集）
- 数据模型（Metric、Label、Sample）
- PromQL查询语言
- 拉模型（Pull）与推模型（Push）
- 告警规则（Alertmanager）
- 多维度标签查询
- 存储TSDB（时间序列数据库）
- 服务发现、动态配置
Grafana（数据可视化）
- 仪表盘设计
- 数据源
- 告警规则

九、云原生与云服务

9.1 云平台产品

AWS（Amazon Web Services）
- EC2、S3、EBS、RDS、DynamoDB、Lambda、ECS/EKS、CloudFront、CloudWatch、VPC、IAM
Azure
- VM、Blob Storage、SQL Database、AKS、Functions、Logic Apps、Azure Monitor
Google Cloud Platform（GCP）
- Compute Engine、Cloud Storage、BigQuery、Cloud SQL、GKE、Cloud Functions
阿里云
- ECS、OSS、RDS、ACK、函数计算、NAS、日志服务、SLS、VPC、RAM
腾讯云
- CVM、COS、TKE、云函数、SCF
华为云
- ECS、OBS、CCE

9.2 Serverless

AWS Lambda、Azure Functions、Google Cloud Functions
阿里云函数计算、腾讯云SCF
Knative（Kubernetes上的Serverless框架）
OpenFaaS、Fission
事件驱动、冷启动、扩缩容
FaaS与BaaS对比
无服务器应用构建

9.3 Service Mesh

Istio
- Envoy Sidecar代理
- 流量管理（VirtualService、DestinationRule、Gateway）
- 安全（mTLS、认证、授权）
- 可观测性（Jaeger、Prometheus、Kiali、Grafana）
- 弹性（熔断、重试、超时、故障注入）
Linkerd
- 轻量级、高性能
- 自动TLS、指标监控
- 多集群连接
Consul Connect
Apache SkyWalking（与Service Mesh集成）

十、分布式系统与架构

10.1 分布式理论

CAP定理、BASE理论
一致性算法（Paxos、Raft、ZAB）
分布式事务理论（2PC、3PC、TCC、SAGA、最大努力通知）
分布式锁（Redis分布式锁、ZooKeeper分布式锁）
分布式ID生成（雪花算法、UUID、Redis自增、数据库分段、Leaf、Snowflake优化版）
分布式会话管理（Spring Session、Redis Session）

10.2 分布式组件

ZooKeeper
- ZNode节点类型（持久、临时、顺序、临时顺序）
- Watcher监听机制
- ACL权限控制
- 集群架构（Leader/Follower、ZAB协议）
- 典型应用场景（配置中心、注册中心、分布式锁、Leader选举、队列）
- Curator客户端框架
- 与Kafka、Dubbo、Hadoop整合
Nacos
- 服务注册与发现
- 配置中心（动态推送）
- 命名空间、分组、服务名层级管理
- AP与CP模式切换
- 集群部署、数据隔离
Consul
- 多数据中心支持
- 健康检查（HTTP、TCP、Script、TTL）
- KV存储、ACL
- 服务发现、DNS接口、HTTP API
- Consul Template
Etcd
- 键值存储、Watch机制
- Raft一致性算法
- gRPC API、HTTP API
- Kubernetes核心组件
Apollo
- 配置发布、回滚
- 灰度发布
- 权限管理、操作审计
- 多环境、多集群
- 客户端长轮询、配置热更新

10.3 分布式事务

理论基础（2PC、3PC、TCC、SAGA、本地消息表）
框架实现
- Seata（AT、TCC、SAGA、XA模式）
- LCN（Tm、Tc、Mq模式）
- Hmily（TCC模式）
- 自研分布式事务框架
消息队列实现最终一致性（本地消息表、事务消息）
最大努力通知模式

10.4 分布式链路追踪

OpenTracing标准
OpenTelemetry标准（合并OpenTracing与OpenCensus）
Trace、Span、Baggage
采样策略（固定采样、概率采样）
上下文传递（B3、W3C Trace Context）
性能分析

10.5 分布式限流熔断

限流算法（计数器、滑动窗口、漏桶、令牌桶）
熔断器模式（Closed、Open、Half-Open）
降级策略（默认值、缓存、空值、异常）
框架：Sentinel（规则配置、流控、熔断降级、系统保护）、Resilience4j、Hystrix（已停维护）
配置热点参数

10.6 分布式任务调度

XXL-Job
- 调度中心、执行器设计
- 分片广播、故障转移、任务依赖
- 路由策略（轮询、随机、一致性HASH、故障转移、最闲等）
- 任务超时控制、失败重试
- 日志查看、任务监控
Elastic-Job
- 基于ZooKeeper的分布式调度
- 弹性扩缩容、分片策略
- 幂等性处理
PowerJob
- 工作流、DAG任务
- MapReduce、Script任务
- 动态添加、修改任务
- 报警、重试
Saturn
- 容错、分片、任务治理
Quartz集群模式
Spring Batch分布式任务

10.7 分布式缓存

缓存雪崩、击穿、穿透解决方案
缓存一致性策略（Cache Aside、Read Through、Write Through、Write Behind）
多级缓存（Caffeine Local Cache + Redis Distributed Cache）
热点Key探测与处理
大Value拆分
缓存预热
缓存监控指标（Hit Rate、Miss Rate、Memory Usage）

10.8 分布式文件存储

FastDFS
- tracker、storage架构
- 文件上传下载流程
- 文件同步、扩容
- 存储策略（平衡、就近）
- 断点续传
MinIO
- S3兼容对象存储
- erasure code纠删码
- 分布式部署、网关模式
- 生命周期管理
HDFS
- NameNode、DataNode架构
- HDFS Federation、HA高可用
- 读写流程、副本放置策略
- 缓存、内存计算（Alluxio）
Ceph
- RADOS、CRUSH算法
- 存储池、PG、OSD
- 对象存储（RGW）、块存储（RBD）、文件系统（CephFS）
- 高可用与容灾
云存储（OSS、COS、S3）

10.9 分布式协调

ZooKeeper（见上文）
分布式锁实现对比
分布式选举（Leader Election）
分布式屏障（Barrier）
分布式队列
分布式计数器

十一、微服务架构

11.1 服务治理

服务注册与发现（Eureka、Nacos、Consul、ZooKeeper）
服务配置管理（Config Server、Apollo、Nacos Config）
服务路由（网关、负载均衡、重试、熔断）
服务降级、限流、熔断
API Gateway设计模式
服务网格（Service Mesh）
服务健康检查与状态管理
服务版本管理与多版本共存

11.2 API网关

Spring Cloud Gateway
- Route定义、Predicate、Filter
- 全局过滤器、局部过滤器
- 路由 predicate工厂
- 性能对比
Kong（Nginx + OpenResty）
- 插件机制
- 管理API、Admin API
- 数据存储
- 高可用部署
APISIX（Apache）
- 动态路由、热加载
- 插件
- 控制面与数据面分离
- etcd存储
Gateway设计模式
限流算法实现
请求转发与负载均衡

11.3 服务容错与 Resiliency

熔断器（Hystrix、Resilience4j、Sentinel）
服务降级（Fallback、后备方案）
超时与重试策略
断路器状态转换
舱壁隔离（Thread Pool、Semaphore）
缓存与降级数据

11.4 服务通信

同步通信（RESTful、RPC）
异步通信（消息队列）
事件驱动架构（EDA）
GraphQL（API查询语言）
gRPC（高性能RPC）
通信协议对比

11.5 服务版本管理

API版本控制策略
向后兼容性设计
API文档化（Swagger/OpenAPI）
API生命周期管理
API网关版本路由

11.6 服务治理最佳实践

服务拆分原则
领域驱动设计（DDD）、限界上下文
服务粒度控制
服务依赖关系管理
服务治理平台整体架构

十二、大数据生态系统

12.1 Hadoop

HDFS架构（NameNode、DataNode、Secondary NameNode）
HDFS读写流程、HA高可用
机架感知、副本放置策略
HDFS Federation
MapReduce编程模型
- Map阶段、Shuffle阶段、Reduce阶段
- Combiner、Partitioner、InputFormat、OutputFormat
- Writable、Comparable接口
- 计数器、排序、Secondary Sorting
YARN架构（ResourceManager、NodeManager、ApplicationMaster、Container）
YARN调度器（FIFO Scheduler、Capacity Scheduler、Fair Scheduler）
Hadoop集群搭建、配置调优
HDFS命令操作、Java API
MapReduce应用开发
小文件问题与解决方案
数据压缩（Snappy、LZO、Gzip、Bzip2）

12.2 Spark

RDD编程（Transformations、Actions、惰性求值、Lineage）
DAG调度、Stage划分
Spark架构（Driver、Executor、Master、Worker）
Spark运行模式（Standalone、YARN、Mesos、Kubernetes）
Spark SQL
- DataFrame、Dataset API
- Catalyst优化器、Tungsten引擎
- 数据源（Parquet、ORC、Avro、JSON、JDBC、Hive）
- UDF、UDAF、UDTF
- 读写优化
- 执行计划分析、优化
Spark Streaming
- DStream、Receiver、Direct Approach
- 窗口操作、状态管理
- 容错机制
- 与Kafka集成
- 与Flink对比
Structured Streaming
- Event Time、Processing Time
- Watermark机制处理乱序数据
- 输出模式
- 端到端Exactly-once保证
- 连续处理
Spark MLlib
- 特征工程、特征提取
- 分类、回归、聚类、推荐算法
- Pipeline API
- 模型保存与加载
Spark GraphX
- 图结构
- 图操作
- Pregel API
性能调优
Spark on K8s
Spark SQL性能优化

12.3 Flink

DataStream API
时间语义（Event Time、Ingestion Time、Processing Time）
Watermark水位线、乱序数据处理
状态管理（Keyed State、Operator State、状态后端）
检查点（Checkpoint）与保存点（Savepoint）、Exactly-once语义
窗口（Time Window、Count Window、Session Window）
侧输出流（Side Output）、多路输出
ProcessFunction
算子链（Chaining）
资源调度
容错机制
Table API & SQL
- 流处理统一API
- 时间属性、窗口表值函数
- 连接查询、维表连接
- 转流
状态后端选型
性能调优
与Kafka、HBase、JDBC、Elasticsearch等 Connector集成
应用部署
监控
SQL Gateway
Blink演进

12.4 Hive

HiveQL语法与优化
Metastore元数据管理
执行引擎（MR、Tez、Spark、Flink）
UDF、UDAF、UDTF开发
分区表、分桶表
文件格式（TextFile、SequenceFile、RCFile、ORC、Parquet、Avro）
Hive索引
数据压缩
向量化查询
Cost-Based Optimizer（CBO）
Hive on TEZ优化
HiveServer2、Beeline
数据挖掘与分析

12.5 HBase

数据模型（RowKey、Column Family、Column、Version、Timestamp）
架构（HMaster、RegionServer、ZooKeeper）
Region预分区、RowKey设计原则
读写流程、MemStore、HLog、StoreFile、Compaction
负载均衡、Region迁移、Split
Coprocessor
过滤器
二级索引
与Hive集成
与Spark集成
与Phoenix整合
性能调优
高可用架构

12.6 Kafka（见IV章节延伸）

Kafka Connect
Kafka Streams
KSQL
与Flink、Spark Streaming、Storm对比

12.7 数据仓库与数据湖

数据仓库建模（维度建模）
数据分层（ODS、DWD、DWS、ADS、DM）
ETL/ELT流程设计
数据湖架构（Delta Lake、Hudi、Iceberg）
- ACID事务、Time Travel、Schema Evolution
- 小文件合并、数据清理
数据质量管理
元数据管理（Atlas、DataHub）
数据血缘
数据安全与隐私

12.8 实时计算

Storm
Spark Streaming（见上文）
Flink（见上文）
实时数仓架构（Lambda、Kappa）
实时推荐系统
实时风控
实时ETL

12.9 数据采集与同步

Sqoop
DataX
Flume
Canal
Maxwell
Debezium
Ogg
Kafka Connect

12.10 数据查询引擎

Presto/Trino
Impala
Doris（Apache Doris）
ClickHouse
Kylin
Druid

十三、开发框架与工具

13.1 构建工具

Maven（聚合、继承、Profile、仓库、生命周期）
Gradle（Groovy/Kotlin DSL、多项目构建、增量构建）
Ant+Ivy
多模块项目构建
依赖冲突解决
私有仓库搭建（Nexus、Artifactory）

13.2 IDE与开发辅助

IntelliJ IDEA
Eclipse
VS Code + Java扩展包
Maven Helper
JRebel、Spring Boot DevTools

13.3 代码质量工具

Checkstyle、PMD、SpotBugs/FindBugs
SonarQube/SonarCloud
- 质量配置、质量阈
- 多语言支持
- 集成CI/CD
- PR/MR装饰
- 多分支分析
Error Prone
ArchUnit

13.4 包依赖分析

依赖树可视化
依赖收敛
重复依赖、无用依赖分析

13.5 文档工具

Swagger/OpenAPI
Asciidoctor
PlantUML
Javadoc

13.6 测试框架与工具

JUnit 5
TestNG
Mock框架（Mockito、EasyMock、PowerMock、JMockit）
断言库（AssertJ、Hamcrest）
集成测试（Spring Test、REST Assured、DBUnit）
Testcontainers
契约测试（Spring Cloud Contract、Pact）
BDD测试（Cucumber、JBehave）
混沌工程
性能测试（JMeter、Gatling、Locust、ab、wrk）
性能剖析（Arthas、JProfiler、YourKit、VisualVM、Async Profiler、JMC）
安全测试
WebUI测试（Selenium）

十四、代码设计与模式

14.1 设计模式

创建型模式
结构型模式
行为型模式
模式原则（SOLID、DRY、YAGNI、KISS、LOD）
反模式（Anti-Pattern）

14.2 软件架构模式

分层架构
六边形架构
整洁架构
领域驱动设计（DDD）
CQRS、Event Sourcing
微服务架构
洋葱架构

14.3 代码重构与优化

重构手法
坏味道识别
单元测试驱动重构
性能重构
持续重构实践
代码度量

14.4 领域建模

UML图
领域模型与数据模型映射
领域语言
限界上下文（Bounded Context）
上下文映射（Context Map）

十五、安全

15.1 应用安全

OWASP Top 10
XSS防护、CSRF防护
SQL注入防护
文件上传漏洞
命令注入防护
路径遍历防护
ReDoS防护
暴力破解防护
会话固定攻击防护
点击劫持防护
CORS配置
敏感信息泄露
重定向漏洞
依赖组件安全
安全编码规范
代码审计技巧与工具

15.2 认证与授权

认证机制（Basic Auth、Digest Auth、Form-based、Session-based、Token-based）
授权模型（RBAC、ABAC、ACL、PBAC）
Spring Security详细配置
OAuth 2.0授权框架
OpenID Connect（OIDC）
单点登录（SSO）
Kerberos、LDAP集成
CAS
安全协议（HTTPS/TLS）
密钥管理
API安全
SAML 2.0协议

15.3 网络安全

HTTPS/TLS配置
防火墙配置
VPN
IDS/IPS
WAF
DDoS防护
网络隔离
零信任网络

15.4 数据安全

数据加密（对称、非对称、哈希）
传输安全
存储安全
密钥交换
数字签名、数字证书
证书颁发机构（CA）体系
证书吊销

15.5 云安全

云安全责任共担模型
身份与访问管理（IAM）
云安全组、网络ACL
云审计
云原生的安全最佳实践
容器安全
Serverless安全

15.6 安全监控与合规

安全审计日志
异常检测
漏洞扫描
渗透测试
合规性检查
安全运营中心（SOC）
SIEM

十六、性能优化

16.1 JVM调优

堆内存设置
垃圾收集器选择
GC参数调优
年轻代与老年代比例
元空间设置
直接内存
堆栈大小
栈溢出、堆溢出、元空间溢出排查
线程堆栈分析
内存dump分析
GC日志分析
性能剖析工具
锁优化
逃逸分析、标量替换
即时编译（JIT）
压缩指针
大页内存
性能监控指标

16.2 应用层性能优化

数据库优化
缓存策略
并发优化
序列化优化
网络IO优化
内存优化
字符串优化
日志优化
JVM预热
类加载优化
反射优化
代码优化
接口设计
资源管理
异步非阻塞架构
响应式编程
压缩传输
连接复用

16.3 数据库性能优化

索引策略
执行计划解读
慢查询优化
锁优化
事务优化
连接池配置
分库分表
读写分离
归档历史数据
分区表
查询重写优化
批量操作优化

16.4 系统架构性能优化

水平扩展 vs 垂直扩展
无状态服务设计
CDN加速
负载均衡策略
服务拆分与聚合
异步处理
网络调优
存储性能
热点数据处理
限流与熔断
压力测试模型
容量规划

十七、软技能与工程实践

17.1 系统设计

高并发系统设计
高可用系统设计
分布式ID生成方案
分布式锁实现方案
分库分表方案
数据同步方案
消息队列选型
缓存架构设计
搜索架构设计
实时数仓架构
微服务拆分粒度
灰度发布方案
可观测性
混沌工程实施

17.2 分布式系统设计模式

回调模式、事件驱动模式
Saga模式、CQRS、Event Sourcing
Bulkhead模式、Circuit Breaker模式
Retry模式、Timeout模式、Cache-Aside模式
Competing Consumers模式、Leader Election模式
Sharding模式

17.3 容量评估与规划

QPS/TPS预估
单机性能基准测试
集群规模计算
扩容预案

17.4 故障排查与应急响应

日志排查
链路追踪分析
压测复现
线程堆栈分析
内存dump分析
GC问题排查
网络问题排查
应急响应流程
系统降级方案
快速回滚
故障复盘

17.5 代码规范与团队协作

Java编码规范
代码审查清单
Git分支策略与工作流
Pull Request流程
代码质量门禁
技术债务管理
知识分享
技术方案评审流程
敏捷开发实践

17.6 可观测性

Logging、Tracing、Metrics
ELK栈
Prometheus
Grafana
SLO/SLI/SLA
错误预算

17.7 故障演练与混沌工程

故障注入场景
监控告警有效性验证
系统韧性评估
Chaos Mesh、ChaosBlade

17.8 成本优化

云资源优化
存储分层
闲置资源清理
自动伸缩策略

十八、编程语言与新技术

18.1 其他JVM语言

Kotlin
Groovy
Scala
Clojure
JRuby、Jython
语言互操作

18.2 Go语言

语法特性
包管理
错误处理
并发编程
内存管理
性能优化
标准库
微服务框架
与Java对比

18.3 Rust语言

所有权、借用、生命周期
零成本抽象、内存安全
并发编程
包管理（Cargo）
错误处理
模式匹配
与Java/C++对比

18.4 Python

语法特性
常用库
异步编程
虚拟环境
性能优化
与Java互操作

18.5 JavaScript/Node.js

ES6+语法
Node.js
npm、yarn、pnpm
常用框架
前端框架
TypeScript
全栈开发
WebSocket
微服务

18.6 函数式编程

Java函数式编程
不可变性、纯函数
高阶函数、柯里化、偏函数
函数组合、Monad
副作用控制
响应式编程
模式匹配
递归优化

18.7 响应式编程

Reactive Streams规范
Reactor（Flux、Mono、Scheduler、Operators）
RxJava 2/3
Vert.x
背压处理
非阻塞IO
与Spring WebFlux整合

十九、新兴技术趋势

19.1 AI与机器学习

机器学习基础
深度学习框架
NLP
计算机视觉
推荐系统
模型服务化
AI模型压缩
MLOps

19.2 区块链

区块链原理
公有链
智能合约
联盟链
共识算法
跨链技术
应用场景
隐私保护
与Java结合

19.3 边缘计算

边缘计算架构
边缘节点、边缘网关
MEC
IoT设备管理
边缘AI推理

19.4 量子计算

量子比特、叠加、纠缠
量子门、量子电路
量子算法
量子编程框架
量子威胁与抗量子密码

19.5 Web3与去中心化应用

去中心化身份（DID）
去中心化存储
DeFi
NFT
DAO
智能合约安全
去中心化预言机
L2扩容方案

19.6 低代码/无代码平台

可视化拖拽开发
流程引擎（Camunda、Flowable、Activiti）
表单引擎
规则引擎（Drools、EasyRules）
报表引擎
代码生成器
平台选型

19.7 其他新兴技术

WebAssembly（Wasm）
eBPF
5G应用
数字孪生
时空数据库
ARM架构服务器
异构计算

二十、人工智能与大模型

20.1 大语言模型（LLM）基础

模型架构
- Transformer架构
- 解码器-only模型
- 编码器-解码器模型
- 编码器模型
主流模型
- OpenAI：GPT-3.5、GPT-4、GPT-4 Turbo、o1推理模型
- Anthropic：Claude 2/3系列
- Meta：LLaMA、LLaMA2、LLaMA3、Code Llama
- Google：Gemini、PaLM 2
- 开源模型：Falcon、Mistral、Mixtral、Qwen、Baichuan、ChatGLM、InternLM、Yi
- 中文优化：Qwen、ChatGLM、文心ERNIE、通义千问
模型参数规模
模型量化
模型并行与张量并行
模型蒸馏
上下文窗口
思维链、思维树
指令微调（SFT、RLHF、DPO）
提示工程
Tokenizer与分词
模型评估基准

20.2 AI应用开发框架

20.2.1 LangChain（Java版）

LangChain4j核心组件
LangChain4j扩展
LangChain最佳实践
LangChain生态系统（LangSmith、LangServe、LangGraph）

20.2.2 LlamaIndex（Java版）

数据连接器
文档处理
索引类型
检索策略
查询引擎
存储上下文

20.2.3 Semantic Kernel（Java）

Planner
Native Functions与Plugins
Memories
Skills
Connectors
Prompt Template
Context
Kernel

20.2.4 Microsoft AutoGen（Java/.NET）

Multi-Agent Conversation框架
AssistantAgent、UserProxyAgent
GroupChat、GroupChatManager
自定义Agent
工具调用与函数调用
代码执行

20.2.5 国产框架

Dify
FastGPT
Coze
文心一言、通义千问、Claude for Java SDK

二十一、检索增强生成（RAG）

21.1 RAG架构层次

原始RAG（Naive RAG）
高级RAG模式
- 查询扩展
- 查询重写
- 多查询检索
- 混合检索
- 重排序
- 子查询分解
- RAG-Fusion
- 自适应RAG
RAG评估指标

21.2 向量数据库

开源方案
- Milvus
- Qdrant
- Weaviate
- Chroma
- Vespa
- pgvector
- Elasticsearch向量插件
- Redis向量搜索模块
- Apache Lucene
云服务
向量数据库选型对比

21.3 文本分块（Chunking）策略

固定大小分块
语义分块
递归字符文本分割
按句子/段落/标题分块
代码结构分块
重叠分块
上下文增强分块

21.4 嵌入模型（Embedding Models）

OpenAI嵌入模型
Cohere嵌入模型
Google嵌入模型
开源模型（Sentence Transformers、BGE、E5、Jina Embeddings等）
多模态嵌入
跨语言嵌入
领域特定嵌入
嵌入模型评估
嵌入模型部署

21.5 检索引擎

向量检索算法
全文检索
混合检索
重排序（Reranking）
元数据过滤

21.6 RAG优化技术

查询扩展、重写
上下文压缩
文档摘要
步骤分解
HyDE
知识图谱增强
Self-RAG、CRAG
递归RAG
查询路由
索引优化

21.7 RAG评估与监控

检索评估指标
生成评估指标
端到端评估
A/B测试框架
人工评估
自动化评估框架（RAGAS、TruLens、ARES）

二十二、智能体（Agent）

22.1 Agent核心概念

Agent定义
Agent类型
- 基于规则、检索、LLM、工具调用、多模态、自主、对话、任务、通用
Agent能力
Agent与LLM关系
Agent设计原则

22.2 Agent框架

LangChain Agents
AutoGPT
MetaGPT
BabyAGI
HuggingGPT
微软AutoGen
CrewAI
OpenAI Assistant API
ReAct框架
Plan-and-Execute Agent

22.3 Agent工具与能力

内置工具
自定义工具
工具选择策略
工具链、工具组合

22.4 Agent记忆（Memory）

短期记忆
长期记忆
记忆类型
记忆检索
记忆压缩与摘要
记忆存储后端

22.5 Agent规划（Planning）

任务分解
计划生成
计划执行
反思
自适应规划
多步规划
工具使用规划
目标追踪

22.6 多Agent协作

角色定义
通讯协议
协作模式
协调器
投票机制、辩论机制
评判机制
任务分配
知识共享

22.7 Agent评估与监控

Agent性能评估
可解释性
安全评估
可靠性评估

22.8 Agent应用场景

智能客服
代码编程
数据分析
研究助手
内容创作
自动化测试
运维Agent
游戏NPC
科学发现
金融分析

22.9 Agent安全与对齐

对齐问题
恶意使用防护
工具使用权限控制
输出验证
Human-in-the-loop
伦理约束

二十三、技能（Skill）

23.1 Skill概念

Skill定义
Skill与Agent关系
Skill与Tool关系
Skill与Function Calling关系

23.2 Skill设计模式

Skill接口标准化
Skill分类
Skill组合
- 串行
- 并行
- 条件执行
Skill上下文感知
Skill状态管理

23.3 Skill注册与管理

Skill Registry
Skill发现机制
Skill版本管理
Skill热加载
Skill权限控制
Skill隔离（Namespace）

23.4 Skill实现

注解驱动
配置文件驱动
代码实现
LLM Prompt封装
工具封装
Skill链式调用
Skill中间件（AOP）

23.5 Skill生态系统

Skill Market
Skill共享
Skill标准化（OpenAPI-like spec for Skills）
Skill生命周期管理

二十四、函数调用（Function Calling）

24.1 函数调用原理

模型理解工具定义（Schema）
模型选择工具与参数
工具执行与结果返回
多工具调用
工具调用顺序
错误处理与重试

24.2 工具定义（Tool Schema）

OpenAI格式
自定义Schema
参数类型支持
必选参数与可选参数
多工具定义

24.3 函数调用实现

各厂商API
开源模型函数调用
工具调用解析
工具执行与结果反馈
循环调用控制

24.4 工具（Tool）设计

工具分类
工具参数设计
工具返回格式
错误处理
超时控制
权限验证
沙箱执行

24.5 多轮工具调用

连续工具调用
条件工具调用
上下文传递
循环检测
最大步数限制

二十五、提示工程（Prompt Engineering）

25.1 提示设计模式

Zero-shot prompting
Few-shot prompting
Chain-of-Thought（CoT）
Self-Consistency
ReAct
Tree of Thoughts
多种高级提示模式

25.2 提示组件

角色设定
任务描述
上下文
约束条件
输出格式
示例
思考指示
分隔符
步骤分解

25.3 提示优化技术

A/B测试
自动化提示优化
提示模板库
提示版本控制
提示安全
多语言提示

25.4 提示框架

Jinja2模板
Handlebars模板
Mustache模板
字符串格式化
自定义模板引擎

25.5 提示评估

人工评估
自动评估指标
任务特定评估
鲁棒性测试

二十六、Spring AI

26.1 Spring AI核心

设计理念
核心接口（ChatClient、EmbeddingClient、ImageClient等）
模型抽象层
依赖注入与配置
多模型支持
模型参数配置

26.2 Prompt模板

PromptTemplate
MessagePromptTemplate
模板表达式语言
多变量提示
提示模板复用

26.3 消息（Message）体系

Message接口
SystemMessage、UserMessage、AssistantMessage
ToolCallMessage、ToolResponseMessage
消息转换器
消息历史管理

26.4 嵌入（Embedding）

EmbeddingModel接口
嵌入维度与相似度计算
向量存储接口
嵌入模型实现

26.5 函数调用（Function Calling）

工具定义（ToolDefinition、@Tool注解）
工具注册
工具调用流程
多个工具并行调用

26.6 检索增强生成（RAG）

RAG组件
RAG流程集成
文档加载器
文本分块
检索增强对话

26.7 ETL框架

ETL流程
批量索引
数据源支持
文档元数据
增量更新

26.8 图像生成

ImageModel接口
图像生成模型
图像参数
图像保存

26.9 语音处理

语音转文本
文本转语音
音频格式支持

26.10 评估（Evaluation）

EvaluationClient接口
评估维度
评估方法

26.11 流式响应（Streaming）

ChatClient.stream()方法
Server-Sent Events支持
流式输出处理

26.12 上下文管理

消息历史
历史存储方式
上下文截断策略
多轮对话记忆

26.13 安全与治理

API密钥管理
请求限流
访问控制
审计日志
数据脱敏
模型输出过滤
合规性

26.14 可观测性

指标（Metrics）
链路追踪（Tracing）
日志（Logging）
健康检查
性能监控仪表盘

26.15 测试

单元测试
集成测试
提示词测试
端到端测试

26.16 Spring AI与Spring生态整合

Spring Boot自动配置
Spring Data整合
Spring Security整合
Spring Cloud整合
Spring Batch整合
Spring Integration整合
Spring WebFlux响应式支持

26.17 高级特性

多模态输入
多轮对话状态管理
自定义模型适配器
模型fallback策略
模型缓存
批处理优化
并发请求处理
超时与重试
断路器模式

26.18 Production化部署

Docker容器化
Kubernetes部署
配置管理
资源限制
服务暴露
自动缩放
服务网格
日志收集
监控告警
蓝绿部署、金丝雀发布

二十七、模型微调（Fine-tuning）

27.1 微调类型

全参数微调
参数高效微调（PEFT）
- LoRA、QLoRA、AdaLoRA、LoHa、LoRA+
- Prompt Tuning、P-Tuning
指令微调
领域适应
多任务学习

27.2 微调数据准备

数据格式
Prompt-Response对
数据增强、清洗、平衡
数据划分

27.3 微调框架

HuggingFace Transformers + PEFT
PyTorch + DeepSpeed
TensorFlow + Keras
Alpaca-LoRA、LlamaFactory
OpenCompass
国产框架

27.4 微调策略

渐进式微调
层冻结策略
学习率调度
梯度累积
混合精度训练
分布式训练
早停

27.5 模型量化

训练后量化
量化感知训练
动态量化 vs 静态量化
开源量化工具（GPTQ、AWQ、llama.cpp等）

27.6 模型评估

基准测试（MMLU、HellaSwag、GSM8K、HumanEval等）
自定义测试集
成本效益分析

27.7 Java生态微调

Deep Java Library（DJL）
ONNX Runtime Java
微调后模型部署到Java应用

二十八、模型部署与服务化

28.1 推理服务器

vLLM（高性能PagedAttention）
TensorRT-LLM（NVIDIA优化）
Text Generation Inference（TGI）
OpenAI API兼容服务器（LiteLLM、LocalAI、OpenLLM）
llama.cpp
Ollama
国产：FastChat、ModelScope

28.2 模型格式

PyTorch、TensorFlow SavedModel
ONNX
TensorRT Engine
GGUF
CoreML、OpenVINO、TVM
模型转换工具

28.3 服务化架构

REST API
gRPC服务
GraphQL服务
Serverless部署
边缘部署
混合部署
模型版本管理
自动扩缩容
资源调度

28.4 性能优化

批处理（Batching）
注意力优化（FlashAttention、PagedAttention）
量化推理
模型并行（张量并行、流水线并行、专家并行）
内存优化
编译优化
硬件加速器
推理服务监控

28.5 成本优化

模型选择
量化节省资源
缓存策略
请求合并
分级部署
按需加载模型
自动缩放

二十九、MLOps与LLMOps

29.1 ML/AI流水线

数据流水线
训练流水线
部署流水线
监控流水线

29.2 模型注册中心

MLflow Model Registry
Kubeflow Model Registry
Seldon Core Model Registry

29.3 版本控制

代码版本（Git）
数据版本（DVC）
模型版本
实验跟踪（MLflow、Weights & Biases、TensorBoard）

29.4 监控与告警

性能指标
业务指标
数据质量监控
模型质量监控
告警规则
仪表盘

29.5 治理与合规

模型卡片、数据卡片
可解释性（XAI）
公平性与偏见检测
隐私保护
法规遵从
审计追踪

三十、AI安全与伦理

30.1 提示注入（Prompt Injection）

直接注入、间接注入
越狱、提示泄漏
防御策略

30.2 数据安全

训练数据泄露检测
模型反演攻击
成员推断攻击
数据去标识化
差分隐私
联邦学习

30.3 模型安全

对抗性攻击
模型后门
模型提取
防御机制

30.4 内容安全

毒性检测
仇恨言论检测
暴力与骚扰检测
成人内容识别
虚假信息检测

30.5 伦理与偏见

偏见来源、类型
公平性度量
偏见缓解技术
可解释性工具

三十一、多模态AI

31.1 多模态模型

文本-图像（CLIP、BLIP、LLaVA、Qwen-VL等）
文本-语音（Whisper、SpeechT5）
文本-视频（Sora、Runway Gen-2）
多模态统一模型（GPT-4V、Gemini）
3D生成

31.2 多模态理解

图像描述
视觉问答（VQA）
文档理解
表格理解
手势识别

31.3 多模态生成

文生图、图生图
文生视频、图生视频
音频生成
跨模态迁移

31.4 多模态检索

CLIP检索
多模态嵌入
跨模态相似度计算
混合检索

31.5 多模态Agent

视觉Agent
机器人
GUI导航
AR/VR应用

三十二、低代码AI平台

32.1 可视化AI开发

Dify
FastGPT
Coze
国产平台（腾讯云、阿里云、百度千帆等）

32.2 无代码AI

Bubble + AI插件
Retool + AI
Zapier + AI
国产：明道云、简道云、宜搭

32.3 AI工作流引擎

节点类型
工作流设计器
工作流执行引擎
工作流版本与发布
模板市场

32.4 AI组件市场

检索组件
嵌入模型
LLM模型
工具插件
输出解析器
自定义组件

三十三、行业AI应用

33.1 客服与销售

智能客服机器人
销售助手
语音客服
知识库问答

33.2 金融

智能投顾、信用评估、风险控制
欺诈检测、文档审核
合规检查、自动报告
量化交易

33.3 医疗

医学影像诊断、辅助诊断
电子病历分析、药物发现
基因组学、医疗问答
健康管理

33.4 法律

合同审查、法律检索
诉讼策略分析、法律文书生成
合规检查、证据分析

33.5 教育

个性化学习、智能辅导
作业批改、答疑助手
课件生成、语言学习

33.6 编程与开发

代码生成、补全、审查
Bug修复、文档生成
单元测试生成、代码重构
DevOps自动化

33.7 内容创作

写作助手、营销文案
视频脚本、图像生成
多语言翻译、内容摘要
SEO优化

33.8 搜索与推荐

AI搜索引擎、智能推荐系统
个性化搜索、语义搜索
混合推荐、探索-利用

33.9 科学研究

文献检索与综述
论文写作辅助、实验设计
科学发现假设生成
分子设计、生物信息学

33.10 物联网与边缘计算

边缘AI推理、智能家居
工业检测、智能安防
自动驾驶、无人机

总结

本提纲覆盖Java全栈技术体系及AI扩展领域，包含：

传统后端技术栈：Java核心、Spring全家桶、数据库、中间件、分布式系统、大数据组件等
云原生技术：Kubernetes、Service Mesh、Serverless、CI/CD等
AI与LLM：大模型基础、Spring AI、RAG、Agent、Skill、函数调用、提示工程等
工程实践：性能优化、安全、监控、测试、DevOps等
新兴领域：多模态AI、低代码平台、行业应用等

学习建议：

分层学习：基础→框架→应用→高级→前沿
实践驱动：每个主题都结合实战项目
深度优先：选择2-3个领域深入源码级别理解
广度兼顾：了解其他领域核心概念
版本关注：跟踪技术演进，了解替代方案

Java工程师AI转型路径：

基础：Transformer原理、大模型概念、Prompt工程
框架：Spring AI + LangChain4j（Java主流）
存储：向量数据库（pgvector/Milvus）
应用：RAG → Agent → 多Agent协作
高级：微调、部署优化、LLMOps

场景

Java全栈技术体系大纲

Java全栈技术体系复习提纲（AI扩展版）

目录

一、Java核心基础

1.1 Java语言特性

1.2 JUC并发包

1.3 JVM底层

二、Spring全家桶

2.1 Spring Framework

2.2 Spring Data

2.3 Spring Security

2.4 Spring Cloud（微服务）

2.4.1 微服务概念理解

2.4.2 Spring Cloud Alibaba

2.5 Spring Batch

2.6 Spring Integration

2.7 Spring WebFlux

2.8 常见问题

2.8.1springBoot启动慢怎么优化？

2.8.2 Spring Boot 自动装配原理？

2.8.3 @Transactional 声明失效的场景？

2.8.3 Sping如何解决循环依赖

三、数据库相关

3.1 MySQL

3.2 PostgreSQL

3.3 NoSQL数据库

3.4 连接池

3.5 ORM框架

四、消息中间件

4.1 Kafka

4.2 RabbitMQ

4.3 RocketMQ

4.4 ActiveMQ

4.5 Pulsar

4.6 消息中间件对比选型

五、缓存中间件

5.1 Redis详细

六、RPC框架

6.1 Dubbo

6.2 Spring Cloud OpenFeign

6.3 gRPC

6.4 Apache Thrift

6.5 Hession

七、搜索引擎

7.1 Elasticsearch详细

7.2 Solr

7.3 Lucene

八、日志收集与监控

8.1 ELK/EFK Stack

8.2 分布式追踪

8.3 监控系统

九、云原生与云服务

9.1 云平台产品

9.2 Serverless

9.3 Service Mesh

十、分布式系统与架构

10.1 分布式理论

10.2 分布式组件

10.3 分布式事务

10.4 分布式链路追踪

10.5 分布式限流熔断

10.6 分布式任务调度

10.7 分布式缓存

10.8 分布式文件存储

10.9 分布式协调

十一、微服务架构

11.1 服务治理

11.2 API网关

11.3 服务容错与 Resiliency

11.4 服务通信

11.5 服务版本管理

11.6 服务治理最佳实践

十二、大数据生态系统

12.1 Hadoop

12.2 Spark

12.3 Flink

12.4 Hive

12.5 HBase

12.6 Kafka（见IV章节延伸）

12.7 数据仓库与数据湖