Question 1

Precomposed vs Decomposed Unicode Characters

Accepted Answer

## Precomposed vs Decomposed Characters

Unicode provides two ways to represent many accented characters: as a single precomposed code point, or as a decomposed sequence of base character plus combining marks.

### Examples of Both Representations

| Character | Precomposed | Decomposed |
|-----------|-------------|------------|
| é | U+00E9 (1 code point) | U+0065 + U+0301 (2 code points) |
| ö | U+00F6 (1 code point) | U+006F + U+0308 (2 code points) |
| ç | U+00E7 (1 code point) | U+0063 + U+

Question 2

When is this useful?

Accepted Answer

Directly relevant to anyone building text processing, search, or file handling systems. macOS developers frequently encounter this issue because the file system returns NFD-normalized filenames, while files created on Windows use NFC. Cross-platform applications must handle both forms.

Precomposed vs Decomposed Unicode Characters

Detailed Explanation

Precomposed vs Decomposed Characters

Examples of Both Representations

Where Each Form Comes From

The String Length Problem

Which to Choose?

Use Case

Try It — Unicode Normalizer

Related Topics

Character	Precomposed	Decomposed
é	U+00E9 (1 code point)	U+0065 + U+0301 (2 code points)
ö	U+00F6 (1 code point)	U+006F + U+0308 (2 code points)
ç	U+00E7 (1 code point)	U+0063 + U+0327 (2 code points)
Å	U+00C5 (1 code point)	U+0041 + U+030A (2 code points)