Core Library for Unicode
多様な文字コードのデータを Unicode に変換して一括処理したい、外字人名漢字もきちんと表示したいなどの場合にお勧めのツール
製品評価版お問い合わせフォーム
製品概要
製品の特長
- シンプルなAPI
- 高い拡張性と処理能力
- 業務仕様のサポート
- 簡単なインストール
- 柔軟でカスタマイズ可能
機能
簡単なテキスト操作
データのソート、正規化、文字列の一致等の機能を容易に実現するため、さまざまな文字変換及び文字属性分類の機能を備えています。
テキストの正規化(一例):
大文字 ↔ 小文字
例:Unicode TEXT ↔ unicode text
半角 ↔ 全角(日本語のみ)
例:ABCカンパニー ↔ ABCカンパニー
ひらがな ↔ カタカナ(日本語のみ)
等
日本語対応
ISO-2022-JP (JIS)、Shift‑JIS、EUC‑JP などといった日本固有の文字コードでのデータ処理が必要となる場合、これら日本語固有の文字コードからUnicode への変換、あるいはその逆をおこなうためのツールとしてもご利用いただけます。JIS X0213 (JIS 第1~第4水準)にも対応しています。
文字コード変換
Unicode 5.0 と160種類以上の旧来の文字コードとの間の変換をサポートしています。
例:Shift-JIS ↔ Unicode, GB18030 ↔ Unicode
Unicode 文字の分類と変換
- 種類の文字属性および文字種によって
- Unicode 文字の分類と置き換えを行います。
高い実行性能
- 高速かつ効率的で、スレッド・セーフ。
- 文字コードテーブルのダイナミック・ロード
- メモリー必要量を最小限に抑えます。
仕様
- 160種類以上の旧来の文字コードに対応
- Unicode 対応エンコーディング
- Unicode標準 1.2、2.X、3.X、4.X、5.X
- UCS-2 (big-endian または little-endian)
- UTF-7、UTF-8 フォーマット
- バイトオーダーマーク(BOM)有/無
Java及びSGMLの文字参照
- 30種類の文字変換
- コンパクトなライブラリサイズ – 別に500KB – 10MB の変換テーブル
スペック
Deployment availability: | |
プログラミング: |
|
対応文字コード
Unicode 対応ライブラリでカバーできる文字コードリストです。文字コードは言語別になっており、Unicode 対応ライブラリで文字コードと同様に認識される別名も記載されています。Rosette Unicode対応ライブラリのスペックシートをダウンロード。
対応文字コード:
Unicode 文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
BMP | Unicode | BMP, Unicode20:big-endian | |
Java | (way of representing Unicode chars in ASCII) | Sun | Java, Unicode20:BOM:Java, Unicode11:Java, Unicode11:BOM:Java |
UCS2 | ISO-10646-UCS2, UTF16 | Unicode | Unicode |
Unicode Big-endian | Unicode | big-endian, Unicode20:big-endian, Unicode11:big-endian, Unicode11:BOM:big-endian | |
Unicode Little-endian | Unicode | little-endian, Unicode20:little-endian, Unicode11:little-endian, Unicode11:BOM:little-endian | |
Unicode11-UCS2 | Unicode | Unicode11-UCS2, Unicode11:UCS2, Unicode11:BOM:UCS2 | |
Unicode11-UTF7 | Unicode | Unicode11-UTF7, Unicode11:UTF7, Unicode11:BOM:UTF7 | |
Unicode11-UTF8 | Unicode | Unicode11-UTF8, Unicode11:UTF8, Unicode11:BOM:UTF8 | |
UTF7 | Unicode | UTF7, Unicode20:BOM:UTF7 | |
UTF8 | Unicode | UTF8, Unicode20:BOM:UTF8 | |
UTF32 | Unicode | UTF32 | |
UTF8 | Unicode | UTF8, Unicode20:BOM:UTF8 | |
UTF-EBCDIC | Unicode | UTF8-EBCDIC, UTF-8-EBCDIC |
日本語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CCSID 1027 | EBCDIK | Microsoft & IBM | CCSID-1027, CCSID1027 |
CCSID 290 | EBCDIK | Microsoft & IBM | CCSID-290, CCSID290 |
CCSID 930 | IBM | CCSID-930, CCSID930 | |
CCSID 939 | IBM | CCSID-939, CCSID939 | |
CCSID 942 | Microsoft & IBM | CCSID-942, CCSID942 | |
CP10001 | Macintosh Japanese | Microsoft & IBM | CP10001 |
CP20290 | (full/half width Latin & halfwidth katakana) | Microsoft & IBM | CP20290 |
CP21027 | (halfwidth Latin, halfwidth katakana & private use) | Microsoft & IBM | CP21027 |
EUC-JP | Unix | EUC-JP, EUC-J | |
EUC-JP-JISROMAN | Unix | EUC-JP-JISROMAN | |
ISO 2022-JP | International or National Standard | ISO-2022-JP | |
JapaneseAutoDetect | For encodings, see JapaneseAutodetect | Rosette Autodetect | JapaneseAutoDetect |
JIS_X_0201 | HalfWidthKatakana | International or National Standard | JIS_X_0201, IBM897 |
JIS_X_0208 | International or National Standard | JIS_X_0208 | |
MacJapanese | Macintosh | MacJapanese | |
Shift-JISMS | MS_Kanji, CP932 | Microsoft & IBM | Shift-JIS, SJIS |
Shift_JIS-2004 | ShiftJISX0213 | Microsoft & IBM | Shift_JISX0213, Shift-X |
Shift-JIS78 | Shift-JIS without MS/IBM extensions | Unix/Macintosh | Shift-JIS78, SJIS78 |
中国語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
ChineseAutoDetect | For encodings, see ChineseAutodetect | Rosette Autodetect | ChineseAutoDetect |
HKSCS | International or National Standard | HKSCS | |
ISO 2022-CN | International or National Standard | ISO-2022-CN | |
GB 18030 | International or National Standard | GB18030 | |
Chinese, Simplified | |||
CCSID 935 | IBM | CCSID-935, CCSID935 | |
EUC-CN | GB2312, EUC-SC | Unix | GB2312 |
GB2312 | EUC-CN, EUC-SC | International or National Standard | GB2312 |
HZ-GB-2312 | HZ-GB-2312 | International or National Standard | HZ, HZ-GB-2312 |
CP936 | GBK | Microsoft & IBM | CP936, GBK |
MacChineseSimplified | Macintosh | MacChineseSimplified | |
Chinese, Traditional | |||
CCSID 937 | IBM | CCSID-937, CCSID937 | |
CNS-11643-1986 | EUC-TW | International or National Standard | CNS-11643-1986 |
CNS-11643-1992 | EUC-TW | International or National Standard | CNS-11643, CNS-11643-1992 |
EUC-TW | CNS-11643-1986, CNS-11643-1992 | Unix | CNS-11643, CNS-11643-1992 |
GB12345 | International or National Standard | GB12345 | |
Big5 | International or National Standard | Big5 | |
Big5+ | International or National Standard | Big5+, Big5Plus | |
CP10002 | Macintosh Traditional Chinese | Microsoft & IBM | CP10002 |
CP950 | Microsoft & IBM | CP950 | |
MacChineseTraditional | Macintosh | MacChineseTraditional |
朝鮮語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10003 | Macintosh Korean | Microsoft & IBM | CP10003 |
CP1361 | Korean Johab (based on KSC 5861-1992) | Microsoft & IBM | CP1361 |
CP949 | Microsoft & IBM | CP949 | |
EUC-KR | KS_C_5861-1992 | Unix | EUC-KR, EUC-K |
ISO 2022-KR | KS_C_5601-1987 | International or National Standard | ISO-2022-KR |
Johab | International or National Standard | Johab | |
KoreanAutoDetect | See KoreanAutodetect | Rosette Autodetect | KoreanAutoDetect |
KoreanAutoDetect | See KoreanAutodetect | Rosette Autodetect | KoreanAutoDetect |
KS_C_5601-1987 | ISO-2022-KR | International or National Standard | ISO-2022-KR |
KS_C_5861-1992 | EUC-KR | International or National Standard | KS_C_5861-1992 |
MacKorean | Macintosh | MacKorean |
ラテン語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10000 | Macintosh Roman | Microsoft & IBM | CP10000 |
CP10029 | Macintosh Latin2 | Microsoft & IBM | CP10029 |
CP10082 | (with mathematical symbols) | Microsoft & IBM | CP10082 |
CCSID 1047 | EBCDIC (for IBM Open Systems platform) | Microsoft & IBM | CCSID1047 |
CP20261 | (with private use characters) | Microsoft & IBM | CP20261 |
CP20269 | Microsoft & IBM | CP20269 | |
CP20273 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20273 |
CP20277 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20277 |
CP20278 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20278 |
CP20280 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20280 |
CP20284 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20284 |
CP20285 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20285 |
CP20297 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20297 |
CP20833 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20833 |
CP20871 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20871 |
CP28591 | ASCII + Latin accented vowels | Microsoft & IBM | CP28591 |
CP28593 | Latin 3 Alphabet (ISO) | Microsoft & IBM | CP28593 |
CP850 | MS DOS Multilingual, MS-DOS Latin1 | Microsoft & IBM | CP850 |
CP870 | (with fullwidth punctuation) | Microsoft & IBM | CP870 |
ISO 8859-1 | Latin1 | International or National Standard | ISO-8859-1, Latin1, IBM819, iso-ir-100 |
ISO 8859-15 | Latin1 + Euro symbol & accented characters | International or National Standard | ISO-8859-15, Latin9 |
ISO 8859-2 | ISO_8859-2, Latin2, iso-ir-101 | International or National Standard | Latin2, ISO-8859-2 |
MacRoman | Macintosh | MacRoman | |
NextStep | Apple/Next | NextStep | |
Adobe-Standard-Encoding | (used in PS printers) | Other Corporate | Adobe-Standard-Encoding |
Adobe-Standard-Encoding | (used in PS printers) | Other Corporate | Adobe-Standard-Encoding |
Latin, Canadian French | |||
CP863 | MS DOS Canadian French | Microsoft & IBM | CP863 |
Latin, Central European | |||
CP28592 | Central European Alphabet (ISO) | Microsoft & IBM | CP28592 |
MacCentralEuropean | Macintosh | MacCentralEuropean | |
Latin, Eastern European | |||
CP1250 | Microsoft & IBM | CP1250 | |
Latin, Esperanto | |||
CP20905 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20905 |
Latin, Portuguese | |||
CP860 | MS DOS Portuguese | Microsoft & IBM | CP860 |
Latin, Southeast European | |||
ISO 8859-3 | Latin3 | International or National Standard | Latin3, ISO-8859-3 |
Latin, US English | |||
ASCII | US-ASCII, CP367 | International or National Standard | ASCII |
CP037 | EBCDIC | Microsoft & IBM | CP037 |
CP1026 | EBCDIC | Microsoft & IBM | CP1026 |
CP1252 | MS Windows Latin1 (ANSI) | Microsoft & IBM | CP1252 |
CP20105 | US ASCII | Microsoft & IBM | CP20105 |
CP437 | MS-DOS Latin US | Microsoft & IBM | CP437 |
CP500 | EBCDIC | Microsoft & IBM | CP500 |
CP875 | EBCDIC | Microsoft & IBM | CP875 |
アラビア語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10004 | Macintosh Arabic | Microsoft & IBM | CP10004 |
CP1256 | Microsoft & IBM | CP1256 | |
CP20420 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20420 |
CP28596 | Arabic Alphabet (ISO) | Microsoft & IBM | CP28596 |
CP708 | ASMO708 | Microsoft & IBM | CP708 |
CP720 | Transparent ASMO | Microsoft & IBM | CP720 |
CP864 | Microsoft & IBM | CP864 | |
ISO 8859-6 | ISOLatinArabic | International or National Standard | ISO_8859-6, Arabic, iso-ir-127, ECMA-114, ASMO-708 |
アイスランド語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10079 | Macintosh Icelandic | Microsoft & IBM | CP10079 |
CP861 | MS DOS Icelandic | Microsoft & IBM | CP861 |
MacIcelandic | Macintosh | MacIcelandic |
ウクライナ語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
MacUkrainian | Macintosh | MacUkrainian |
ギリシャ語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10006 | Macintosh Greek 1 | Microsoft & IBM | CP10006 |
CP1253 | Microsoft & IBM | CP1253 | |
CP20423 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20423 |
CP28597 | Greek Alphabet (ISO) | Microsoft & IBM | CP28597 |
CP737 | Microsoft & IBM | CP737 | |
CP869 | IBM Modern Greek | Microsoft & IBM | CP869 |
ISO 8859-7 | ISOLatinGreek | International or National Standard | ISO-8859-7, Greek |
MacGreek | Macintosh | MacGreek |
キリル語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10007 | Macintosh Cyrillic | Microsoft & IBM | CP10007 |
CP1251 | MS Windows Cyrillic (Slavic) | Microsoft & IBM | CP1251 |
CP20866 | Cyrillic Alphabet, KOI8-R | Microsoft & IBM | CP20866 |
CP20880 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20880 |
CP21025 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP21025 |
CP21866 | Ukrainian KOI8-RU | Microsoft & IBM | CP21866 |
CP28595 | Cyrillic Alphabet (ISO) | Microsoft & IBM | CP28595 |
CP855 | IBM Cyrillic | Microsoft & IBM | CP855 |
CP866 | MS DOS Russian | Microsoft & IBM | CP866 |
ISO 8859-5 | ISOLatinCyrillic | International or National Standard | ISOLatinCyrillic |
MacCyrillic | Macintosh | MacCyrillic |
クジャラーティ語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
MacGujarati | Macintosh | MacGujarati | |
ISCII-Gujarati | Indian Standards | x-iscii-gu, windows-57010 |
グルムキー語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10010 | Macintosh Gurmukhi | Microsoft & IBM | CP10010 |
MacGurmukhi | Macintosh | MacGurmukhi |
クロアチア語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
MacCroatian | Macintosh | MacCroatian |
ケルト語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
ISO 8859-14 | Latin8 | International or National Standard | ISO-8859-14, Latin8, iso-ir-199 |
スラブ語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP852 | MS DOS Slavic | Microsoft & IBM | CP852 |
タイ語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP20838 | (with fullwidth Latin & punctuation) | Microsoft & IBM | CP20838 |
CP874 | IBMThai | Microsoft & IBM | CP874 |
ISO 8859-11 (draft) | ISOLatinThai | International or National Standard | Thai |
MacThai | Macintosh | MacThai |
デーヴァナーガリー語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
MacDevanagari | Macintosh | MacDevanagari | |
ISCII-Devanagari | Indian Standards | x-iscii-de, windows-57002 |
トルコ語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10081 | Macintosh Turkish | Microsoft & IBM | CP10081 |
CP1254 | Microsoft & IBM | CP1254 | |
CP28599 | Turkish (ISO) | Microsoft & IBM | CP28599 |
CP857 | IBM Turkish | Microsoft & IBM | CP857 |
ISO 8859-9 | Latin5 | International or National Standard | ISO-8859-9, Latin5, iso-ir-148 |
MacTurkish | Macintosh | MacTurkish |
ノルディック語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP865 | MS DOS Nordic | Microsoft & IBM | CP865 |
ISO 8859-10 | Latin6 | International or National Standard | Latin6, ISO-8859-10, iso-ir-157 |
バルト語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP28594 | Baltic Alphabet (ISO) | Microsoft & IBM | CP28594 |
CP775 | Microsoft & IBM | CP775 | |
ISO 8859-4 | Latin4 | International or National Standard | ISO-8859-4, Latin4, iso-ir-110 |
ISO 8859-13 | Latin7 | International or National Standard | ISO-8859-13, Latin7 |
ベトナム語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP1258 | Microsoft & IBM | CP1258 |
ヘブライ語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10005 | Macintosh Hebrew | Microsoft & IBM | CP10005 |
CP1255 | Microsoft & IBM | CP1255 | |
CP28598 | Hebrew Alphabet (ISO) | Microsoft & IBM | CP28598 |
CP38598 | ASCII + Hebrew and private use characters | Microsoft & IBM | CP38598 |
CP862 | Microsoft & IBM | CP862 | |
ISO 8859-8 | ISOLatinHebrew | International or National Standard | Hebrew |
マラーヤラム語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
CP10017 | Macintosh Malayalam | Microsoft & IBM | CP10017 |
ISCII-Malayalam | Indian Standards | x-iscii-ma, windows-57009 |
ルーマニア語文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
MacRomanian | Macintosh | MacRomanian |
記号文字コード
文字コード | 別名 | 発行者 | Rosetteでの別名 |
---|---|---|---|
Adobe-Symbol-Encoding | (used in PS printers) | Adobe | Adobe-Symbol-Encoding |
Adobe-Zapf-Dingbats-Encoding | (used in PS printers) | Adobe | Adobe-Zapf-Dingbats-Encoding |
CP10008 | Macintosh RSymbol (Right-left symbol) | Microsoft & IBM | CP10008 |
MacDingbats | Macintosh | MacDingbats | |
MacSymbol | Macintosh | MacSymbol |
お問い合わせ
お問い合わせ
弊社製品に関するお問い合わせおよび製品評価版のご利用をご希望の方は、こちらのフォームよりお問い合わせください。
製品評価版をご希望の際は、ご使用のOSおよび開発言語の種類を必ずご記載ください。
連絡
EMAIL:
info@basistech.jp
電話:
03-3551-2947