ツイート

新しいツイートを表示

会話

河野太郎がマイナンバーカードの住所照合についてデジタル音痴ぶりを如何なく発揮した件 河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…(中略)将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』… さらに表示
メディアを再生できません。
再読み込み
431
5,828
思いつきで適当に言うけど、例えば「丁目」「番」を置換で「-」にして、あとMIDで漢数字を抽出して一から順に並べてセルわけてFINDでアラビア数字にするとか。逆も然り。一回組んでしまえばずっと使えると思うんだけど、そんなに大変な何かがあるのかな、、、
19.6万
件の表示
返信を表示
例題 「〇〇市藤 八 十一の三一ニ条ビル401」 この住所を丁目番地に該当しそうな部分を英数字にして置換してください。
丁目や番だけで済めばいいですけど、ものによっては地名にも複数の書き方があったりしますよ。 「市ケ谷」と「市ヶ谷」とか「真美ヶ丘」と「真美が丘」とか
2丁目8番を2-8にするとして。 二丁目4番or二丁目4番地(本来は2丁目8番)を2-4と置換し、2-8とは別として扱う。ただし二丁目8番地しか存在しない場合であれば、慣例的に2丁目8番であろうとみなして、2-8であり同一のものとして扱う。しかし置換処理だけで頑張っているので妥当性は判断しない。 と?
ちなみにミスったらニュースになるオマケがつきます。 報道「またしても住所システムでxxxx件の入力ミス!xx億円が無駄に!」 大臣「AIでどうにかなると聞いていた。騙された思いで大変遺憾だ。業者には再発防止の徹底を申し入れたい」
素人質問で、大変、恐縮ですが、例えば、四日市、八戸、北九州、千葉etc...のように漢数字が入っていたり、八丁堀、麻布十番、名号etc..のように、地名の途中に番地を表す文字がある場合はどのようにするのですか?そのあたりまで、考慮されているのであれば、noteを書かれましたら、読もうと思います
データクレンジングって大変なんですよ。 例えば「石川県石川郡野々市町本町」 これを都道府県/市区町村で分けようとしても、正規表現では無理。 結局、住所データベースを用意しての突合作業後、それでも漏れたデータは個別に照合して…みたいな。 「郡/字/大字」辺りも悩みの種だったなぁ…。
番地入力欄に「番」がつく町域名があるだけで終わるんですがそれは。 麻布十番が麻布十-になりますけど笑
返信をさらに表示

Twitterを使ってみよう

今すぐ登録して、タイムラインをカスタマイズしましょう。
Appleのアカウントで登録
アカウントを作成
アカウントを登録することにより、利用規約プライバシーポリシーCookieの使用を含む)に同意したとみなされます。

トレンド

いまどうしてる?

日本のトレンド
クラスター発生
トレンドトピック: 陽性の疑い全校生徒2340人の2割
日本のトレンド
拓哉ドラマ
日本のトレンド
リゼロコラボ
トレンドトピック: 種村先生セガサミー
ニュース · トレンド
パンくん
1,358件のツイート
ゲーム · トレンド
小学生同士
2,034件のツイート